Mechanistic Interpretability คืออะไร? เทคโนโลยีที่ทำให้เราส่องสมอง AI ได้เป็นครั้งแรก

ตอนที่หมอสั่ง MRI สมองคุณ คุณไม่ได้ต้องเชื่อแค่ว่า “สมองน่าจะปกตินะ” คุณได้ดูภาพจริง เห็นเส้นเลือด เห็นเนื้อเยื่อ เห็นว่าส่วนไหนทำงาน ส่วนไหนผิดปกติ

แต่กับ AI ที่เราใช้กันทุกวัน, ไม่ว่าจะ ChatGPT, Claude, หรือ Gemini, เราไม่เคยมี “MRI” แบบนั้นเลย

เราป้อนคำถามเข้าไป ได้คำตอบออกมา แล้วก็หวังว่ามันจะถูก… จนกระทั่ง MIT Technology Review ประกาศให้ Mechanistic Interpretability เป็นหนึ่งใน 10 เทคโนโลยีแห่งปี 2026 ที่จะเปลี่ยนโลก

นี่คือเรื่องราวของเทคโนโลยีที่ทำให้เราส่องสมอง AI ได้เป็นครั้งแรก และทำไมมันถึงสำคัญกับทุกคน ไม่ใช่แค่นักวิจัย

Mechanistic Interpretability คืออะไร?

Mechanistic Interpretability (การตีความเชิงกลไก) คือสาขาวิจัยที่พยายาม “ผ่า” โมเดล AI ออกมาดูข้างใน เพื่อทำความเข้าใจว่ามันคิดยังไง ตัดสินใจยังไง และทำไมมันถึงตอบแบบที่ตอบ ไม่ใช่แค่ดูว่ามันตอบถูกหรือผิด แต่เข้าใจ กลไกจริงๆ ที่อยู่เบื้องหลัง

ถ้าเปรียบกับร่างกายมนุษย์ มันก็เหมือนความแตกต่างระหว่าง “รู้ว่าคนนี้เดินได้” กับ “เข้าใจว่ากล้ามเนื้อ เส้นเอ็น และสมองส่วนไหนทำงานร่วมกันให้เขาเดินได้”

สาขานี้เกิดขึ้นมาเพราะปัญหาใหญ่ที่เรียกว่า black box problem (ปัญหากล่องดำ) ซึ่งก็คือ AI สมัยใหม่อย่าง large language model มีพารามิเตอร์หลายแสนล้านตัว ทำงานร่วมกันอย่างซับซ้อน แม้แต่คนที่สร้างมันขึ้นมาก็อธิบายไม่ได้ว่า “ทำไมมันถึงตอบแบบนี้”

“Modern generative AI systems are opaque in a way that fundamentally differs from traditional software. When a generative AI system does something, we have no idea, at a specific or precise level, why it makes the choices it does.”

Dario Amodei, CEO ของ Anthropic, จากบทความ “The Urgency of Interpretability” (เมษายน 2025)

ทำไมเราต้อง “ส่องสมอง AI”?

คำตอบสั้นที่สุดคือ ถ้าเราควบคุมสิ่งที่เราไม่เข้าใจไม่ได้ แล้ว AI กำลังจะฉลาดขึ้นเรื่อยๆ เราจะมั่นใจได้ยังไงว่ามันจะไม่ทำสิ่งที่เราไม่ต้องการ?

ปัญหาที่ Mechanistic Interpretability พยายามแก้มีอยู่หลายระดับ

Hallucination (การหลอน) คือเมื่อ AI ตอบข้อมูลเท็จอย่างมั่นใจ ถ้าเราดูข้างในได้ เราจะรู้ว่า “ตรงไหนที่มันกำลังเดา” เพราะ งานวิจัยล่าสุดพบว่า activation ภายในโมเดลจะแตกต่างกันเมื่อมันกำลัง “เดา” กับเมื่อมัน “จำได้จริง”

Deception (การหลอกลวง) คืออีกหนึ่งความกังวลใหญ่ ทีมวิจัยของ Anthropic และ Google DeepMind ค้นพบว่าโมเดลบางตัวมีพฤติกรรมที่ดูเหมือน “พยายามหลอก” ผู้ใช้ และพวกเขาใช้เทคนิค Mechanistic Interpretability เพื่อศึกษาว่าพฤติกรรมนี้เกิดขึ้นจากกลไกอะไรข้างใน

Bias (อคติ) คือเรื่องที่หลายคนห่วง ถ้าโมเดล AI มีอคติซ่อนอยู่ การส่องข้างในจะช่วยให้เราเห็นว่า “features” (ลักษณะเฉพาะ) ตัวไหนที่ทำให้มันลำเอียง และแก้ไขได้ตรงจุด

ยิ่งไปกว่านั้น Anthropic ใช้ Mechanistic Interpretability ในการตรวจสอบความปลอดภัยก่อนปล่อย Claude Sonnet 4.5 ออกสู่สาธารณะ ซึ่งนับเป็นครั้งแรกที่มีการนำงานวิจัย interpretability มาใช้ตัดสินใจเรื่อง deployment จริงๆ

มันทำงานยังไง? (อธิบายแบบไม่ต้องมีพื้นฐาน)

Neural network (โครงข่ายประสาทเทียม) ที่อยู่ในโมเดล AI ทุกตัว ประกอบด้วย “เซลล์ประสาท” เทียมเป็นล้านๆ ตัวที่เชื่อมต่อกัน ปัญหาคือ เซลล์ประสาทแต่ละตัวไม่ได้ทำหน้าที่แค่อย่างเดียว

นักวิจัยเรียกปัญหานี้ว่า polysemanticity (หลายความหมาย) ซึ่งก็คือ neuron (เซลล์ประสาทเทียม) ตัวเดียวอาจตอบสนองต่อทั้ง “แมว” และ “รถสปอร์ต” และ “อาหารญี่ปุ่น” พร้อมกัน ทำให้อ่านไม่ออกว่ามันกำลัง “คิด” เรื่องอะไรอยู่

สาเหตุที่มันเป็นแบบนี้เพราะสิ่งที่เรียกว่า superposition (การซ้อนทับ) ซึ่งก็คือ AI อัดข้อมูลมากกว่าที่ neuron จะรับได้ เหมือนพยายามยัดของ 100 ชิ้นลงกล่อง 50 ช่อง โดยการซ้อนทับกัน

Sparse Autoencoders: แว่นขยายที่ช่วยเราถอดรหัส

เครื่องมือสำคัญที่นักวิจัยใช้แก้ปัญหานี้คือ Sparse Autoencoders หรือ SAE (ตัวเข้ารหัสอัตโนมัติแบบเบาบาง) ซึ่งเป็นเหมือน “แว่นขยาย” ที่ช่วยแยก neuron ที่ปนกันยุ่งเหยิงออกมาเป็น features ที่เข้าใจได้

วิธีคิดง่ายๆ คือ สมมติคุณฟังเพลงแล้วได้ยินเสียงผสมกัน 10 ชิ้น SAE ก็เหมือนเครื่องมือที่แยกเสียงกีตาร์ เสียงกลอง เสียงร้อง ออกมาให้ฟังทีละชิ้น

ในปี 2024 ทั้ง Anthropic และ OpenAI เป็นกลุ่มแรกที่นำ SAE ไปใช้กับโมเดลระดับ production จริง โดย Anthropic แยก features ได้มากถึง 34 ล้าน features จาก Claude 3 Sonnet ส่วน OpenAI เทรน SAE ขนาด 16 ล้าน features บน GPT-4

Features, Circuits, และ Attribution Graphs

เมื่อแยก features ออกมาได้แล้ว นักวิจัยยังศึกษาต่อว่า features เหล่านี้เชื่อมต่อกันเป็น circuits (วงจร) อย่างไร เหมือนกับการศึกษาว่าเซลล์ประสาทในสมองมนุษย์เชื่อมต่อกันเป็นวงจรยังไง

ขั้นสูงสุดคือ attribution graphs (แผนภูมิที่มา) ซึ่ง Anthropic เผยแพร่ในเดือนมีนาคม 2025 เป็นเครื่องมือที่แสดงให้เห็นว่า เมื่อโมเดลอ่าน prompt แล้ว มันผ่านขั้นตอนอะไรบ้างภายในก่อนจะสร้างคำตอบออกมา

เครื่องมือ	ทำอะไร	เปรียบเทียบกับร่างกาย
Sparse Autoencoders (SAE)	แยก neuron ที่ปนกัน ออกมาเป็น features ที่อ่านได้	กล้องจุลทรรศน์ที่ส่องเห็นเซลล์แต่ละชนิด
Circuit Discovery	ศึกษาว่า features เชื่อมกันเป็นวงจรยังไง	การติดตามว่าเส้นประสาทเชื่อมต่อกันอย่างไร
Attribution Graphs	แสดง “เส้นทางความคิด” ของโมเดลจาก input ถึง output	MRI แบบ real-time ที่ดูสมองคิดได้ทีละขั้น
Feature Steering	“หมุนปุ่ม” เพิ่ม/ลดความเข้มของ features เพื่อดูผลกระทบ	การกระตุ้นเส้นประสาทเฉพาะจุดแล้วดูว่าร่างกายตอบสนองยังไง

เคส Golden Gate Claude ที่ทำให้โลกตื่น

ในเดือนพฤษภาคม 2024 ทีม interpretability ของ Anthropic ทำการทดลองที่กลายเป็นข่าวดังทั่วโลก พวกเขาค้นพบ feature ใน Claude 3 Sonnet ที่ activate (เปิดทำงาน) ทุกครั้งเมื่อโมเดลเจอเรื่องที่เกี่ยวกับ “สะพาน Golden Gate”

จากนั้นพวกเขาลอง “หมุนปุ่มเพิ่มความเข้ม” ของ feature นั้น แล้วผลลัพธ์ก็น่าทึ่ง: Claude เริ่มพูดถึงสะพาน Golden Gate ในทุกบทสนทนา ไม่ว่าจะถามเรื่องอะไร มันจะหาทางวกกลับมาที่สะพานนั้นเสมอ

“We found that over-activating a feature related to spam emails could get the model to bypass restrictions and write spam, and we could also get the model to use flattery as a means of deception by amping up a feature related to sycophancy.”

Anthropic, จากงานวิจัย Mapping the Mind of a Large Language Model (2024)

การทดลองนี้ฟังดูตลก แต่มันพิสูจน์สิ่งที่สำคัญมาก: เราสามารถ ระบุตำแหน่ง ของ “ความคิด” เฉพาะเจาะจงใน AI ได้แล้ว และเราสามารถ เปลี่ยนพฤติกรรม ของมันโดยการแก้ไขที่จุดนั้น

ทีมเดียวกันยังค้นพบ features ที่เกี่ยวข้องกับ sycophancy (การประจบ), deception, coding errors และ bias ทำให้เห็นว่าเทคนิคนี้มีศักยภาพในการทำให้ AI ปลอดภัยขึ้นจริงๆ

Circuit Tracing: จาก MRI สมองมนุษย์สู่ MRI สมอง AI

ถ้า Golden Gate Claude เป็นการ “ค้นพบเซลล์ในสมอง AI” ขั้นถัดไปก็คือการดูว่าเซลล์เหล่านั้นทำงานร่วมกันยังไง

ในเดือนมีนาคม 2025 Anthropic เผยแพร่งานวิจัย 2 ชิ้นที่สร้างแรงสั่นสะเทือนให้วงการ ชิ้นแรกคือ “Circuit Tracing” ที่เสนอวิธีสร้าง attribution graphs สำหรับติดตามว่าโมเดลคิดอะไรอยู่ทีละขั้น และชิ้นที่สองคือ “On the Biology of a Large Language Model” ที่เอาเทคนิคนี้ไปใช้กับ Claude 3.5 Haiku จริงๆ

ผลลัพธ์ที่ได้น่าตื่นเต้นมาก พวกเขาค้นพบว่า Claude ทำสิ่งเหล่านี้ได้: วางแผนคำสัมผัสล่วงหน้าก่อนเขียนกลอน, มี concept ที่เป็นอิสระจากภาษา (เข้าใจ “หมา” ไม่ว่าจะถามเป็นภาษาอะไร), และมีกลไกยับยั้ง hallucination ภายในตัวมันเอง

“We traced the path a model takes from prompt to response. Attribution graphs partially reveal the steps a model took internally to decide on a particular output.”

ทีม Interpretability ของ Anthropic จาก Open-sourcing circuit-tracing tools

สิ่งที่ทำให้งานนี้พิเศษยิ่งกว่าคือ Anthropic เปิด open source เครื่องมือทั้งหมด ให้นักวิจัยทั่วโลกใช้ได้ฟรี ทำให้ใครก็ได้สามารถสร้าง attribution graphs, แก้ไขค่า features แล้วดูว่าโมเดลเปลี่ยนพฤติกรรมยังไง

ใครบ้างที่กำลังทำเรื่องนี้?

สนามแข่งขัน Mechanistic Interpretability มีผู้เล่นหลักอยู่ 3 ค่าย แต่แต่ละค่ายมีแนวทางที่ต่างกันอย่างน่าสนใจ

องค์กร	แนวทาง	ผลงานสำคัญ	บุคคลหลัก
Anthropic	“MRI สำหรับ AI” ตั้งเป้าตรวจจับปัญหาโมเดลส่วนใหญ่ได้ภายในปี 2027	Scaling Monosemanticity (2024), Circuit Tracing (2025), ใช้จริงกับ Claude Sonnet 4.5	Chris Olah (ผู้บุกเบิกสาขา, TIME100 AI 2024)
Google DeepMind	“Pragmatic Interpretability” เน้นแก้ปัญหาจริงมากกว่าเข้าใจทุกอย่าง	Gemma Scope 2 (2025) ชุดเครื่องมือ open-source ใหญ่ที่สุดในโลก	Neel Nanda (หัวหน้าทีม)
OpenAI	เน้น scaling SAE ให้ใหญ่ขึ้น + ใช้ debug ปัญหา misalignment	SAE 16M features บน GPT-4 (2024), SAE Latent Attribution สำหรับ debug (2025)	Leo Gao, Tom Dupré la Tour

นอกจาก 3 ค่ายใหญ่แล้ว ยังมีความร่วมมือข้ามองค์กรที่สำคัญมาก ในเดือนมกราคม 2025 นักวิจัย 29 คนจาก 18 องค์กร ร่วมกันเผยแพร่ “Open Problems in Mechanistic Interpretability” และต่อมาตีพิมพ์อย่างเป็นทางการใน Transactions on Machine Learning Research (TMLR) ในเดือนกันยายน 2025 กลายเป็น roadmap หลักของสาขานี้ งานชิ้นนี้จัดทำโดย Schmidt Sciences

“The most ambitious vision of mechanistic interpretability I once dreamed of is probably dead. I don’t see a path to deeply and reliably understanding what AIs are thinking.”

Neel Nanda, หัวหน้าทีม Mechanistic Interpretability ที่ Google DeepMind

“We could succeed at interpretability before models reach an overwhelming level of power. The goal is to reliably detect most AI model problems by 2027.”

Dario Amodei, CEO ของ Anthropic จาก “The Urgency of Interpretability”

สังเกตว่า Neel Nanda กับ Dario Amodei มองต่างกันโดยสิ้นเชิง Nanda มองว่าเป้าหมายสูงสุดอาจเป็นไปไม่ได้ ส่วน Amodei ยังเชื่อว่าทำได้ทันก่อนที่ AI จะทรงพลังเกินไป ความขัดแย้งนี้สะท้อนว่าสาขานี้ยังอยู่ในช่วงหัวเลี้ยวหัวต่อ

ความท้าทายและข้อจำกัดที่ต้องรู้

ก่อนจะตื่นเต้นมากเกินไป ต้องรู้ว่าสาขานี้ยังมีปัญหาใหญ่ที่ยังแก้ไม่ได้หลายอย่าง

ปัญหาแรกคือนิยามที่ไม่ชัด แม้แต่คำว่า “feature” เองก็ยังไม่มีนิยามทางคณิตศาสตร์ที่เป็นที่ยอมรับ paper Open Problems ระบุชัดว่าแนวคิดหลักๆ ของสาขาหลายอย่างยังเป็นแค่ “สัญชาตญาณ” มากกว่า “ทฤษฎีที่พิสูจน์แล้ว”

ปัญหาที่สองคือ scalability การวิเคราะห์โมเดลขนาดเล็กอย่าง Claude 3.5 Haiku ยังพอทำได้ แต่การทำแบบเดียวกันกับโมเดลขนาดใหญ่ระดับ GPT-5.4 หรือ Claude Opus 4.6 ต้องใช้ทรัพยากรมหาศาล ตัวอย่างเช่น การสร้าง Gemma Scope 2 ของ Google DeepMind ต้องจัดเก็บข้อมูล activation ถึง 110 petabytes และ fit พารามิเตอร์ SAE กว่า 1 ล้านล้านตัว

ปัญหาที่สามคือประสิทธิภาพในงานจริง นักวิจัยบางกลุ่มชี้ว่า วิธี interpretability ที่มีอยู่ตอนนี้ยังทำได้แย่กว่าวิธีง่ายๆ อย่าง baseline methods ในงานที่เกี่ยวข้องกับ safety จริงๆ

ปัญหาที่สี่คือความเร็วในการแข่งขัน AI พัฒนาเร็วกว่างานวิจัย interpretability หลายเท่า ทุกครั้งที่มีโมเดลใหม่ออกมา เครื่องมือ interpretability ก็ต้องไล่ตามใหม่ เหมือนพยายามผ่าเครื่องยนต์ในขณะที่รถกำลังวิ่งอยู่

แล้วเราควรสนใจเรื่องนี้ไหม?

ถ้าคุณใช้ AI ในชีวิตประจำวัน คำตอบคือ “ควร” อย่างแน่นอน

Mechanistic Interpretability ไม่ใช่แค่เรื่องในห้องแล็บ มันส่งผลกระทบต่อทุกคนใน 3 ระดับ

ระดับผู้ใช้ทั่วไป ในอนาคตอันใกล้ เครื่องมือเหล่านี้อาจถูกฝังไว้ใน AI ที่คุณใช้ โดยที่คุณไม่ต้องรู้ด้วยซ้ำ เช่น ระบบเตือนอัตโนมัติว่า “คำตอบนี้มีความเสี่ยงสูงที่จะเป็น hallucination” หรือ “โมเดลกำลังเดาอยู่ ไม่ได้มั่นใจ”

ระดับธุรกิจ บริษัทที่ใช้ AI ในงานสำคัญ (การเงิน, การแพทย์, กฎหมาย) จะต้องการ AI ที่ “อธิบายได้” ว่าทำไมถึงตัดสินใจแบบนั้น กฎระเบียบอย่าง EU AI Act ก็กำลังบังคับให้ AI ต้องโปร่งใส

ระดับสังคม ถ้า AI กำลังจะมีบทบาทมากขึ้นในการตัดสินใจที่ส่งผลต่อชีวิตคน เราควรมีเครื่องมือตรวจสอบว่ามันทำงานอย่างยุติธรรม ไม่มีอคติ และไม่หลอกลวง

สิ่งที่คุณทำได้ตอนนี้ง่ายมาก

ติดตามข่าวสาร อ่านบล็อกของ Anthropic Transformer Circuits ที่เผยแพร่งานวิจัยล่าสุดในสาขานี้ หรือบล็อกของ Neel Nanda ที่อธิบายแนวคิดต่างๆ ให้เข้าใจง่าย

ตั้งคำถามกับ AI ที่คุณใช้ อย่ารับคำตอบจาก AI แบบ 100% โดยไม่ตั้งข้อสงสัย โดยเฉพาะเรื่องสำคัญ ให้ขอแหล่งอ้างอิง ให้มันอธิบายเหตุผล หรือถามมันว่า “คุณมั่นใจแค่ไหน?”

สนับสนุนความโปร่งใส เลือกใช้บริษัท AI ที่ลงทุนเรื่อง safety และ interpretability จริงจัง ไม่ใช่แค่พูด

เรากำลังอยู่ในจุดที่น่าสนใจ เทคโนโลยี AI ก้าวไปเร็วมากจนแม้คนสร้างมันเองก็ยังไม่เข้าใจมันทั้งหมด Mechanistic Interpretability คือความพยายามครั้งใหญ่ที่จะเปลี่ยนแปลงสิ่งนั้น และไม่ว่าคุณจะเป็นนักเทค นักธุรกิจ หรือแค่คนที่ใช้ ChatGPT ทุกวัน เรื่องนี้เกี่ยวกับคุณ

ติดตาม cheesepie ได้ที่
Twitter/X: @cheesepie_content · TikTok: @cheesepie_content

แหล่งอ้างอิง

Mechanistic interpretability: 10 Breakthrough Technologies 2026 โดย MIT Technology Review (2026)
The Urgency of Interpretability โดย Dario Amodei (เมษายน 2025)
Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet โดย Anthropic (พฤษภาคม 2024)
Circuit Tracing: Revealing Computational Graphs in Language Models โดย Anthropic (มีนาคม 2025)
On the Biology of a Large Language Model โดย Anthropic (มีนาคม 2025)
Open-sourcing circuit-tracing tools โดย Anthropic (2025)
Golden Gate Claude โดย Anthropic (พฤษภาคม 2024)
Mapping the Mind of a Large Language Model โดย Anthropic (2024)
Extracting Concepts from GPT-4 โดย OpenAI (2024)
Debugging misaligned completions with sparse-autoencoder latent attribution โดย OpenAI (2025)
Gemma Scope โดย Google DeepMind (2025)
Open Problems in Mechanistic Interpretability โดย Lee Sharkey et al. (มกราคม 2025, ตีพิมพ์ใน TMLR กันยายน 2025)
Open Problems in Mechanistic Interpretability โดย Schmidt Sciences (2025)
Chris Olah โดย Wikipedia
About Neel Nanda โดย Neel Nanda
Neel Nanda on the race to read AI minds โดย 80,000 Hours Podcast
Anthropic CEO wants to open the black box of AI models by 2027 โดย TechCrunch (เมษายน 2025)
Understanding Mechanistic Interpretability in AI Models โดย IntuitionLabs
The Misguided Quest for Mechanistic AI Interpretability โดย AI Frontiers
Attribution Graphs Frontend (GitHub) โดย Anthropic
Transformer Circuits โดย Anthropic Research