Anthropic Distillation Attack 2026
Distillation Attack คือการโจมตีแบบสกัดความรู้จากโมเดล LLM โดยผู้โจมตีจะสกัดเอาความรู้จากโมเดลใหญ่ ๆ ไปใส่ในโมเดลใหม่ที่กำลังพัฒนา หรือเป็นการลักวิชาความรู้ความเก่งของโมเดลโดยที่ไม่ต้องลงทุนลงแรงมาก โดยมีหลักการทำงานคือ เขียนสคริปต์เพื่อส่งคำถามจำนวนมหาศาลยิงไปที่ API ของโมเดล เพื่อสกัดเอาความรู้พื้นฐานของโมเดลนั้น ๆ ออกมา รวบข้อมูลที่สกัดออกมาได้จากโมเดลเป้าหมาย เพื่อสร้างข้อมูลคุณภาพสูงออกมา นำข้อมูลที่ได้ไปเทรนโมเดลใหม่ ๆ โดยใช้ความรู้จากโมเดลที่ไปโจมตีมา เพื่อสร้างโมเดลเป็นของตัวเอง Anthropic ระบุว่า AI จีนเหล่านี้มีการโจมตีแบบ Distillation Attack รวม ๆ แล้วกว่า 16 ล้านบทสนทนา มีหลักการทำงานคล้าย ๆ กันคือ สร้างบัญชีออกมาเยอะ ๆ แล้วดูดเอาข้อมูลจาก Claude ให้ได้มากที่สุดก่อนจะโดนแบน โดยข้อมูลที่ดูดเอามาเพื่อเทรน AI ของตัวเอง เช่น ข้อมูลพื้นฐาน, ตรรกะการคิด, การใช้เครื่องมือ, การเขียนโค้ด, การทำงานของ AI Agent ส่วนวิธีการโจมตีของแต่ละค่ายที่ Anthropic กล่าวอ้าง ก็ค่อนข้างน่าสนใจทีเดียว ยกตัวอย่างเช่น
[DeepSeek] สร้างบัญชีหลายบัญชีโดยมีแพทเทิร์นการทำงานเหมือนกัน ใช้วิธีการชำระเงินแบบเดียวกัน และมีจังหวะดึงข้อมูลพร้อม ๆ กัน เพื่อเร่งความเร็วในการดูดข้อมูลให้ได้มากที่สุด สั่งให้ Claude จินตนาการและอธิบายกระบวนการคิดเบื้องหลังคำตอบแบบทีละขั้นตอน ซึ่งเป็นการสร้างข้อมูลฝึกสอนแบบ Chain-of-Thought ในสเกลที่ใหญ่มาก ซึ่งเท่ากับสั่งให้ Claude คายกระบวนการคิดออกมา เพื่อเอาไปสอน AI ให้คิดเป็นตรรกะแบบเดียวกัน







