×

My take on DeepSeek: Innovation?

29.01.2025
  • LOADING...
DeepSeek

โดยส่วนตัวพีพีคิดว่า DeepSeek ไม่ได้เป็น Breakthrough แบบที่หลายคนตื่นเต้นกัน คิดว่าเป็นเพราะ Geopolitics ของสหรัฐอเมริกาในช่วงนี้ และการที่หลายคนหมั่นไส้พี่ Sammy มากกว่า ที่ทำให้ข่าวนี้ดังขึ้นมา (การทำให้หุ้นขึ้นหรือลงไม่ได้หมายความว่าเป็น Innovation ลองดูโพสต์ของ Elon Musk ใน X เป็นตัวอย่าง)

 

*Disclaimer ว่า Breakthrough หรือเปล่า เป็นความเห็น Subjective นะครับ เห็นต่างได้ อันนี้คือความเห็นของพีพีในฐานะนักวิจัยด้าน Human-AI Interaction

 

เหตุผลที่ไม่ได้คิดว่ามันเป็น Breakthrough

 

  1. Small Language Model: การทำให้โมเดลเล็กลงและสามารถรัน Locally หรือรันบนโทรศัพท์มือถือได้ เป็นงานวิจัยที่มีการทำมาต่อเนื่องตั้งแต่ปี 2020 ​(หรือก่อนหน้าด้วยซ้ำ) ซึ่งมีหลายเทคนิค ทั้งการทำ Pruning หรือ Distillation ซึ่งหลายบริษัทที่มี Large Model ก็ทำอยู่ตลอด และเป็นสิ่งที่ดีมาก เพราะจริงๆ เวลาโมเดล Inference Weight ทั้งหมด ก็อาจจะไม่ได้มีผลกับ Output ขนาดนั้น

https://arxiv.org/abs/2411.03350

https://arxiv.org/abs/2009.07118

 

  1. Base Model: ถ้าไปอ่านเปเปอร์ก็จะเห็นว่า DeepSeek Demonstrate 2 Approachs อย่างแรกคือการทำ RL กับโมเดลเดิม ซึ่งก็คือ DeepSeek V3 (ขอบคุณพี่ Tepasit Pongsabutr ที่ Correct ให้) และการทำ Distillation โดยใช้ Opensource Model ของ Meta และ Alibaba เป็นเบส ซึ่งถ้าบอกว่าใช้งบน้อยและ GPU น้อย นั่นเพราะว่าไม่ได้เอาต้นทุนของการเทรนโมเดลที่เป็นเบสมารวมด้วย เพราะทำแต่ Post-Training มันเลยไม่ใช่การเปรียบเทียบที่ยุติธรรม เพราะ OpenAI Model เทรนจาก Scratch และ Post-Training

https://arxiv.org/pdf/2501.12948

 

  1. Chain-of-Thought: ถ้าไปอ่านในเปเปอร์ก็จะเห็นว่าการปรับปรุงเบสโมเดลก็คือการใช้ Reinforcement Learning มาทำให้โมเดลพยายามให้เหตุผล ซึ่งไม่ใช่ Reasoning จริงๆ แต่เป็นแค่ Appearance of Reasoning (เป็น Probabilistic Reasoning ซึ่งเทียบกับ Symbolic Reasoning ไม่ได้) อย่างไรก็ตาม วิธีการนี้ไม่ได้ใหม่ ไม่ต้อง Fine-Tune แค่ Prompt ก็ได้ โดยเปเปอร์แรกๆ ที่ทำเรื่องนี้มีมาตั้งแต่ปี 2022 โดย Google Brain ถ้าต้องการ Reasoning จริงๆ ควรไปดูโมเดลที่เป็น Neurosymbolic มากกว่า

https://arxiv.org/abs/2201.11903

 

  1. Performance: ถ้าดูกราฟด้านล่างจะเห็นว่า Performance ของ DeepSeek เทียบแต่กับโมเดลอื่นๆ น่าจะมีการเปรียบเทียบกับการทำ Chain-of-Thought อย่างเดียวโดยไม่ต้องใช้ RL เช่น ลองให้ Llama มี Chain-of-Thought จะได้รู้ว่ามัน Improve Perfromance แค่ไหน เพราะถ้าลองไปดู Benchmark อย่าง MMLU ก็จะเห็นว่า Llama ตัวเล็ก 8B ก็ Perform ได้ดีอยู่แล้ว

https://paperswithcode.com/…/multi-task-language

 

พีพีอาจจะผิดก็ได้ แต่โดยส่วนตัวรู้สึกว่าสิ่งที่คนตื่นเต้นกันจริงๆ มัน Misleading อยู่ เหมือนเอารถแข่งมาติดเกวียน แล้วบอกว่านี่ไงเกวียนเราวิ่งได้เท่ารถแข่งเลย แต่สิ่งที่น่าชื่นชมของ Small Model ก็คือการที่ Environmental Impact แบบที่ Kate Crawford เขียนไว้ในหนังสือ

https://katecrawford.net/atlas

 

Conclusion: โดยส่วนตัวพีพีไม่ได้ตื่นเต้นกับ o1 หรือ o3 ของ OpenAI เป็นทุนเดิมอยู่แล้ว (แม้ว่าจะมี Conflict of Interest เพราะมีคอลลาบอเรชันกับ OpenAI อยู่) เพราะอย่างที่บอกว่ามันเป็น Probabilistic Reasoning ไม่ใช่ Symbolic Reasoning จริงๆ แม้ว่า Chain-of-Thought จะดูเป็นเหตุเป็นผลแค่ไหน พอพูดถึง DeepSeek เราคิดว่าการทำ GRPO หรือ Multi-Token Prediction เป็น Novel Contribution ของเปเปอร์นี้จริง ตามที่พี่ Piyalitt Ittichaiwong อธิบายไว้อย่างดีเยี่ยมในคอมเมนต์ด้านล่าง แต่สำหรับพีพีคิดว่านี่เป็นสิ่งที่เราจินตนาการได้ว่าจะเป็น Resonable Next Step ส่วนตัวจะตื่นเต้นกับงานของ Anthropic ที่ทำ Mechanistic Interpretability มากกว่า เพราะนทำให้เราเข้าใจจริงๆ ว่าการ Reasoning หรือ Model Behaviors เกิดขึ้นผ่าน Causality ของ Neural Clusters อย่างไร แต่ตามที่กล่าวไปว่าพีพีมาจากสาย Human-AI Interaction จึงอาจจะไม่ได้ตื่นเต้นใน Foundational Model มากขนาดนั้น โดยเฉพาะเมื่อเทียบกับข่าวที่ Blown out of Proportion

 

พีพีคิดว่าตอนนี้ AI ทั่วโลกยังอยู่ใน Category ที่สหรัฐฯ สร้างขึ้นมา ซึ่งถ้าจีนจะโชว์ AI Advancement จริงๆ ควรจะโชว์โมเดลที่แหก Category ใหม่และเป็น Category Winner จริงๆ ตอนนี้ที่เห็นคือเป็น Slight Improvement ของสิ่งที่สหรัฐฯ ทำไว้แล้ว

 

DeepSeek

 

 

ภาพ: Justin Sullivan / Staff / Getty Images

อ้างอิง:

  • LOADING...

READ MORE




Latest Stories

Close Advertising