Microsoft ออกจดหมายแถลงการณ์เปิดตัว Phi-3 Mini โมเดลภาษาขนาดเล็ก (SLMs) ตัวแรกของบริษัทที่ผู้พัฒนานิยามว่า ‘คุ้มต้นทุนและมีประสิทธิภาพมากที่สุดในบรรดาโมเดลภาษาขนาดเล็ก’ โดยโมเดลประเภทนี้มีน้ำหนักที่เบา ประหยัดต้นทุนกว่าโมเดลภาษาขนาดใหญ่เนื่องจากขนาดพารามิเตอร์ที่น้อยกว่า ซึ่งพารามิเตอร์หมายถึงความซับซ้อนของชุดคำสั่งที่ AI จะสามารถเข้าใจได้
Ronen Eldan นักวิจัยด้านแมชชีนเลิร์นนิงประจำ Microsoft Research เผยถึงแรงบันดาลใจในการพัฒนา Phi-3 ว่าในระหว่างที่เขากำลังอ่านนิทานก่อนนอนให้กับลูกสาวของตัวเองฟัง เขาก็เกิดคำถามในหัวว่า “เธอเรียนรู้คำเหล่านี้ได้อย่างไร และเข้าใจความเชื่อมโยงของคำต่างๆ อย่างไร?”
สิ่งนี้ทำให้ Microsoft Research คิดในมุมของการพัฒนา AI ที่ใช้เพียงชุดคำศัพท์ที่เด็กอายุ 4 ขวบก็ทำความเข้าใจได้ไม่ยาก จนนำมาสู่การสร้างโมเดลภาษาขนาดเล็กที่จะช่วยให้ผู้คนเข้าถึง AI ได้มากยิ่งขึ้น
ถึงแม้ว่าโมเดลภาษาขนาดใหญ่ (LLMs) จะเปรียบเสมือนมาตรฐานสำหรับการหาคำตอบกับคำถามที่ซับซ้อน แต่โมเดลภาษาขนาดเล็กก็มีฟังก์ชันหลายอย่างที่ทำได้ไม่แพ้โมเดลภาษาขนาดใหญ่ เช่น การเข้าใจภาษา เขียนโค้ด หรือทำโจทย์เลขที่มีความซับซ้อนไม่มาก และเหมาะกับองค์กรที่มีข้อจำกัดด้านทรัพยากรข้อมูล ซึ่ง Microsoft อ้างว่า Phi-3 Mini ที่มีขนาด 3.8 พันล้านพารามิเตอร์ มีประสิทธิภาพเทียบเท่ากับโมเดลที่มีขนาดใหญ่กว่ามันสองเท่าตัว
“เทรนด์ที่เรากำลังจะเห็นต่อจากนี้ไม่ใช่การย้ายจากโมเดลใหญ่มาเล็ก แต่เป็นการย้ายจากการพึ่งพาโมเดลประเภทใดประเภทหนึ่งมาสู่การผสมผสานของโมเดลหลากหลายรูปแบบตามความต้องการของผู้ใช้งานเพื่อให้ได้ผลลัพธ์ที่ดีที่สุด” Solina Yadav ผู้จัดการฝ่ายผลิตภัณฑ์ Generative AI ของ Microsoft กล่าว
อย่างไรก็ตาม Phi-3 ไม่ใช่โมเดลภาษาขนาดเล็กตัวแรกของวงการ เพราะก่อนหน้านี้คู่แข่งอย่าง Google ก็ได้เปิดตัว Gemma ขนาด 2 ล้านพารามิเตอร์ และ 7 ล้านพารามิเตอร์มาแล้วเมื่อต้นปีนี้ ซึ่งเชี่ยวชาญการประมวลผลงานด้านภาษา หรือจะเป็น Claude 3 Haiku ที่สามารถสรุปความเอกสารงานวิจัยทั้งเนื้อหาและข้อมูลแผนภูมิได้อย่างรวดเร็ว ทั้งนี้ Llama-3 ขนาด 8 ล้านพารามิเตอร์ของ Meta ที่ออกมาในสัปดาห์ที่แล้ว ก็ถูกจัดอยู่ในหมวดหมู่เดียวกัน โดยมันอาจถูกนำไปใช้ในการช่วยเขียนโค้ด
สำหรับกรณีการใช้งาน ด้วยขนาดที่เล็กและประหยัดต้นทุนมากกว่าจากกำลังประมวลผลที่ถูกใช้น้อยโดยธรรมชาติของโมเดลภาษาขนาดเล็ก โมเดลประเภทนี้จึงเหมาะกับการนำไปใช้บนอุปกรณ์ส่วนตัว เช่น สมาร์ทโฟนหรือโน้ตบุ๊ก โดย Eric Boyd รองประธาน Microsoft Azure AI Platform ให้สัมภาษณ์กับ The Verge ว่า Phi-3 จะทำงานได้ดีกว่ากับแอปพลิเคชันที่ต้องอาศัยการปรับแต่งให้เข้ากับกรณีการใช้งานที่เฉพาะเจาะจง ซึ่งเป็นสิ่งที่หลายบริษัทมองหาเนื่องจากปริมาณข้อมูลภายในจำนวนไม่มาก
ปัจจุบัน Phi-3 เปิดให้นักพัฒนาเข้าถึงได้แล้วบน Azure, Hugging Face และ Ollama โดยเวอร์ชันถัดไปอย่าง Phi-3 Small (7B Parameters) และ Phi-3 Medium (14B Parameters) กำลังจะตามมาในอนาคตอันใกล้
ภาพ: SOPA Images / Getty Images
อ้างอิง: