ข้อมูลทั้งโลกก็ไม่พอให้เรียน มัสก์แนะต่อไป AI ต้อง 'สังเคราะห์ข้อมูลเอง' ...

“ตอนนี้เราใช้องค์ความรู้ทั้งหมดที่ถูกสั่งสมมาโดยมนุษยชาติไปจนหมดแล้ว…เพื่อฝึก AI”

นี่คือคำกล่าวของ อีลอน มัสก์ บุคคลที่เป็นซีอีโอของหลายบริษัทแถวหน้าของโลก เช่น Tesla, SpaceX, X และ xAI ในระหว่างการพูดคุยสดที่ถ่ายทอดบน X กับ มาร์ก เพนน์ ประธาน Stagwell เมื่อคืนวันพุธ (8 มกราคม)

อีลอน มัสก์ กล่าวว่า ข้อมูลที่มีบนโลกนั้นถูกใช้ฝึก AI ไปหมดแล้วเมื่อปีที่ผ่านมา ซึ่งเป็นมุมมองที่คล้ายกับ อิลยา ซุตสเคเวอร์ อดีตหัวหน้านักวิทยาศาสตร์ของ OpenAI ที่พูดถึงปัญหาเดียวกันที่การประชุม NeurIPS เมื่อเดือนธันวาคม

ซุตสเคเวอร์กล่าวว่า อุตสาหกรรม AI มาถึงจุดที่เรียกว่า Peak Data ปัญหาที่แหล่งข้อมูลคุณภาพสูงที่มนุษย์สร้างขึ้นเริ่มหมดหรือลดน้อยลง จนไม่สามารถตอบสนองความต้องการนำไปใช้พัฒนาโมเดล AI ได้ทัน และนั่นจะกระทบทิศทางการเพิ่มศักยภาพ AI ในอนาคต

ปัญหาดังกล่าวกลายเป็นประเด็นที่นักวิจัย AI หลายคนกำลังหาวิธีแก้ไข และมัสก์ก็เป็นคนที่เสนอให้เกิดการเปลี่ยนแปลงวิธีการพัฒนาโมเดลต่อจากนี้ ซึ่งเขาแนะนำว่าการใช้ ‘ข้อมูลสังเคราะห์’ หรือข้อมูลที่ถูกสร้างขึ้นโดยโมเดล AI คือหนทางต่อไปของการพัฒนา

“วิธีเดียวที่จะช่วยเสริมข้อมูลจากโลกความจริงคือการใช้ Synthetic Data (ข้อมูลสังเคราะห์) ซึ่ง AI จะเป็นผู้สร้าง โดย AI จะใช้ข้อมูลที่มันสร้างขึ้นเพื่อประเมินตัวเองและเรียนรู้จากจุดนั้น” มัสก์กล่าว

ปัจจุบัน TechCrunch รายงานว่าบิ๊กเทคอย่าง Microsoft, Meta, OpenAI และ Anthropic ก็ใช้ข้อมูลสังเคราะห์ในการฝึกฝนโมเดล AI ของตนอยู่แล้ว ซึ่ง Gartner บริษัทวิจัยระดับโลกคาดว่า 60% ของข้อมูลที่ใช้สำหรับโปรเจกต์ AI และงานวิเคราะห์ในปี 2024 มิได้มาจากข้อมูลจริง แต่มาจากข้อมูลที่ถูกสังเคราะห์ขึ้นโดยโปรแกรมคอมพิวเตอร์

โมเดล AI แบบ Open Source ของ Microsoft ที่มีชื่อว่า Phi-4 ก็ได้รับการฝึกทั้งจากข้อมูลสังเคราะห์และข้อมูลในโลกจริง เช่นเดียวกับโมเดล Gemma ของ Google

นอกจากนี้ยังมี Anthropic ที่ใช้ข้อมูลสังเคราะห์บางส่วนในการพัฒนาโมเดล Claude 3.5 Sonnet และ Meta ก็ปรับแต่งโมเดล Llama ล่าสุดโดยใช้ข้อมูลที่สร้างขึ้นจาก AI

สำหรับข้อดีของการฝึก AI ด้วยข้อมูลสังเคราะห์หลักๆ คือการประหยัดต้นทุน โดย Writer บริษัทสตาร์ทอัพด้าน AI อ้างว่าโมเดล Palmyra X 004 ของตนเองที่พัฒนาขึ้นโดยใช้แหล่งข้อมูลสังเคราะห์เกือบทั้งหมด มีค่าใช้จ่ายเพียง 7 แสนดอลลาร์ ต่ำกว่าโมเดลของ OpenAI ที่ต้องใช้เงินมากถึง 4.6 ล้านดอลลาร์เพื่อพัฒนาโมเดลที่มีขนาดพอกัน

อย่างไรก็ตาม การใช้ข้อมูลสังเคราะห์ก็มีข้อเสียเช่นกัน เพราะบางงานวิจัยชี้ว่าข้อมูลสังเคราะห์อาจนำไปสู่การทำให้โมเดล ‘คิดสร้างสรรค์น้อยลง’ และ ‘ลำเอียงมากขึ้น’ จนอาจทำให้เกิดผลเสียร้ายแรงในแง่การทำงานของโมเดล เนื่องจากถ้าข้อมูลที่ใช้ฝึกมีความลำเอียงหรือมีข้อจำกัด ผลลัพธ์ที่ได้ก็จะบกพร่องเช่นเดียวกัน

หรือที่วลีภาษาอังกฤษกล่าวไว้ว่า ‘Garbage in, garbage out’ นั่นเอง

อ้างอิง:

FOLLOW US

ข้อมูลทั้งโลกก็ไม่พอให้เรียน มัสก์แนะต่อไป AI ต้องสังเคราะห์ข้อมูลเองเพื่อพัฒนาต่อ

TAGS:

ABOUT THE AUTHOR

สรสิช ลีลานุกิจ

EDITOR'S PICK

เลือกตั้ง 2569 : ประมวลจุดยืนบนเวที THE STANDARD DEBATE ความท้าทายโค้งสุดท้ายบนสนามเลือกตั้ง

สรุป 10 ประเด็นร้อน ประกันสังคม ทำไมกลายเป็นกระแสใหญ่ของคนไทย แล้วอะไรคือทางออก?

เลือกตั้ง 2569 : เช็กจุดยืนพรรคการเมือง เห็นชอบ VS. ไม่เห็นชอบ ทำรัฐธรรมนูญฉบับใหม่

ทำไมจีนปลดนายพลเบอร์ 2 ของกองทัพ

MOST POPULAR

‘เอกนิติ’ เผย TikTok ยืนยันเดินหน้าลงทุนไทยกว่า 270,000 ล้านบาท ควบคู่หนุน SMEs สร้างรายได้

สัญญาณวิกฤตสื่อ? ทำไม The Washington Post เลิกจ้างพนักงาน-ลดขนาดห้องข่าว

Western Digital รีแบรนด์ครั้งใหญ่สู่ ‘WD’ เร่งพัฒนาฮาร์ดดิสก์ความจุมากสุดในโลก ปูทางสู่ 100TB+ รับยุค AI

เลือกตั้ง 2569 : สุชัชวีร์เยือนวิทยาลัยเทคนิคดอนเมือง ประกาศยกระดับอาชีวะไทย เบิกทางสู่ตลาดแรงงานคุณภาพ