“ตอนนี้เราใช้องค์ความรู้ทั้งหมดที่ถูกสั่งสมมาโดยมนุษยชาติไปจนหมดแล้ว…เพื่อฝึก AI”
นี่คือคำกล่าวของ อีลอน มัสก์ บุคคลที่เป็นซีอีโอของหลายบริษัทแถวหน้าของโลก เช่น Tesla, SpaceX, X และ xAI ในระหว่างการพูดคุยสดที่ถ่ายทอดบน X กับ มาร์ก เพนน์ ประธาน Stagwell เมื่อคืนวันพุธ (8 มกราคม)
อีลอน มัสก์ กล่าวว่า ข้อมูลที่มีบนโลกนั้นถูกใช้ฝึก AI ไปหมดแล้วเมื่อปีที่ผ่านมา ซึ่งเป็นมุมมองที่คล้ายกับ อิลยา ซุตสเคเวอร์ อดีตหัวหน้านักวิทยาศาสตร์ของ OpenAI ที่พูดถึงปัญหาเดียวกันที่การประชุม NeurIPS เมื่อเดือนธันวาคม
ซุตสเคเวอร์กล่าวว่า อุตสาหกรรม AI มาถึงจุดที่เรียกว่า Peak Data ปัญหาที่แหล่งข้อมูลคุณภาพสูงที่มนุษย์สร้างขึ้นเริ่มหมดหรือลดน้อยลง จนไม่สามารถตอบสนองความต้องการนำไปใช้พัฒนาโมเดล AI ได้ทัน และนั่นจะกระทบทิศทางการเพิ่มศักยภาพ AI ในอนาคต
ปัญหาดังกล่าวกลายเป็นประเด็นที่นักวิจัย AI หลายคนกำลังหาวิธีแก้ไข และมัสก์ก็เป็นคนที่เสนอให้เกิดการเปลี่ยนแปลงวิธีการพัฒนาโมเดลต่อจากนี้ ซึ่งเขาแนะนำว่าการใช้ ‘ข้อมูลสังเคราะห์’ หรือข้อมูลที่ถูกสร้างขึ้นโดยโมเดล AI คือหนทางต่อไปของการพัฒนา
“วิธีเดียวที่จะช่วยเสริมข้อมูลจากโลกความจริงคือการใช้ Synthetic Data (ข้อมูลสังเคราะห์) ซึ่ง AI จะเป็นผู้สร้าง โดย AI จะใช้ข้อมูลที่มันสร้างขึ้นเพื่อประเมินตัวเองและเรียนรู้จากจุดนั้น” มัสก์กล่าว
ปัจจุบัน TechCrunch รายงานว่าบิ๊กเทคอย่าง Microsoft, Meta, OpenAI และ Anthropic ก็ใช้ข้อมูลสังเคราะห์ในการฝึกฝนโมเดล AI ของตนอยู่แล้ว ซึ่ง Gartner บริษัทวิจัยระดับโลกคาดว่า 60% ของข้อมูลที่ใช้สำหรับโปรเจกต์ AI และงานวิเคราะห์ในปี 2024 มิได้มาจากข้อมูลจริง แต่มาจากข้อมูลที่ถูกสังเคราะห์ขึ้นโดยโปรแกรมคอมพิวเตอร์
โมเดล AI แบบ Open Source ของ Microsoft ที่มีชื่อว่า Phi-4 ก็ได้รับการฝึกทั้งจากข้อมูลสังเคราะห์และข้อมูลในโลกจริง เช่นเดียวกับโมเดล Gemma ของ Google
นอกจากนี้ยังมี Anthropic ที่ใช้ข้อมูลสังเคราะห์บางส่วนในการพัฒนาโมเดล Claude 3.5 Sonnet และ Meta ก็ปรับแต่งโมเดล Llama ล่าสุดโดยใช้ข้อมูลที่สร้างขึ้นจาก AI
สำหรับข้อดีของการฝึก AI ด้วยข้อมูลสังเคราะห์หลักๆ คือการประหยัดต้นทุน โดย Writer บริษัทสตาร์ทอัพด้าน AI อ้างว่าโมเดล Palmyra X 004 ของตนเองที่พัฒนาขึ้นโดยใช้แหล่งข้อมูลสังเคราะห์เกือบทั้งหมด มีค่าใช้จ่ายเพียง 7 แสนดอลลาร์ ต่ำกว่าโมเดลของ OpenAI ที่ต้องใช้เงินมากถึง 4.6 ล้านดอลลาร์เพื่อพัฒนาโมเดลที่มีขนาดพอกัน
อย่างไรก็ตาม การใช้ข้อมูลสังเคราะห์ก็มีข้อเสียเช่นกัน เพราะบางงานวิจัยชี้ว่าข้อมูลสังเคราะห์อาจนำไปสู่การทำให้โมเดล ‘คิดสร้างสรรค์น้อยลง’ และ ‘ลำเอียงมากขึ้น’ จนอาจทำให้เกิดผลเสียร้ายแรงในแง่การทำงานของโมเดล เนื่องจากถ้าข้อมูลที่ใช้ฝึกมีความลำเอียงหรือมีข้อจำกัด ผลลัพธ์ที่ได้ก็จะบกพร่องเช่นเดียวกัน
หรือที่วลีภาษาอังกฤษกล่าวไว้ว่า ‘Garbage in, garbage out’ นั่นเอง
อ้างอิง: