ท่ามกลางการเฟ้นหาแหล่งข้อมูลใหม่ๆ อย่างไม่หยุดยั้งของเหล่าบริษัทบิ๊กเทค เพื่อป้อนสู่โมเดลปัญญาประดิษฐ์ (AI) Business Insider รายงานว่า มาร์ก ซักเคอร์เบิร์ก ซีอีโอ Meta กลับเปิดประเด็นในเรื่องของการพัฒนา AI ว่า ‘ข้อมูล’ ไม่ใช่คำตอบที่ดีที่สุดสำหรับการเพิ่มประสิทธิภาพของ AI
“สิ่งที่ผมมองว่าจะเป็นประโยชน์และสำคัญมากกว่าคลังข้อมูลสำหรับฝึกฝน AI คือ การเรียนรู้จากวงจรสะท้อนของผลลัพธ์ (Feedback Loops) โดยการที่มีผู้คนจำนวนมากเข้าใช้งานจะทำให้เราเห็นพฤติกรรมของพวกเขา ซึ่งการเริ่มพัฒนาจากตรงนั้นจะทำให้โมเดลมีคุณค่ากว่าเมื่อเวลาผ่านไป” มาร์ก ซักเคอร์เบิร์ก กล่าวในระหว่างการให้สัมภาษณ์กับนิตยสารข่าวเทคโนโลยี Command Line
วงจรสะท้อนของผลลัพธ์เป็นสิ่งที่ถูกใช้เพื่อฝึกซ้ำและปรับปรุงโมเดลให้ดีขึ้นจากผลลัพธ์ที่ได้มาก่อนหน้า โดยกลไกแบบนี้เป็นกระบวนการที่ช่วยให้ AI รู้ได้ว่าเมื่อไรมีข้อผิดพลาดและจะต้องแก้ไขจุดใดในอนาคต เพื่อประสิทธิภาพที่ดีกว่า
อย่างไรก็ตาม ความเห็นของซักเคอร์เบิร์กก็ไม่ได้ชะลอความหิวกระหายในการหาแหล่งข้อมูลใหม่เพื่อฝึกฝน AI ของบริษัทบิ๊กเทค เพราะเมื่อต้นเดือนเมษายนปีนี้มีรายงานจาก The New York Times ว่า OpenAI สร้างโปรแกรมชื่อว่า Whisper สำหรับถอดบทสนทนาวิดีโอจากแพลตฟอร์ม YouTube ซึ่งทำไปแล้วรวมกว่า 1 ล้านชั่วโมง
หรือในกรณีของ Google ที่เริ่มเปิดการเข้าถึงให้กับโมเดล AI ของตัวเอง ซึ่งระบุในข้อตกลงบริการกับผู้ใช้งานว่า บริษัทจะสามารถเข้าถึงข้อมูลที่เปิดสาธารณะได้ เช่น เอกสาร Google Docs แบบที่เปิดสาธารณะ หรือข้อความรีวิวร้านอาหารบน Google Maps
แม้แต่ Meta เองก็มีคลิปเสียงเกี่ยวกับการหารือภายในบริษัทว่าจะเข้าซื้อ Simon & Schuster สำนักพิมพ์ที่มีฐานข้อมูลหนังสือมากที่สุดแห่งหนึ่งของโลก รวมทั้งพูดถึงการรวบรวมข้อมูลที่ติดลิขสิทธิ์บนอินเทอร์เน็ตมาเพื่อใช้งานก่อน เพราะการรออนุมัติจากผู้ตีพิมพ์ ศิลปิน และสำนักข่าว นั้นใช้เวลานานเกินไป
การยอมเสี่ยงกับการกระทำที่อาจละเมิดกฎหมายความเป็นส่วนตัวและลิขสิทธิ์การครอบครองข้อมูลของเจ้าของคอนเทนต์ เพื่อให้ได้มาซึ่งฐานข้อมูล แสดงให้เห็นว่า ‘ข้อมูล’ ยังเป็นกุญแจสำคัญต่อการพัฒนาต่อยอดโมเดล AI สะท้อนผ่านการกระทำของ OpenAI, Google และ Meta ที่ The New York Times ใช้คำว่า “พยายามหาทางลัดด้วยการหาช่องโหว่ทางกฎหมายและนโยบายบริษัท”
จริงอยู่ที่คำกล่าวอ้างของซักเคอร์เบิร์กเกี่ยวกับการฝึกฝน AI ด้วยวิธีการเรียนรู้จากวงจรสะท้อนของผลลัพธ์ คือสิ่งสำคัญที่จะช่วยให้โมเดล AI มีประสิทธิภาพ แต่อีกหนึ่งความเสี่ยงของการพึ่งพาวิธีดังกล่าวคือ หากชุดข้อมูลมีความลำเอียงและข้อผิดพลาด ผลลัพธ์ที่ถูกนำไปต่อยอดก็จะส่งผลให้คำตอบที่ได้จาก AI ผิดเพี้ยนตามไปด้วย เมื่อสุดท้าย ‘ข้อมูล’ ตั้งต้นที่ถูกใช้ไม่ใช่ข้อมูลที่ดี
ภาพ: Alex Wong / Getty Images
อ้างอิง: