Microsoft บริษัทเทคยักษ์ใหญ่ที่กำลังฝึก AI ตัวใหม่ที่มีชื่อว่า VALL-E ซึ่งสามารถเลียนแบบเสียงของใครก็ได้จากคลิปเสียงความยาว 3 วินาที
VALL-E ได้รับการฝึกด้วยการพูดภาษาอังกฤษถึง 60,000 ชั่วโมง โดยสามารถสร้างเสียงพูดที่ไม่เคยได้ยินมาก่อนได้ หรือที่เรียกว่าสถานการณ์ Zero-Shot จากข้อมูลในเอกสาร และใช้เทคโนโลยี Text-to-Speech เพื่อเปลี่ยนตัวหนังสือเป็นคำพูดในแบบ ‘คุณภาพสูงแบบเฉพาะบุคคล’
ข่าวที่เกี่ยวข้อง:
- Microsoft ทุ่มอีกหมื่นล้านดอลลาร์ ลงทุน OpenAI ผู้สร้าง ChatGPT
- ซีอีโอ Microsoft มองอนาคต Metaverse การทำงาน Hybrid และผู้นำ Empathy
- หุ้นเทคโนโลยี สหรัฐฯ ยังน่าวิตก UBS หั่นราคาเป้าหมายหุ้น Microsoft กังวลธุรกิจคลาวด์และ Office 365 ชะลอตัว
ยักษ์เทคเผยว่า VALL-E ใช้การบันทึกเสียงกว่า 7,000 คนจาก LibriLight ซึ่งเป็นชุดข้อมูล Audiobook ที่ประกอบด้วยข้อความโดเมนสาธารณะที่อาสาสมัครอ่านเพื่อทำการเก็บตัวอย่าง
โดย Microsoft ได้ปล่อยตัวอย่างการทำงานของ VALL-E โดยแสดงให้เห็นว่าเสียงของผู้พูดถูกเลียนแบบอย่างไรบนเว็บไซต์
ทั้งนี้เครื่องมือ AI ยังไม่พร้อมใช้งานสำหรับสาธารณะ และ Microsoft ยังไม่ได้ระบุชัดเจนว่าจุดประสงค์ของมันคืออะไร
นักวิจัยได้แชร์ผลการวิจัยในเว็บไซต์วิชาการ arXiv ซึ่งผลวิจัยดังกล่าวแสดงให้เห็นว่า VALL-E ‘มีประสิทธิภาพดีกว่า’ ระบบที่ทันสมัยที่สุดในประเภทเดียวกันอย่างมาก โดยเฉพาะ ‘ในแง่ของความเป็นธรรมชาติของคำพูดและความคล้ายคลึงของผู้พูด’
แต่พวกเขาชี้ให้เห็นถึงการขาดความหลากหลายของสำเนียงในหมู่ผู้พูด และบางคำนั้น ‘ไม่ชัดเจน พลาด หรือซ้ำซาก’ ทั้งนี้พวกเขายังเตือนด้านจริยธรรมเกี่ยวกับ VALL-E และความเสี่ยง โดยกล่าวว่าเครื่องมือนี้อาจถูกนำไปใช้ในทางที่ผิด เช่น การปลอมแปลงการยืนยันตัวตนด้วยเสียงหรือการปลอมตัวเป็นคนอื่น
“เพื่อลดความเสี่ยงดังกล่าว เป็นไปได้ที่จะสร้างแบบจำลองการตรวจจับเพื่อแยกแยะว่าคลิปเสียงนั้นถูกสังเคราะห์โดย VALL-E หรือไม่” นักพัฒนาซอฟต์แวร์เขียนไว้ในเอกสารวิจัย
อ้างอิง: