×

Microsoft กำลังฝึก AI ตัวใหม่ชื่อ ‘VALL-E’ ที่สามารถเลียนแบบเสียงของใครก็ได้จากคลิปเสียงความยาว 3 วินาที

24.01.2023
  • LOADING...

Microsoft บริษัทเทคยักษ์ใหญ่ที่กำลังฝึก AI ตัวใหม่ที่มีชื่อว่า VALL-E ซึ่งสามารถเลียนแบบเสียงของใครก็ได้จากคลิปเสียงความยาว 3 วินาที

 

VALL-E ได้รับการฝึกด้วยการพูดภาษาอังกฤษถึง 60,000 ชั่วโมง โดยสามารถสร้างเสียงพูดที่ไม่เคยได้ยินมาก่อนได้ หรือที่เรียกว่าสถานการณ์ Zero-Shot จากข้อมูลในเอกสาร และใช้เทคโนโลยี Text-to-Speech เพื่อเปลี่ยนตัวหนังสือเป็นคำพูดในแบบ ‘คุณภาพสูงแบบเฉพาะบุคคล’ 

 


ข่าวที่เกี่ยวข้อง:


 

ยักษ์เทคเผยว่า VALL-E ใช้การบันทึกเสียงกว่า 7,000 คนจาก LibriLight ซึ่งเป็นชุดข้อมูล Audiobook ที่ประกอบด้วยข้อความโดเมนสาธารณะที่อาสาสมัครอ่านเพื่อทำการเก็บตัวอย่าง 

 

โดย Microsoft ได้ปล่อยตัวอย่างการทำงานของ VALL-E โดยแสดงให้เห็นว่าเสียงของผู้พูดถูกเลียนแบบอย่างไรบนเว็บไซต์

 

ทั้งนี้เครื่องมือ AI ยังไม่พร้อมใช้งานสำหรับสาธารณะ และ Microsoft ยังไม่ได้ระบุชัดเจนว่าจุดประสงค์ของมันคืออะไร

 

นักวิจัยได้แชร์ผลการวิจัยในเว็บไซต์วิชาการ arXiv ซึ่งผลวิจัยดังกล่าวแสดงให้เห็นว่า VALL-E ‘มีประสิทธิภาพดีกว่า’ ระบบที่ทันสมัยที่สุดในประเภทเดียวกันอย่างมาก โดยเฉพาะ ‘ในแง่ของความเป็นธรรมชาติของคำพูดและความคล้ายคลึงของผู้พูด’

 

แต่พวกเขาชี้ให้เห็นถึงการขาดความหลากหลายของสำเนียงในหมู่ผู้พูด และบางคำนั้น ‘ไม่ชัดเจน พลาด หรือซ้ำซาก’ ทั้งนี้พวกเขายังเตือนด้านจริยธรรมเกี่ยวกับ VALL-E และความเสี่ยง โดยกล่าวว่าเครื่องมือนี้อาจถูกนำไปใช้ในทางที่ผิด เช่น การปลอมแปลงการยืนยันตัวตนด้วยเสียงหรือการปลอมตัวเป็นคนอื่น

 

“เพื่อลดความเสี่ยงดังกล่าว เป็นไปได้ที่จะสร้างแบบจำลองการตรวจจับเพื่อแยกแยะว่าคลิปเสียงนั้นถูกสังเคราะห์โดย VALL-E หรือไม่” นักพัฒนาซอฟต์แวร์เขียนไว้ในเอกสารวิจัย

 

อ้างอิง: 

  • LOADING...

READ MORE




Latest Stories

Close Advertising