Voice Engine โมเดลเลียนเสียงจาก OpenAI ที่ขอแค่ฟังตัวอย่างเพียง 15 วินาที

หลังจากซุ่มพัฒนามากว่า 2 ปี OpenAI ได้ประกาศพรีวิวตัวอย่างโมเดลปัญญาประดิษฐ์ (Artificial Intelligence หรือ AI) ที่สามารถเปลี่ยนข้อความให้เป็นเสียง หรือที่เรียกอีกอย่างหนึ่งว่า Text-to-Voice โดยโมเดลตัวนี้มีชื่อเรียกว่า Voice Engine ที่สามารถเลียนเสียงของผู้อื่นได้แล้วจากการฟังตัวอย่างเสียงของใครก็ตามเพียงแค่ 15 วินาที โดยการโคลนเสียงของ Voice Engine สามารถอ่านตัวหนังสือเป็นภาษาเดียวกับเสียงที่ฟังหรือเปลี่ยนไปเป็นภาษาอื่นก็ได้

อย่างไรก็ตาม การเข้าถึงโมเดลตัวนี้ยังจำกัดอยู่แค่กลุ่มนักพัฒนาเพียง 10 รายเท่านั้น เนื่องจากทาง OpenAI ยังอยู่ระหว่างการปรับจูน เพื่อให้มั่นใจว่า Voice Engine จะถูกใช้งานอย่างมีจริยธรรม โดยหนึ่งในบริษัทที่สามารถเข้าถึงโมเดลนี้ได้คือ Age of Learning ที่เป็นบริษัทเทคโนโลยีด้านการศึกษา (Educational Technology หรือ EdTech) ที่นำโมเดลมาใช้สำหรับการอ่านออกเสียง

ด้านล่างจะเป็นตัวอย่างของเสียงต้นแบบที่เอาไว้ใช้ฝึกฝนโมเดล

(เครดิต: OpenAI)

ส่วนคลิปเสียง 2 อันต่อไปนี้คือสิ่งที่ AI สร้างออกมา โดยพูดเป็นภาษาที่ต่างไปจากเสียงต้นแบบ

(เครดิต: OpenAI)

“เราอยากทำให้แน่ใจว่าทุกคนจะสบายใจได้เมื่อนวัตกรรมชิ้นนี้ถูกปล่อยสู่สาธารณะ เราอยากจะเข้าใจว่าความเสี่ยงและความอันตรายอยู่ตรงไหน และเราจะต้องมีมาตรการที่พร้อมรับมือกับเหตุการณ์เหล่านั้น” เจฟฟ์ แฮร์ริส พนักงาน OpenAI กล่าวกับ TechCrunch

OpenAI ระบุว่า Voice Engine ถูกเริ่มพัฒนามาตั้งแต่ช่วงปลายปี 2022 และถูกใช้งานแล้วในฟีเจอร์ ‘Read Aloud’ ของ ChatGPT ที่ผู้ใช้งานสามารถเลือกฟังคำตอบแทนการอ่านได้ ซึ่งโมเดลนี้ถูกพัฒนาโดยอาศัยข้อมูลที่ถูกต้องตามลิขสิทธิ์และข้อมูลสาธารณะ

ในขณะที่การพัฒนา AI เพื่อสร้างเสียงไว้สำหรับกรณีใช้งานต่างๆ เดินหน้าต่อ ทางรัฐบาลสหรัฐฯ ก็พยายามที่จะหาวิธีป้องกันการใช้งานที่ขัดต่อหลักศีลธรรม เพราะเมื่อเดือนที่แล้วที่เกิดเหตุการณ์การปลอมเสียงของ โจ ไบเดน ประธานาธิบดีสหรัฐอเมริกา ที่ให้ข้อมูลเท็จ ซึ่งมีเนื้อหารณรงค์ไม่ให้คนออกไปใช้สิทธิเลือกตั้ง

ด้วยปัญหาแบบนี้ OpenAI มีความพยายามที่จะสร้างกลไกป้องกัน โดยเจ้าของเสียงจำเป็นต้องรับรู้ล่วงหน้าและยินยอมให้เสียงของตัวเองถูกใช้งานได้ ซึ่งวิธีที่บริษัทกำลังทดลองอยู่คือ การที่เจ้าของเสียงอ่านประโยคที่ถูกสร้างขึ้นมาจากการสุ่มคำ เพื่อทำให้คนที่ไม่ประสงค์ดีไม่สามารถรู้ได้ก่อนว่าประโยคสุ่มจะประกอบด้วยคำว่าอะไรบ้าง และเป็นการยืนยันตัวตนว่าเจ้าตัวรับรู้ว่าเสียงของตนจะถูกใช้งานอย่างไร

ณ ปัจจุบันยังไม่มีรายงานออกมาว่า Voice Engine จะเปิดให้บริการสู่สาธารณะเมื่อไร เพราะยังมีประเด็นความปลอดภัยหลายอย่างที่ OpenAI ต้องปรับเพิ่มเติม

“ปัจจัยที่จะช่วยให้เทคโนโลยีถูกใช้อย่างแพร่หลายได้ ขึ้นอยู่กับว่าเราเรียนรู้อะไรจากการทดลองของเรา ไม่ว่าจะเป็นปัญหาต่างๆ หรือวิธีการรับมือกับปัญหาเหล่านั้น เพราะสุดท้ายแล้วเราไม่ต้องการให้คนสับสนว่าเสียงนี้เป็นของปลอมหรือของบุคคลจริงกันแน่” แฮร์ริสกล่าว

อ้างอิง:

FOLLOW US

Voice Engine โมเดลเลียนเสียงจาก OpenAI ที่ขอแค่ฟังตัวอย่างเพียง 15 วินาทีในการสร้างเสียงให้เหมือนต้นฉบับ

TAGS:

ABOUT THE AUTHOR

สรสิช ลีลานุกิจ

EDITOR'S PICK

เจาะลึกกับ กมธ. งบฯ 70: ปัญหาในงบ 1 พันล้าน ของกองทุนฟื้นฟูและพัฒนาเกษตรกร ที่ สตง. ชี้ว่า “ไม่น่าเชื่อถือ”

ทำไมญี่ปุ่นถึงกลายเป็น ‘รังสายลับต่างชาติ’ รัฐแก้ปัญหานี้อย่างไร

อาร์เจนตินากับหัวใจของแชมป์โลก ยิ่งกดดัน ยิ่งแข็งแกร่ง

สเปนทำยังไงถึงชนะฝรั่งเศส ทีมที่ดีที่สุดในฟุตบอลโลกครั้งนี้

เจาะปม ‘GROREIT’ เมื่อ ROH ไม่มาซื้อคืนโรงแรม 4,873 ล้านบาท บทพิสูจน์แรกของ ‘REIT Buy-Back’ กองแรกของไทย

MOST POPULAR

หุ้นเกาหลีใต้ร่วง 40% ใน 40 วัน บทเรียน 3,100 ล้านล้านวอน เมื่อรัฐผลิตความเสี่ยงด้วย Single-stock leveraged ETFs