Voice Engine โมเดลเลียนเสียงจาก OpenAI ที่ขอแค่ฟังตัวอย่างเพียง 15 วินาที

หลังจากซุ่มพัฒนามากว่า 2 ปี OpenAI ได้ประกาศพรีวิวตัวอย่างโมเดลปัญญาประดิษฐ์ (Artificial Intelligence หรือ AI) ที่สามารถเปลี่ยนข้อความให้เป็นเสียง หรือที่เรียกอีกอย่างหนึ่งว่า Text-to-Voice โดยโมเดลตัวนี้มีชื่อเรียกว่า Voice Engine ที่สามารถเลียนเสียงของผู้อื่นได้แล้วจากการฟังตัวอย่างเสียงของใครก็ตามเพียงแค่ 15 วินาที โดยการโคลนเสียงของ Voice Engine สามารถอ่านตัวหนังสือเป็นภาษาเดียวกับเสียงที่ฟังหรือเปลี่ยนไปเป็นภาษาอื่นก็ได้

อย่างไรก็ตาม การเข้าถึงโมเดลตัวนี้ยังจำกัดอยู่แค่กลุ่มนักพัฒนาเพียง 10 รายเท่านั้น เนื่องจากทาง OpenAI ยังอยู่ระหว่างการปรับจูน เพื่อให้มั่นใจว่า Voice Engine จะถูกใช้งานอย่างมีจริยธรรม โดยหนึ่งในบริษัทที่สามารถเข้าถึงโมเดลนี้ได้คือ Age of Learning ที่เป็นบริษัทเทคโนโลยีด้านการศึกษา (Educational Technology หรือ EdTech) ที่นำโมเดลมาใช้สำหรับการอ่านออกเสียง

ด้านล่างจะเป็นตัวอย่างของเสียงต้นแบบที่เอาไว้ใช้ฝึกฝนโมเดล

(เครดิต: OpenAI)

ส่วนคลิปเสียง 2 อันต่อไปนี้คือสิ่งที่ AI สร้างออกมา โดยพูดเป็นภาษาที่ต่างไปจากเสียงต้นแบบ

(เครดิต: OpenAI)

“เราอยากทำให้แน่ใจว่าทุกคนจะสบายใจได้เมื่อนวัตกรรมชิ้นนี้ถูกปล่อยสู่สาธารณะ เราอยากจะเข้าใจว่าความเสี่ยงและความอันตรายอยู่ตรงไหน และเราจะต้องมีมาตรการที่พร้อมรับมือกับเหตุการณ์เหล่านั้น” เจฟฟ์ แฮร์ริส พนักงาน OpenAI กล่าวกับ TechCrunch

OpenAI ระบุว่า Voice Engine ถูกเริ่มพัฒนามาตั้งแต่ช่วงปลายปี 2022 และถูกใช้งานแล้วในฟีเจอร์ ‘Read Aloud’ ของ ChatGPT ที่ผู้ใช้งานสามารถเลือกฟังคำตอบแทนการอ่านได้ ซึ่งโมเดลนี้ถูกพัฒนาโดยอาศัยข้อมูลที่ถูกต้องตามลิขสิทธิ์และข้อมูลสาธารณะ

ในขณะที่การพัฒนา AI เพื่อสร้างเสียงไว้สำหรับกรณีใช้งานต่างๆ เดินหน้าต่อ ทางรัฐบาลสหรัฐฯ ก็พยายามที่จะหาวิธีป้องกันการใช้งานที่ขัดต่อหลักศีลธรรม เพราะเมื่อเดือนที่แล้วที่เกิดเหตุการณ์การปลอมเสียงของ โจ ไบเดน ประธานาธิบดีสหรัฐอเมริกา ที่ให้ข้อมูลเท็จ ซึ่งมีเนื้อหารณรงค์ไม่ให้คนออกไปใช้สิทธิเลือกตั้ง

ด้วยปัญหาแบบนี้ OpenAI มีความพยายามที่จะสร้างกลไกป้องกัน โดยเจ้าของเสียงจำเป็นต้องรับรู้ล่วงหน้าและยินยอมให้เสียงของตัวเองถูกใช้งานได้ ซึ่งวิธีที่บริษัทกำลังทดลองอยู่คือ การที่เจ้าของเสียงอ่านประโยคที่ถูกสร้างขึ้นมาจากการสุ่มคำ เพื่อทำให้คนที่ไม่ประสงค์ดีไม่สามารถรู้ได้ก่อนว่าประโยคสุ่มจะประกอบด้วยคำว่าอะไรบ้าง และเป็นการยืนยันตัวตนว่าเจ้าตัวรับรู้ว่าเสียงของตนจะถูกใช้งานอย่างไร

ณ ปัจจุบันยังไม่มีรายงานออกมาว่า Voice Engine จะเปิดให้บริการสู่สาธารณะเมื่อไร เพราะยังมีประเด็นความปลอดภัยหลายอย่างที่ OpenAI ต้องปรับเพิ่มเติม

“ปัจจัยที่จะช่วยให้เทคโนโลยีถูกใช้อย่างแพร่หลายได้ ขึ้นอยู่กับว่าเราเรียนรู้อะไรจากการทดลองของเรา ไม่ว่าจะเป็นปัญหาต่างๆ หรือวิธีการรับมือกับปัญหาเหล่านั้น เพราะสุดท้ายแล้วเราไม่ต้องการให้คนสับสนว่าเสียงนี้เป็นของปลอมหรือของบุคคลจริงกันแน่” แฮร์ริสกล่าว

อ้างอิง:

FOLLOW US

Voice Engine โมเดลเลียนเสียงจาก OpenAI ที่ขอแค่ฟังตัวอย่างเพียง 15 วินาทีในการสร้างเสียงให้เหมือนต้นฉบับ

TAGS:

ABOUT THE AUTHOR

สรสิช ลีลานุกิจ

EDITOR'S PICK

เจาะนโยบาย ‘อนุทิน 2’ ต่างประเทศรุก-ความมั่นคงใหม่

‘การแถลงนโยบาย’ มีความสำคัญอย่างไร เหตุใดรัฐบาลต้องทำสิ่งนี้ก่อนจึงจะบริหารประเทศได้เต็มที่

เปิดรายละเอียดข้อตกลงหยุดยิงสหรัฐฯ – อิหร่าน และขั้นตอนเจรจาหลังจากนี้ จะเกิดอะไรขึ้น?

รู้จัก เชห์บาซ ชารีฟ นายกรัฐมนตรีปากีสถาน ตัวกลางหย่าศึกสหรัฐฯ-อิหร่าน

‘จุลสาหร่าย KU01’ความหวังใหม่ไทย ปลดล็อกเกษตรมูลค่าสูง สู่พลังงานสะอาดและ Wellness ระดับโลก

MOST POPULAR

กรุงเทพฯ เคานต์ดาวน์สู่สงกรานต์ 2569

ยศชนันชูนวัตกรรมขับเคลื่อนเศรษฐกิจประเทศ แจงวิสัยทัศน์มหาวิทยาลัยเปิดกว้างจนถึงผู้สูงอายุ

สรุปแถลงนโยบายระยะสั้น-ยาว ‘เอกนิติ’ รับมือยุคน้ำมันแพง 1-2 ปี