×

Voice Engine โมเดลเลียนเสียงจาก OpenAI ที่ขอแค่ฟังตัวอย่างเพียง 15 วินาทีในการสร้างเสียงให้เหมือนต้นฉบับ

30.03.2024
  • LOADING...

หลังจากซุ่มพัฒนามากว่า 2 ปี OpenAI ได้ประกาศพรีวิวตัวอย่างโมเดลปัญญาประดิษฐ์ (Artificial Intelligence หรือ AI) ที่สามารถเปลี่ยนข้อความให้เป็นเสียง หรือที่เรียกอีกอย่างหนึ่งว่า Text-to-Voice โดยโมเดลตัวนี้มีชื่อเรียกว่า Voice Engine ที่สามารถเลียนเสียงของผู้อื่นได้แล้วจากการฟังตัวอย่างเสียงของใครก็ตามเพียงแค่ 15 วินาที โดยการโคลนเสียงของ Voice Engine สามารถอ่านตัวหนังสือเป็นภาษาเดียวกับเสียงที่ฟังหรือเปลี่ยนไปเป็นภาษาอื่นก็ได้ 

 

อย่างไรก็ตาม การเข้าถึงโมเดลตัวนี้ยังจำกัดอยู่แค่กลุ่มนักพัฒนาเพียง 10 รายเท่านั้น เนื่องจากทาง OpenAI ยังอยู่ระหว่างการปรับจูน เพื่อให้มั่นใจว่า Voice Engine จะถูกใช้งานอย่างมีจริยธรรม โดยหนึ่งในบริษัทที่สามารถเข้าถึงโมเดลนี้ได้คือ Age of Learning ที่เป็นบริษัทเทคโนโลยีด้านการศึกษา (Educational Technology หรือ EdTech) ที่นำโมเดลมาใช้สำหรับการอ่านออกเสียง

 

ด้านล่างจะเป็นตัวอย่างของเสียงต้นแบบที่เอาไว้ใช้ฝึกฝนโมเดล

 

(เครดิต: OpenAI)

 

ส่วนคลิปเสียง 2 อันต่อไปนี้คือสิ่งที่ AI สร้างออกมา โดยพูดเป็นภาษาที่ต่างไปจากเสียงต้นแบบ

 

(เครดิต: OpenAI)

 

“เราอยากทำให้แน่ใจว่าทุกคนจะสบายใจได้เมื่อนวัตกรรมชิ้นนี้ถูกปล่อยสู่สาธารณะ เราอยากจะเข้าใจว่าความเสี่ยงและความอันตรายอยู่ตรงไหน และเราจะต้องมีมาตรการที่พร้อมรับมือกับเหตุการณ์เหล่านั้น” เจฟฟ์ แฮร์ริส พนักงาน OpenAI กล่าวกับ TechCrunch

 

OpenAI ระบุว่า Voice Engine ถูกเริ่มพัฒนามาตั้งแต่ช่วงปลายปี 2022 และถูกใช้งานแล้วในฟีเจอร์ ‘Read Aloud’ ของ ChatGPT ที่ผู้ใช้งานสามารถเลือกฟังคำตอบแทนการอ่านได้ ซึ่งโมเดลนี้ถูกพัฒนาโดยอาศัยข้อมูลที่ถูกต้องตามลิขสิทธิ์และข้อมูลสาธารณะ

 

ในขณะที่การพัฒนา AI เพื่อสร้างเสียงไว้สำหรับกรณีใช้งานต่างๆ เดินหน้าต่อ ทางรัฐบาลสหรัฐฯ ก็พยายามที่จะหาวิธีป้องกันการใช้งานที่ขัดต่อหลักศีลธรรม เพราะเมื่อเดือนที่แล้วที่เกิดเหตุการณ์การปลอมเสียงของ โจ ไบเดน ประธานาธิบดีสหรัฐอเมริกา ที่ให้ข้อมูลเท็จ ซึ่งมีเนื้อหารณรงค์ไม่ให้คนออกไปใช้สิทธิเลือกตั้ง

 

ด้วยปัญหาแบบนี้ OpenAI มีความพยายามที่จะสร้างกลไกป้องกัน โดยเจ้าของเสียงจำเป็นต้องรับรู้ล่วงหน้าและยินยอมให้เสียงของตัวเองถูกใช้งานได้ ซึ่งวิธีที่บริษัทกำลังทดลองอยู่คือ การที่เจ้าของเสียงอ่านประโยคที่ถูกสร้างขึ้นมาจากการสุ่มคำ เพื่อทำให้คนที่ไม่ประสงค์ดีไม่สามารถรู้ได้ก่อนว่าประโยคสุ่มจะประกอบด้วยคำว่าอะไรบ้าง และเป็นการยืนยันตัวตนว่าเจ้าตัวรับรู้ว่าเสียงของตนจะถูกใช้งานอย่างไร

 

ณ ปัจจุบันยังไม่มีรายงานออกมาว่า Voice Engine จะเปิดให้บริการสู่สาธารณะเมื่อไร เพราะยังมีประเด็นความปลอดภัยหลายอย่างที่ OpenAI ต้องปรับเพิ่มเติม

 

“ปัจจัยที่จะช่วยให้เทคโนโลยีถูกใช้อย่างแพร่หลายได้ ขึ้นอยู่กับว่าเราเรียนรู้อะไรจากการทดลองของเรา ไม่ว่าจะเป็นปัญหาต่างๆ หรือวิธีการรับมือกับปัญหาเหล่านั้น เพราะสุดท้ายแล้วเราไม่ต้องการให้คนสับสนว่าเสียงนี้เป็นของปลอมหรือของบุคคลจริงกันแน่” แฮร์ริสกล่าว

 

อ้างอิง:

  • LOADING...

READ MORE




Latest Stories

Close Advertising
X