เทคโนโลยีโคลนเสียง: เราเป็นเจ้าของเสียงตัวเองจริงหรือ?

ไม่นานมานี้ เทคโนโลยีโคลนเสียงตัวใหม่ของ OpenAI บริษัทเจ้าของ ChatGPT ได้สร้างความตื่นตาตื่นใจให้กับคนจำนวนมากถึงความสามารถที่ใช้คลิปเสียงเพียง 15 วินาที ในการสังเคราะห์เสียงชุดใหม่ออกมา ซึ่งเหมือนกับเสียงต้นฉบับแบบแยกกันไม่ออก หลายคนอาจตกใจกับความสามารถในการสังเคราห์เสียงด้วยเทคโนโลยี AI ตัวใหม่นี้ แต่รู้หรือไม่ว่าจริงๆ แล้วเราทุกคนก็ใช้เสียงสังเคราะห์กันมาหลายสิบปีแล้ว โดยคนที่สังเคราะห์เสียงตัวเองแล้วส่งไปให้คนอื่นฟังก็คือตัวเราเอง!

ขออนุญาตปูพื้นก่อนว่า เสียงของเราทุกคนนั้นประกอบไปด้วยโทนเสียงหรือความถี่ที่หลากหลายปนอยู่ด้วยกัน เช่น เสียงของนาย A อาจประกอบไปด้วยความถี่ที่ 1, 2, 3, 4 ซึ่งส่วนใหญ่เป็นโทนเสียงความถี่ต่ำ (เสียงทุ้ม) ส่วนเสียงของนาง B อาจประกอบไปด้วยความถี่ที่ 7, 8, 9, 10 โดยส่วนใหญ่เป็นโทนเสียงความถี่สูง (เสียงแหลม)

คราวนี้เสียงสังเคราะห์ที่ใช้มาเป็นเวลานานก็คือเสียงของเรานี่แหละ ที่สื่อสารกันผ่านระบบสื่อสารอย่างโทรศัพท์ โดยเวลาที่เราโทรหาคนอื่นหรือส่งเสียงหากันผ่านระบบอินเทอร์เน็ต เสียงต้นฉบับของเราจะถูกแยกออกเป็นองค์ประกอบย่อย (Decompose) ซึ่งก็คือโทนหรือความถี่ต่างๆ นั่นเอง โดยที่ข้อมูลเหล่านี้ ท้ายที่สุดจะถูกส่งไปประมวลผลก่อนเข้ารหัสให้อยู่ในรูปที่สามารถส่งผ่านเครือข่ายสื่อสารได้ เช่น เลขฐานสอง หรือ 0100010101010101 เพื่อส่งต่อไปยังปลายทาง หลังจากที่ข้อมูลเหล่านี้ถูกส่งไปถึงปลายทางแล้วก็จะถูกถอดรหัสเพื่อแปลงจากเลขฐานสองกลับมาเป็นข้อมูลที่เข้าใจได้ จากนั้นจึงประมวลผลแล้วประกอบกลับมาเป็นเสียงใหม่ (Reconstruct) เพื่อให้คนปลายสายได้ฟัง ซึ่งการ ‘ประกอบเสียงใหม่’ ที่ปลายสายนี่แหละที่เราอาจมองว่าเป็นการ ‘สังเคราะห์’ เสียงใหม่เลยก็ได้

แปลว่าเสียงที่เราได้ยินในปลายสายนั้น จริงๆ แล้วไม่ใช่เสียงต้นฉบับของจริงของคนพูด หากแต่เป็นเสียงสังเคราะห์ที่เหมือนกับเสียงต้นฉบับแบบแยกกันไม่ออกต่างหาก พูดง่ายๆ คือเราส่งเสียงสังเคราะห์ของเราให้กับคนอื่นมานานแล้ว

หากเราจะอธิบายการทำงานของ AI ที่โคลนเสียงแบบให้เข้าใจง่าย ก็มีความคล้ายกับกระบวนการเบื้องต้นที่มีการแตกองค์ประกอบของเสียงต้นฉบับ เพื่อให้ AI ได้เรียนรู้ว่าเป็นโทนเสียงแบบไหน มีจังหวะการพูดเป็นอย่างไร จากนั้นก็สร้างแบบแปลนหรือ Blueprint ของเสียงนั้นด้วยโมเดล AI เพื่อสังเคราะห์ใหม่ด้วยคำพูดอื่นๆ ที่เจ้าตัวไม่เคยพูดมาก่อน

การใช้ AI เพื่อสังเคราะห์เสียงนั้นเป็นที่ถกเถียงกันมานาน โดยเฉพาะในวงการเพลง ว่าเป็นการละเมิดลิขสิทธิ์ของศิลปินเจ้าของเสียงหรือไม่ ล่าสุดมีศิลปินที่ใช้ชื่อว่า SIXFOOT 5 แต่งเพลงเอง รวมถึงยังร้องเพลงด้วยเสียงของตัวเองก่อน จากนั้นจึงค่อยแปลงเพลงที่ตัวเองร้องไปเป็นเสียงของนักร้องสาวชื่อดังอย่าง Adele แทน โดย SIXFOOT 5 ใช้เทคโนโลยีโคลนเสียงด้วย AI จากคลิปของ Adele ที่มีอยู่มากมายในโลกออนไลน์สำหรับการเรียนรู้องค์ประกอบของเสียงก่อนที่จะโคลนเสียง

หรือก่อนหน้านี้ก็มีข่าวคนที่ใช้ชื่อว่า Ghostwriter สังเคราะห์เสียงศิลปินชื่อดังอย่าง Drake และ The Weeknd มาใช้ในเพลง Heart on My Sleeve ก่อนถูกเจ้าของค่ายเพลงยักษ์ใหญ่อย่าง Universal Music ยื่นคำขาดให้แพลตฟอร์มสตรีมมิงต่างๆ ถอดเพลงนี้ออก เนื่องจากเป็นการละเมิดสิ่งที่เรียกว่า Right of Publicity ซึ่งก็คือสิทธิในการใช้อัตลักษณ์ของบุคคลในเชิงพาณิชย์ เช่น นามปากกา นามแฝง เสียง หน้าตา พูดง่ายๆ คือ ศิลปินชื่อดังเหล่านี้มีสิทธิในอัตลักษณ์ของเขาเอง โดยคนอื่นไม่สามารถนำไปใช้เพื่อผลประโยชน์ส่วนตนได้

ปัญหาของเรื่องนี้ไม่ได้จบอยู่ที่การลอกเลียนเสียงของคนดังเพื่อผลประโยชน์เชิงพาณิชย์เพียงอย่างเดียว อีกปัญหาที่ซับซ้อนกว่าคือการยืนยันว่าเสียงชุดนี้เป็นเสียงของเราจริงๆ เนื่องจากเสียงของเราทุกคน นอกจากสามารถแตกองค์ประกอบย่อยเป็นโทนความถี่ต่างๆ ได้แล้ว จริงๆ มีตัวเลขอีกชุดที่สำคัญ ซึ่งคืออัตราส่วนของโทน

สมมตินาย A เป็นศิลปินชื่อดังและมีโทนเสียง 1, 2, 3, 4 โดยที่มีอัตราส่วนของแต่ละความถี่ดังนี้

ความถี่ที่ 1 มีอยู่ 20%

ความถี่ที่ 2 มีอยู่ 10%

ความถี่ที่ 3 มีอยู่ 50%

ความถี่ที่ 4 มีอยู่ 20%

หากเราเอาเสียงของนาย A มาเปลี่ยนอัตราส่วนใหม่เป็น

ความถี่ที่ 1 มีอยู่ 19%

ความถี่ที่ 2 มีอยู่ 11%

ความถี่ที่ 3 มีอยู่ 49%

ความถี่ที่ 4 มีอยู่ 21%

อัตราส่วนใหม่นี้มีความใกล้เคียงกับต้นฉบับก็จริง แต่ก็ไม่เหมือนเสียทีเดียว ถ้าเสียงที่สร้างจากแปลนใหม่นี้มีความคล้ายกับต้นฉบับ เจ้าของเสียงต้นฉบับจะยังสามารถเคลมได้ไหมว่าเสียงชุดที่สองนี้ก็นับว่าเป็นเสียงของเขาด้วย

การที่นาย A สามารถเคลมได้หรือไม่ก็ตาม จะส่งผลให้เกิดคำถามตามมาว่า คล้ายแค่ไหนคือการลอกเลียนแบบเสียงต้นฉบับ ความคล้ายที่ว่านี้วัดได้ด้วยตัวเลขหรือไม่ (ความถี่และอัตราส่วน) ถ้าได้ เราต้องใช้ตัวเลขชุดไหนในการตัดสิน หากเราใช้วิจารณญาณของผู้ฟังเป็นเกณฑ์ (Human Judgement) ก็จะก่อให้เกิดความเอนเอียงหรือ Bias อยู่ดี เนื่องจากความเซนสิทีฟของกระดูกภายในหูของแต่ละคนมีความไวที่แตกต่างกัน ทำให้ต่างคนต่างฟังแล้วอาจได้คำตอบที่ไม่เหมือนกัน บางคนฟังแล้วบอกว่าเหมือน บางคนบอกว่าแค่คล้าย แต่ไม่เหมือน

นอกเหนือจากการโคลนเสียงให้คล้ายกับเจ้าของแล้ว ยังมีเรื่องของคนที่เสียงคล้ายกันอีก สมมติว่านาย A คนเดิมเป็นศิลปินที่โด่งดัง แต่ว่าโทนเสียงดันไปคล้ายกับนาย C ซึ่งเป็นคนธรรมดา ไม่ได้เป็นศิลปินที่มีชื่อเสียง การที่เราโคลนเสียงของนาย C โดยที่ได้รับอนุญาต จะถือว่าเป็นการละเมิดสิทธิของนาย A ด้วยหรือไม่

ในปัจจุบันคำถามเหล่านี้ยังไม่มีคำตอบที่ชัดเจน แต่สิ่งหนึ่งที่ตัดสินได้คือเจตนาของผู้กระทำ ซึ่งต่อให้ทางเทคนิคแล้ว เสียงที่โคลนมีแบบแปลนที่ไม่เหมือนกับศิลปินเจ้าของเสียง 100% หรือการที่เราโคลนเสียงของคนที่คล้ายศิลปิน เราสามารถดูเจตนาของผู้กระทำได้ว่า ต้องการเลียนแบบเสียงของศิลปินเพื่อผลประโยชน์ส่วนตนทั้งสองกรณี ส่วนจะมีผลทางกฎหมายหรือมีการกำกับดูแลสิ่งนี้หรือไม่ อาจต้องรอให้มีการถกเถียงกันมากขึ้น เพื่อหาบทสรุปว่าควรจะจัดการเรื่องนี้อย่างไร

ทางออกหนึ่งที่ศิลปินสาว Grimes แฟนเก่าของ Elon Musk จัดการกับปัญหาเรื่องการโคลนเสียงของเธอคือ การเปิดช่องทางให้ทุกคนสามารถโคลนเสียงไปใช้เชิงพาณิชย์ได้เลย หากแต่ว่าต้องแบ่งผลประโยชน์กัน 50-50 สำหรับศิลปินท่านใดที่อยากแก้ปัญหานี้พร้อมกับเพิ่มช่องทางในการหารายได้ ก็อาจใช้วิธีเดียวกับ Grimes ไปก่อนก็ได้