Voice is the new interface หรือนี่จะเป็นสิ่งใหม่แทนที่สมาร์ทโฟน

“Hey Siri, set up a meeting at 9.”

10 ปีที่ผ่านมาระบบผู้ช่วยส่วนตัวอัจฉริยะ หรือ Voice Assistant ได้พัฒนาแบบก้าวกระโดด และช่วยจัดการสารพัดสิ่งในชีวิตประจำวันของเรา เช่น เช็กสภาพอากาศ นัดประชุม บอกเส้นทางระหว่างขับรถ ไม่แน่ว่าในอนาคตเราอาจไม่ต้องพกสมาร์ทโฟนอีกต่อไป แต่ใช้หูฟังอัจฉริยะที่รองรับคำสั่งผ่านเสียง

จะเกิดอะไรขึ้นถ้าเราเริ่มแยกไม่ออกว่ากำลังคุยกับ AI หรือมนุษย์ ชีวิตเราจะดีขึ้นจริงไหม เราจะอยู่อย่างไรในยุคแห่ง AI

เอพิโสดนี้ ซู่ชิง-จิตต์สุภา ฉิน ชวน อาจารย์เต้-ดร.อรรถพล ธำรงรัตนฤทธิ์ จากภาควิชาภาษาศาสตร์ คณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย ผู้เชี่ยวชาญด้านภาษาศาสตร์คอมพิวเตอร์และการประมวลภาษาธรรมชาติ (Natural Language Processing – NLP) มาพูดคุยเรื่อง Voice Techonology ว่าจะเปลี่ยนชีวิตของเราทุกคนไปอย่างไร

ทำไมระบบผู้ช่วยส่วนตัวอัจฉริยะจึงพัฒนาไปอย่างรวดเร็วในเวลาไม่ถึง 10 ปี

เป็นการผสมผสานระหว่าง 2 ปัจจัย จุดเริ่มต้นจริงๆ คือ สมาร์ทโฟน ซึ่งตอนนี้เรามาถึงยุคที่ไม่ได้มีแค่โทรศัพท์มือถือ แต่รวมไปถึงอุปกรณ์อัจฉริยะต่างๆ (Smart Device) และเทคโนโลยี Wearables เช่น Apple Watch และ Fitbit ซึ่งนับจำนวนก้าวและวัดอัตราการเต้นของหัวใจได้นั่นเอง ระบบคอมพิวติงได้เปลี่ยนโฉมหน้าไปจากเดิม ไม่ใช่แค่คอมพิวเตอร์อีกต่อไป

ปัจจัยที่สองคือ ตัวอัลกอริทึม หมายถึง ชุดของโปรแกรมที่สามารถประมวลข้อมูลต่างๆ ออกมาในรูปแบบที่เราสามารถเข้าใจได้ เมื่อประมาณ 10 ปีที่แล้วเกิดการพัฒนาอัลกอริทึมตัวใหม่เรียกว่า Deep Learning ซึ่งนับเป็นเทคโนโลยีปฏิวัติโลกอย่างแท้จริง ส่งผลให้ Voice Technology พัฒนาแบบก้าวกระโดดไปในทิศทางที่ดีจนถึงขั้นที่นำไปประยุกต์ใช้กับอะไรก็ได้ ขายได้ และใช้กันอย่างแพร่หลาย เช่น Alexa ผู้ช่วยอัจฉริยะในบ้านของ Amazon นาฬิกา Apple Watch บนข้อมือ หรือแม้แต่โทรศัพท์มือถือในกระเป๋าของทุกคน

เทคโนโลยีที่อยู่เบื้องหลังการทำงานของ Voice Assitant คืออะไร

เทคโนโลยีเบื้องหลังที่เป็นอินเทอร์เฟสด่านแรก คือ Deep Learning ที่จะแปลงเสียงเป็นตัวอักษรตามคำที่เราพูดออกไป จากนั้นจะมีอัลกอริทึมอีกชุดหนึ่งที่จะประมวลภาษาธรรมชาติ (NLP) ทำให้เทคโนโลยีเข้าใจว่าคนต้องการอะไร และประมวลผลออกมาเป็นคำสั่งที่ทำให้เราสามารถสั่งการได้ เช่น ตั้งนาฬิกาปลุก ปรับอุณหภูมิแอร์ เปิดทีวี Voice Assistant จะมีชุดคำสั่งรองรับการสั่งการของเราอยู่

ตอนนี้ Google Assistant สามารถโทรไปจองโต๊ะที่ร้านอาหารได้แล้ว โดยที่พนักงานไม่รู้ว่ากำลังคุยกับ AI เป็นไปได้ไหมว่าในอนาคตเราจะไม่สามารถแยกเสียงของระบบผู้ช่วยกับมนุษย์ได้เลย

เป็นไปได้ครับ ในบริบทนี้จริงๆ แล้วเจตนาของคนโทรหาร้านอาหารมีไม่กี่อย่าง เช่น เปิดกี่โมง รับจองได้ไหม ว่างเวลาไหนบ้าง ตามหลักภาษาศาสตร์เรียกว่า ‘Script’ ซึ่งเวลาเข้าร้านอาหาร เราจะมีสคริปต์อยู่ในหัวไม่กี่แบบ เช่น เดินเข้าร้านแล้วบอกว่า “2 คนครับ” ทั้งที่พนักงานยังไม่ได้ถามเรา ถ้าลองพูดแบบนี้ตอนไปหาหมอฟันก็คงไม่เวิร์ก นี่คือการนำภาษาศาสตร์มาใช้ในเทคโนโลยีจริงๆ นักภาษาศาสตร์สามารถเขียนโปรแกรมเข้าไปว่าการโทรหาร้านอาหารมีเจตนาอะไรบ้าง

ประเด็นที่สองซึ่งคนพูดถึงกันเยอะมากว่าน่าขนลุกขนพองกลับไม่ใช่ภาษา แต่เป็น Paralinguistics (ภาษาที่ช่วยแสดงกริยา) เพราะ Google Assistant พูดว่า “Umm…” คล้ายกำลังคิดอะไรบางอย่างก่อนหรือแสดงความไม่แน่ใจ ซึ่งเป็นสิ่งที่นักภาษาศาสตร์เติมเข้าไปให้มีความเป็นมนุษย์

ที่จริงเราสามารถโปรแกรมให้ Voice Assistant แกล้งพูดผิดก็ได้ การแยกความแตกต่างของการสนทนาระหว่าง AI กับมนุษย์นั้นเปรียบได้กับ Holy Grail หรือจุดสูงสุดของปัญญาประดิษฐ์เลยทีเดียว เราเรียกการทดสอบนี้ว่าทัวริง เทสต์ (Turing Test) โดยให้คนแชตกับคู่สนทนาโดยไม่เห็นหน้ากัน หากคนไม่สามารถแยกแยะได้ก็นับว่า AI ผ่านการทดสอบ ถ้าเราแยกไม่ออก 100% เมื่อไรแสดงว่าเทคโนโลยีไปถึงจุดสูงสุดแล้ว

Voice Assistant จะมาแทนที่สมาร์ทโฟนได้ไหม เหมือนหนังเรื่อง Her

มีแนวโน้มที่จะไปทางนี้ เพราะเสียงก็จัดเป็นอินเทอร์เฟสแบบหนึ่ง คีย์บอร์ด เมาส์ เป็นอินเทอร์เฟสที่เราใช้คุยกับคอมพิวเตอร์ ซึ่งมีมา 30-40 ปีแล้ว ถ้ามองย้อนกลับไปมันไม่ใช่เรื่องธรรมชาติเลยที่เราจะคุยกับใครสักคนด้วยคีย์บอร์ด เพราะเราสื่อสารกันผ่านเสียง พอเกิดสมาร์ทโฟน ปุ่มก็หายไป กลายเป็นอินเทอร์เฟสใหม่ในรูปแบบทัชสกรีน แต่มันก็ยังไม่สะดวกเสียทีเดียว ปัจจุบันมีคนพยายามพัฒนาแอปพลิเคชันเดียวที่ทำได้ทุกอย่างครบวงจร แต่จริงๆ แล้วสิ่งที่เป็นธรรมชาติก็คือ การสื่อสารพูดคุยด้วยเสียง

ปีที่แล้วมีบทความหนึ่งได้เปิดเผยการทดสอบ Voice Assistant ของแต่ละค่ายว่าจะโต้ตอบคำพูดเหยียดเพศได้อย่างไร ปรากฏว่ามันไม่สามารถรับมือได้ดีเท่าไร คิดยังไงกับเรื่องนี้

ในกรณีนี้ มีผู้หญิงคนหนึ่งพูดกับระบบผู้ช่วยส่วนตัวเกี่ยวกับเรื่องความรุนแรงในครอบครัว ซึ่งไม่ตรงกับเจตนาที่ระบบเคยป้อนข้อมูลเอาไว้ ผู้ช่วยส่วนตัวจึงต้องตอบกลับไปด้วยเจตนาที่ดีที่สุด อาจเป็นการคุยเล่น หรือหาหมายเลขสายด่วนเข้ามาให้ความช่วยเหลือ ที่แม้อาจยังไม่ตอบโจทย์เสียจนมีการตั้งคำถามว่า ระบบเหล่านี้ช่วยได้แค่เรื่องทั่วไป แต่กลับไม่สามารถแก้ปัญหาของมนุษย์จริงๆ

มนุษย์จะรับมือกับความฉลาดของเทคโนโลยีในอนาคตอย่างไร

การเขียนโปรแกรมเป็นทักษะสำคัญในศตวรรษที่ 21 จริงๆ สมัยก่อนมนุษย์เรียนปรัชญา วรรณคดี ซึ่งใช้ทักษะการคิด การท่องจำ การคิดอย่างเป็นเหตุเป็นผล ปัจจุบันเราเรียนรู้ทักษะใหม่ๆ เช่น วิศวกรรมศาสตร์ การออกแบบ เรียนภาษาที่ 2-3 มีความคิดริเริ่มสร้างสรรค์ แต่ทักษะคลื่นลูกใหม่ที่จะเข้ามามีความสำคัญในศตวรรษนี้ คือ Computational Thinking ซึ่งก็คือ การคิดเชิงคำนวณระบบระเบียบ ซึ่งแตกต่างจากคณิตศาสตร์ หลายประเทศทั่วโลกเริ่มสนใจและส่งเสริมให้เด็กรู้จักแก้ปัญหาด้วยทักษะนี้ เพราะทุกอาชีพในอนาคตต้องมีเทคโนโลยีเข้ามาเกี่ยวข้องอย่างแน่นอน เช่น นักกฎหมายที่ใช้อัลกอริทึมช่วยตรวจสอบสัญญาก็ควรเข้าใจว่า AI ทำงานอย่างไร มีข้อบกพร่องอย่างไรบ้าง

สามารถฟังพอดแคสต์ Tomorrow is Now
ผ่านแอปพลิเคชันต่างๆ ที่คุณสะดวกหรือใช้อยู่แล้วได้เลย