ทีมวิจัย DeepMind ของกูเกิล ได้ร่วมมือกับมหาวิทยาลัยอ๊อกซฟอร์ดในการสร้างซอฟต์แวร์อ่านคำพูดจากปาก ซึ่งให้ผลลัพธ์แม่นยำกว่านักอ่านปากมืออาชีพกว่า 3.8 เท่า
ทางทีมวิจัยได้ทำการสอน AI โดยการฟีดวิดีโอจากโทรทัศน์ความยาวหลายพันชั่วโมง (thousands of hours) ให้ AI เพื่อเรียนรู้ลักษณะปากในการออกเสียงคำพูดต่างๆ ซึ่งผลลัพธ์ที่ได้ คือ AI สามารถอ่านปากและถอดออกมาเป็นคำพูดได้แม่นยำถึง 46.8% ซึ่งเทียบกับนักอ่านปากมืออาชีพ ที่สามารถถอดคำออกมาได้ถูกต้องเพียง 12.4% เท่านั้น
งานวิจัยนี้เป็นการปรับปรุงต่อยอดมาจากงานวิจัยอีกชิ้นของนักวิจัยอีกทีมหนึ่งของมหาวิทยาลัยอ๊อกซฟอร์ดเช่นกัน โดยงานวิจัยดังกล่าวได้สร้างโปรแกรมอ่านปากที่ชื่อว่า LipNet ขึ้นมา และสามารถอ่านปากได้แม่นยำถึง 93.4% (เทียบกับนักอ่านปากมืออาชีพที่ 52.3%) ทั้งนี้ตัวอย่างใน LipNet นั้นเป็นการให้อาสาสมัครมาอ่านข้อความที่กำหนดไว้ ซึ่งรูปแบบของปากจะชัดเจนกว่าที่เห็นจากในทีวีอยู่มาก
ที่มา – The Verge
ความเห็นของเรา
ในอนาคตเชื่อได้ว่าการพัฒนา AI ให้อ่านปากได้นั้น จะแม่นยำขึ้นกว่าเดิมขึ้นไปอีก ซึ่งก็น่าจะถูกนำไปประยุกต์ใช้ในหลายๆ อย่าง ทั้งในกระบวนการยุติธรรม (เช่นการอ่านปากจากภาพในกล้องวงจรปิด) หรือการในเชิงประวัติศาสตร์ (เช่นการอ่านปากจากภาพในวิดีโอเหตุการณ์ต่างๆ) ซึ่งจะช่วยไขข้อสงสัยต่างๆ ให้กับเราได้อีกมากพอสมควร
