AI ของกูเกิล สามารถอ่านปากได้แม่นยำกว่ามนุษย์ถึง 3.8 เท่า

ทีมวิจัย DeepMind ของกูเกิล  ได้ร่วมมือกับมหาวิทยาลัยอ๊อกซฟอร์ดในการสร้างซอฟต์แวร์อ่านคำพูดจากปาก  ซึ่งให้ผลลัพธ์แม่นยำกว่านักอ่านปากมืออาชีพกว่า 3.8 เท่า

ทางทีมวิจัยได้ทำการสอน AI โดยการฟีดวิดีโอจากโทรทัศน์ความยาวหลายพันชั่วโมง (thousands of hours) ให้ AI เพื่อเรียนรู้ลักษณะปากในการออกเสียงคำพูดต่างๆ  ซึ่งผลลัพธ์ที่ได้  คือ AI สามารถอ่านปากและถอดออกมาเป็นคำพูดได้แม่นยำถึง 46.8% ซึ่งเทียบกับนักอ่านปากมืออาชีพ  ที่สามารถถอดคำออกมาได้ถูกต้องเพียง 12.4% เท่านั้น

งานวิจัยนี้เป็นการปรับปรุงต่อยอดมาจากงานวิจัยอีกชิ้นของนักวิจัยอีกทีมหนึ่งของมหาวิทยาลัยอ๊อกซฟอร์ดเช่นกัน  โดยงานวิจัยดังกล่าวได้สร้างโปรแกรมอ่านปากที่ชื่อว่า LipNet ขึ้นมา  และสามารถอ่านปากได้แม่นยำถึง 93.4% (เทียบกับนักอ่านปากมืออาชีพที่ 52.3%) ทั้งนี้ตัวอย่างใน LipNet นั้นเป็นการให้อาสาสมัครมาอ่านข้อความที่กำหนดไว้  ซึ่งรูปแบบของปากจะชัดเจนกว่าที่เห็นจากในทีวีอยู่มาก

ที่มา – The Verge

ความเห็นของเรา

ในอนาคตเชื่อได้ว่าการพัฒนา AI ให้อ่านปากได้นั้น  จะแม่นยำขึ้นกว่าเดิมขึ้นไปอีก  ซึ่งก็น่าจะถูกนำไปประยุกต์ใช้ในหลายๆ อย่าง  ทั้งในกระบวนการยุติธรรม (เช่นการอ่านปากจากภาพในกล้องวงจรปิด) หรือการในเชิงประวัติศาสตร์ (เช่นการอ่านปากจากภาพในวิดีโอเหตุการณ์ต่างๆ) ซึ่งจะช่วยไขข้อสงสัยต่างๆ ให้กับเราได้อีกมากพอสมควร