Site icon Thumbsup

เมื่อ A.I. ดูทีวี 5,000 ชั่วโมง ผลที่ได้คือ วิเคราะห์ริมฝีปากเก่งเหนือมนุษย์

โดยนักวิจัยจากโครงการ DeepMind ของ Google ได้ร่วมมือกับนักวิจัยของมหาวิทยาลัย Oxford พัฒนา LipNet ซอฟต์แวร์ในการอ่านริมฝีปากระดับสูงขึ้นได้สำเร็จเป็นครั้งแรกของโลก ซึ่งความสามารถของซอฟต์แวร์ตัวนี้ถูกมองว่าเหนือกว่ามนุษย์ไปแล้วด้วยเบื้องหลังการพัฒนานั้นมาจากนักวิจัยจาก Oxford ได้ป้อนข้อมูลจากทีวีช่องต่างๆ (เช่น BBC) ให้ A.I. ได้ชม คิดเป็นเวลารวมกันหลายพันชั่วโมง
ซึ่งในการวิเคราะห์การเคลื่อนไหวของริมฝีปากนั้นพบว่า A.I. มีความแม่นยำ 46.8%  และเมื่อเทียบกับผู้เชี่ยวชาญด้านการอ่านริมฝีปากที่เป็นมนุษย์นั้นพบว่า ด้อยกว่าถึงสี่เท่าตัว (ให้รับชมคลิปเดียวกัน) โดยมนุษย์มีความแม่นยำเพียง 12.4% เท่านั้นทั้งนี้ รายงานวิจัยที่มีการตีพิมพ์ของมหาวิทยาลัย Oxford ได้ทดสอบ A.I. ด้วยเทคนิคเดียวกันนี้ แต่เปลี่ยนเป็นให้ดูคลิปวิดีโอของอาสาสมัครในการพูดประโยคง่ายๆ ก็พบว่า A.I. สามารถแปลความได้ถูกต้องกว่า 90% เลยทีเดียว

อย่างไรก็ดี การทดสอบของ DeepMind เข้มข้นกว่านั้น เนื่องจาก DeepMind ได้ให้ A.I. ดูรายการทีวียอดนิยมเช่น Newsnight, Question Time, The World Today ฯลฯ รวมแล้วเป็นเวลากว่า 5,000 ชั่วโมง ซึ่งในคลิปเหล่านี้มีประโยคต่าง ๆ มากกว่า 110,000 ประโยค มีศัพท์เฉพาะกว่า 17,500 คำ ซึ่ง LipNet จับได้ทั้งสิ้น 51 คำ

ส่วนเป้าหมายของนักวิจัยจาก DeepMind ก็คือการให้ A.I. สามารถจับใจความจากการอ่านริมฝีปาก (ไม่ว่าจะมีเสียงหรือไม่ก็ตาม) ว่าวลี หรือประโยคที่มีการพูดนั้นเป็นคำว่าอะไร ซึ่งความสามารถดังกล่าวนี้สามารถนำไปใช้ได้หลากหลาย เช่น การแปลซับภาพยนตร์ หรือใช้เพื่อผู้พิการด้านการได้ยิน มากไปกว่านั้นยังอาจนำไปใช้กับผู้ช่วยดิจิทัลอย่าง Google Assistant ได้ด้วย

ที่มา: TheNextWeb