تمكن باحثون من قسم الذكاء الاصطناعي لشركة غوغل Google DeepMind، بالتعاون مع علماء من جامعة أكسفورد، من تطوير نظام ذكي قادر على قراءة لغة الشفاه بكفاءة أفضل من المحترفين في هذا المجال.
وأشار الباحثون إلى أنهم تمكنوا من تحقيق هذا الإنجاز من خلال الاعتماد على تقنيات التعلم العميق، وذلك عن طريق تدريب النظام على تحليل قاعدة بيانات ضخمة تحتوي على مقاطع فيديو لستة برامج تلفزيونية عرضت بين عامي 2010 و2015 على قناة BBC. وتحتوي هذه البرامج على حوالى 5000 ساعة من مقاطع الفيديو أي ما يقارب 118 ألف جملة.
واستطاع هذا النظام الجديد التفوق على الإنسان بنسبة 35 في المائة خلال عملية قراءة الشفاه.
ويأتي نجاح المشروع الجديد بعد الجهود المبذولة من طرف باحثين من جامعة أكسفورد في تطوير برنامج لقراءة الشفاه، أطلق عليه اسم LipNet.
وقد حقق هذا البرنامج نجاحاً في قراءة الشفاه بنسبة 93.4 في المائة خلال الاختبارات الأولية، بالمقارنة مع دقة 52.3 في المائة فقط للإنسان. وتم اختبار برنامج LipNet على لقطات فيديو محدودة تحتوي على جمل متداولة، على عكس نظام غوغل الجديد الذي استطاع قراءة جمل معقدة وأكثر صعوبة.
وبخصوص تطبيقات هذه التقنية، يرى الباحثون بقسم الذكاء الاصطناعي DeepMind أنه يمكن الاعتماد على هذا النظام لمساعدة الأشخاص ضعاف السمع، أو فاقدين هذه الحاسة، على فهم المحادثات، عن طريق تطوير تطبيق للهواتف الذكية يقوم بقراءة الشفاه وتحويلها إلى صوت.
كما يمكن استخدام البرنامج لإضافة تعليق توضيحي للأفلام الصامتة، أو للسماح للأشخاص بالتحكم في المساعدات الرقمية، مثل "سيري" أو"غوغل ناو" والمساعدات المنزلية، من خلال قراءة الشفاه بواسطة الكاميرا.