مقالات
ماذا يعني أن يفهم الذكاء الاصطناعي؟

مصر: إيهاب محمد زايد
من السهل جدًا أن يبدو أن الذكاء الاصطناعي يستوعب البيانات ، ولكن ابتكار اختبار حقيقي لمعرفة الجهاز ثبت أنه صعب.
تذكر واتسون من شركة آي بي إم ، خطر الذكاء الاصطناعي! بطل؟ تم الإعلان عن عرض ترويجي عام 2010 ، “يفهم واتسون اللغة الطبيعية بكل غموضها وتعقيدها.” ومع ذلك ، كما رأينا عندما فشل واطسون في وقت لاحق بشكل مذهل في سعيه إلى “إحداث ثورة في الطب باستخدام الذكاء الاصطناعي” ، فإن قشرة المرفق اللغوي ليست مثل فهم اللغة البشرية في الواقع.
لطالما كان فهم اللغة الطبيعية هدفًا رئيسيًا لأبحاث الذكاء الاصطناعي. في البداية ، حاول الباحثون برمجة كل شيء تحتاجه الآلة يدويًا لفهم القصص الإخبارية أو الخيال أو أي شيء آخر قد يكتبه البشر. هذا النهج ، كما أظهر واتسون ، كان عديم الجدوى – من المستحيل تدوين جميع الحقائق والقواعد والافتراضات غير المكتوبة المطلوبة لفهم النص. في الآونة الأخيرة ، تم إنشاء نموذج جديد: بدلاً من بناء المعرفة الواضحة ، نترك الآلات تتعلم فهم اللغة بمفردها ، ببساطة عن طريق استيعاب كميات هائلة من النصوص المكتوبة وتعلم التنبؤ بالكلمات. والنتيجة هي ما يسميه الباحثون نموذج اللغة. عندما تستند إلى شبكات عصبية كبيرة ، مثل GPT-3 من OpenAI ، يمكن لمثل هذه النماذج أن تولد نثرًا شبيهًا بالبشر (والشعر!) وتؤدي على ما يبدو تفكيرًا لغويًا معقدًا.
لكن هل GPT-3 – تم تدريبه على نصوص من آلاف المواقع والكتب والموسوعات – قد تجاوز قشرة واتسون؟ هل تفهم حقًا اللغة التي تولدها وتتحدث عنها ظاهريًا؟ هذا موضوع خلاف صارخ في مجتمع أبحاث الذكاء الاصطناعي. اعتادت مثل هذه المناقشات أن تكون من اختصاص الفلاسفة ، ولكن في العقد الماضي انفجر الذكاء الاصطناعي من فقاعته الأكاديمية إلى العالم الحقيقي ، ويمكن أن يكون لعدم فهمه لهذا العالم عواقب حقيقية ومدمرة في بعض الأحيان. في إحدى الدراسات ، وجد Watson من شركة IBM أنه يقترح “أمثلة متعددة لتوصيات العلاج غير الآمنة وغير الصحيحة”. أظهرت دراسة أخرى أن نظام الترجمة الآلية من Google ارتكب أخطاءً كبيرة عند استخدامه لترجمة التعليمات الطبية للمرضى غير الناطقين بالإنجليزية.
أعمدة كمية
عمود منتظم يستكشف فيه كبار الباحثين عملية الاكتشاف. كاتبة العمود هذا الشهر ، ميلاني ميتشل ، هي أستاذة التعقيد في ديفيس في معهد سانتا في ومؤلفة الذكاء الاصطناعي: دليل لتفكير البشر.
كيف يمكننا أن نحدد عمليًا ما إذا كان بإمكان الآلة أن تفهم؟ في عام 1950 ، حاول رائد الحوسبة Alan Turing الإجابة على هذا السؤال من خلال “لعبة التقليد” الشهيرة التي يطلق عليها الآن اختبار Turing. آلة وإنسان ، كلاهما مخفي عن الأنظار ، يتنافسان لإقناع القاضي البشري بإنسانيتهما باستخدام المحادثة فقط. إذا لم يستطع القاضي تحديد الشخص الذي كان الإنسان ، فعندئذ ، أكد تورينج ، يجب أن نعتبر أن الآلة تفكر – وفي الواقع ، تفهم.
لسوء الحظ ، استخف تورينج بميل البشر للخداع بالآلات. حتى روبوتات الدردشة البسيطة ، مثل المعالج النفسي المبتذل لجوزيف وايزنباوم في الستينيات ، خدعت الناس للاعتقاد بأنهم يتحدثون مع كائن متفهم ، حتى عندما علموا أن شريكهم في المحادثة كان آلة.
في ورقة بحثية عام 2012 ، اقترح علماء الكمبيوتر هيكتور ليفيسك وإرنست ديفيس وليورا مورجينسترن اختبارًا أكثر موضوعية ، أطلقوا عليه اسم تحدي مخطط وينوجراد. تم اعتماد هذا الاختبار منذ ذلك الحين في مجتمع لغة الذكاء الاصطناعي كطريقة واحدة ، وربما أفضل طريقة ، لتقييم فهم الآلة – على الرغم من أنه كما سنرى ، فهو ليس مثاليًا. يتكون مخطط فينوغراد ، المسمى للباحث اللغوي تيري فينوغراد ، من زوج من الجمل ، يختلفان بكلمة واحدة بالضبط ، يتبع كل منهما سؤال. فيما يلي مثالان:
الجملة 1: سكبت الماء من الزجاجة في الكوب حتى امتلأ.
سؤال: ماذا كان ممتلئا الزجاجة أم الكأس؟
الجملة 2: سكبت الماء من الزجاجة في الكوب حتى أصبح فارغًا.
سؤال: ما الذي كان فارغاً ، الزجاجة أم الكأس؟
الجملة 1: لا يزال بإمكان عم جو هزيمته في التنس ، على الرغم من أنه أكبر من 30 عامًا.
سؤال: من هو الأكبر عم جو أم جو؟
الجملة 2: لا يزال بإمكان عم جو هزيمته في التنس ، على الرغم من أنه أصغر من 30 عامًا.
سؤال: من هو الأصغر عم جو أم جو؟
حققت نماذج لغة الشبكة العصبية دقة تصل إلى 97٪ في مجموعة معينة من مخططات فينوغراد. هذا يساوي تقريبًا الأداء البشري.
في كل زوج من الجمل ، يمكن للاختلاف المكون من كلمة واحدة أن يغير الشيء أو الشخص الذي يشير إليه الضمير. يبدو أن الإجابة على هذه الأسئلة بشكل صحيح تتطلب جالتفاهم المنطقي. تم تصميم مخططات Winograd بدقة لاختبار هذا النوع من الفهم ، والتخفيف من ضعف اختبار تورينج أمام قضاة بشريين غير موثوقين أو حيل روبوتات الدردشة. على وجه الخصوص ، صمم المؤلفون بضع مئات من المخططات التي اعتقدوا أنها “متوافقة مع Google”: يجب ألا تكون الآلة قادرة على استخدام بحث Google (أو أي شيء من هذا القبيل) للإجابة على الأسئلة بشكل صحيح.
كانت هذه المخططات موضوع مسابقة عقدت في عام 2016 حيث كان البرنامج الفائز صحيحًا في 58 ٪ فقط من الجمل – وهي بالكاد نتيجة أفضل مما لو كانت قد خمنت. سخر أورين إتزيوني ، الباحث البارز في مجال الذكاء الاصطناعي ، مازحًا ، “عندما لا يستطيع الذكاء الاصطناعي تحديد ما يشير إليه مصطلح” هو “في جملة ما ، من الصعب تصديق أنه سيسيطر على العالم”.
ومع ذلك ، ارتفعت قدرة برامج الذكاء الاصطناعي على حل مخططات فينوغراد بسرعة بسبب ظهور نماذج لغة الشبكات العصبية الكبيرة. ذكرت ورقة بحثية لعام 2020 من OpenAI أن GPT-3 كانت صحيحة في ما يقرب من 90٪ من الجمل في مجموعة معيارية من مخططات Winograd. لقد كان أداء النماذج اللغوية الأخرى أفضل بعد التدريب على هذه المهام تحديدًا. في وقت كتابة هذا التقرير ، حققت نماذج لغة الشبكة العصبية دقة تصل إلى 97٪ في مجموعة معينة من مخططات Winograd التي تعد جزءًا من مسابقة فهم لغة الذكاء الاصطناعي المعروفة باسم SuperGLUE. هذه الدقة تعادل تقريبًا أداء الإنسان. هل هذا يعني أن نماذج لغة الشبكة العصبية قد اكتسبت فهمًا يشبه فهم الإنسان؟
ليس بالضرورة. على الرغم من الجهود الجبارة التي بذلها منشئو المحتوى ، فإن مخططات فينوغراد هذه لم تكن في الواقع متوافقة مع Google. تسمح هذه التحديات ، مثل العديد من الاختبارات الحالية لفهم لغة الذكاء الاصطناعي ، أحيانًا بالاختصارات التي تسمح للشبكات العصبية بأداء جيد دون فهم. على سبيل المثال ، ضع في اعتبارك الجملتين “مرت السيارة الرياضية بشاحنة البريد لأنها كانت تسير بشكل أسرع” و “مرت السيارة الرياضية بشاحنة البريد لأنها كانت تسير بشكل أبطأ.” نموذج لغوي تم تدريبه على مجموعة ضخمة من الجمل الإنجليزية سيكون قد استوعب الارتباط بين “سيارة رياضية” و “سريع” ، وبين “شاحنة بريد” و “بطيء” ، وبالتالي يمكنه الإجابة بشكل صحيح بناءً على هذه الارتباطات وحدها بدلاً من بالاعتماد على أي تفاهم. اتضح أن العديد من مخططات Winograd في مسابقة SuperGLUE تسمح بمثل هذه الأنواع من الارتباطات الإحصائية.
بدلاً من التخلي عن مخططات فينوغراد كاختبار للفهم ، قررت مجموعة من الباحثين من معهد ألين للذكاء الاصطناعي بدلاً من ذلك محاولة إصلاح بعض مشاكلهم. في عام 2019 ، أنشأوا WinoGrande ، وهي مجموعة أكبر بكثير من مخططات Winograd. بدلاً من عدة مئات من الأمثلة ، يحتوي WinoGrande على 44000 جملة هائلة. للحصول على هذه الأمثلة العديدة ، لجأ الباحثون إلى Amazon Mechanical Turk ، وهي منصة شائعة لأعمال التعهيد الجماعي. طُلب من كل عامل (بشري) كتابة عدة أزواج من الجمل ، مع بعض القيود لضمان احتواء المجموعة على مواضيع متنوعة ، على الرغم من أن الجمل في كل زوج قد تختلف الآن بأكثر من كلمة واحدة.
حاول الباحثون بعد ذلك حذف الجمل التي يمكن أن تسمح بالاختصارات الإحصائية من خلال تطبيق طريقة ذكاء اصطناعي غير متطورة نسبيًا على كل جملة وتجاهل أي جملة تم حلها بسهولة. كما هو متوقع ، شكلت الجمل المتبقية تحديًا أكثر صعوبة للآلات من مجموعة مخططات Winograd الأصلية. في حين أن البشر لا يزالون يسجلون درجات عالية جدًا ، إلا أن نماذج لغة الشبكة العصبية التي تطابق الأداء البشري في المجموعة الأصلية سجلت نقاطًا أقل بكثير في مجموعة WinoGrande. يبدو أن هذا التحدي الجديد يسترد مخططات فينوغراد كاختبار للفهم المنطقي – طالما تم فحص الجمل بعناية للتأكد من أنها متوافقة مع Google.
ومع ذلك ، كانت هناك مفاجأة أخرى في المتجر. في ما يقرب من عامين منذ نشر مجموعة WinoGrande ، نمت نماذج لغة الشبكة العصبية بشكل أكبر ، وكلما زاد حجمها ، كان يبدو أفضل في تحقيق هذا التحدي الجديد. في وقت كتابة هذه السطور ، اقتربت أفضل البرامج الحالية – التي تم تدريبها على تيرابايت من النصوص ثم تدربت أكثر على آلاف أمثلة WinoGrande – من 90٪ صحيحة (يحصل البشر على حوالي 94٪ صحيحة). ترجع هذه الزيادة في الأداء بشكل كامل تقريبًا إلى الحجم المتزايد لنماذج لغة الشبكة العصبية وبيانات التدريب الخاصة بهم.
يتطلب فهم اللغة فهم العالم ، ولا يمكن لآلة معرّضة للغة فقط أن تكتسب مثل هذا الفهم.
هل حققت هذه الشبكات الأكبر حجمًا في النهاية فهمًا منطقيًا للإنسان؟ مرة أخرى ، هذا غير محتمل. تأتي نتائج WinoGrande مع بعض التحذيرات المهمة. على سبيل المثال ، نظرًا لأن الجمل اعتمدت على عمال Amazon Mechanical Turk ، فإن جودة وتماسك الكتابة غير متكافئ تمامًا. أيضًا ، قد تكون طريقة الذكاء الاصطناعي “غير المتطورة” المستخدمة للتخلص من الجمل “غير المؤكدة من Google” غير معقدة للغاية لاكتشاف جميع الاختصارات الإحصائية الممكنة المتاحة شبكة عصبية ضخمة ، وقد تم تطبيقها فقط على الجمل الفردية ، لذلك انتهى الأمر ببعض الجمل المتبقية إلى فقدان “توأمها”. أظهرت إحدى دراسات المتابعة أن نماذج لغة الشبكة العصبية التي تم اختبارها على جمل مزدوجة فقط – والمطلوب أن تكون صحيحة في كليهما – أقل دقة بكثير من البشر ، مما يدل على أن النتيجة السابقة البالغة 90٪ أقل أهمية مما بدت.
إذًا ، ما العمل من ملحمة فينوغراد؟ الدرس الرئيسي هو أنه غالبًا ما يكون من الصعب تحديد ما إذا كانت أنظمة الذكاء الاصطناعي تفهم اللغة (أو البيانات الأخرى) التي تقوم بمعالجتها من خلال أدائها في تحدٍ معين. نحن نعلم الآن أن الشبكات العصبية غالبًا ما تستخدم الاختصارات الإحصائية – بدلاً من إظهار الفهم البشري – للحصول على أداء عالٍ في مخططات فينوغراد بالإضافة إلى العديد من معايير “فهم اللغة العامة” الأكثر شيوعًا.
جوهر المشكلة ، من وجهة نظري ، هو أن فهم اللغة يتطلب فهم العالم ، ولا يمكن لآلة معرّضة للغة فقط أن تكتسب مثل هذا الفهم. ضع في اعتبارك ما يعنيه فهم “تجاوزت السيارة الرياضية شاحنة البريد لأنها كانت تسير بشكل أبطأ.” أنت بحاجة إلى معرفة ما هي السيارات الرياضية وشاحنات البريد ، وأن السيارات يمكن أن “تمر” مع بعضها البعض ، وعلى المستوى الأساسي أكثر ، أن المركبات هي أشياء موجودة وتتفاعل في العالم ، يقودها البشر بأجنداتهم الخاصة.
ما مدى قرب أجهزة الكمبيوتر من أتمتة الاستدلال الرياضي؟
الحس السليم أقرب إلى أجهزة الكمبيوتر
كل هذه المعرفة نأخذها كأمر مسلم به ، ولكنها ليست مدمجة في الآلات أو من المحتمل أن يتم تدوينها صراحةً في أي نص تدريب لنموذج اللغة. جادل بعض العلماء الإدراكيين بأن البشر يعتمدون على المعرفة الأساسية قبل اللغوية للمكان والزمان والعديد من الخصائص الأساسية الأخرى للعالم من أجل تعلم اللغة وفهمها. إذا أردنا أن تتقن الآلات لغة الإنسان بالمثل ، فسنحتاج أولاً إلى منحها المبادئ الأساسية التي يولد بها البشر. ولتقييم فهم الآلات ، يجب أن نبدأ بتقييم فهمهم لهذه المبادئ ، والتي يمكن أن نطلق عليها “ميتافيزيقيا الأطفال”.
قد يبدو تدريب وتقييم الآلات للذكاء على مستوى الأطفال بمثابة خطوة عملاقة إلى الوراء مقارنة بالمنجزات الهائلة لأنظمة الذكاء الاصطناعي مثل Watson و GPT-3. ولكن إذا كان الفهم الحقيقي والجدير بالثقة هو الهدف ، فقد يكون هذا هو السبيل الوحيد للآلات التي يمكنها أن تفهم بصدق ما تشير إليه كلمة “هو” في الجملة ، وكل شيء آخر يستلزمه فهم “ذلك”.



