مقالات
رابط جديد لنموذج قديم يمكن أن يكسر لغز التعلم العميق
مصر: إيهاب محمد زايد
لمساعدتهم على تفسير النجاح المذهل للشبكات العصبية العميقة ، يلجأ الباحثون إلى نماذج أقدم ولكنها مفهومة بشكل أفضل للتعلم الآلي.الذكاء الاصطناعي ، علوم الكمبيوتر ، التعلم العميق ، التعلم الآلي ، الشبكات العصبية ، جميع الموضوعات
تتشابك
في عالم التعلم الآلي ، تخلق أحجام الشبكات العصبية الاصطناعية – ونجاحاتها الهائلة – ألغازًا مفاهيمية. عندما فازت شبكة تسمى AlexNet بمسابقة سنوية للتعرف على الصور في عام 2012 ، كان لديها حوالي 60 مليون معلمة. سمحت هذه المعلمات ، التي تم ضبطها أثناء التدريب ، لـ AlexNet بالتعرف على الصور التي لم يسبق لها مثيل من قبل. بعد ذلك بعامين ، أبهرت شبكة تسمى VGG المنافسة بأكثر من 130 مليون من هذه المعلمات. بعض الشبكات العصبية الاصطناعية ، أو الشبكات العصبية الاصطناعية ، لديها الآن بلايين من المعلمات.
بدأت هذه الشبكات الضخمة – الناجحة بشكل مذهل في مهام مثل تصنيف الصور والتعرف على الكلام وترجمة النص من لغة إلى أخرى – في السيطرة على التعلم الآلي والذكاء الاصطناعي. ومع ذلك ، فإنها تظل غامضة. السبب وراء قوتهم المذهلة لا يزال بعيد المنال.
لكن عددًا من الباحثين يظهرون أن الإصدارات المثالية من هذه الشبكات القوية مكافئة رياضيًا لنماذج التعلم الآلي الأقدم والأبسط التي تسمى آلات النواة. إذا كان من الممكن تمديد هذا التكافؤ إلى ما هو أبعد من الشبكات العصبية المثالية ، فقد يشرح كيف تحقق الشبكات العصبية الاصطناعية نتائجها المذهلة.
جزء من لغز الشبكات العصبية الاصطناعية هو أنها تبدو وكأنها تخرب نظرية التعلم الآلي التقليدية ، التي تعتمد بشكل كبير على أفكار من الإحصاءات ونظرية الاحتمالات. بالطريقة المعتادة في التفكير ، تعمل نماذج التعلم الآلي – بما في ذلك الشبكات العصبية ، المدربة على التعرف على الأنماط في عينات البيانات من أجل عمل تنبؤات حول البيانات الجديدة – بشكل أفضل عندما يكون لديها العدد الصحيح من المعلمات.
إذا كانت المعلمات قليلة جدًا ، فقد يكون النموذج الذي تم تعلمه بسيطًا جدًا ويفشل في التقاط جميع الفروق الدقيقة في البيانات التي تم التدريب عليها. كثير جدًا ويصبح النموذج معقدًا بشكل مفرط ، ويتعلم الأنماط في بيانات التدريب بمثل هذا التفصيل الدقيق الذي لا يمكن تعميمه عندما يُطلب منه تصنيف بيانات جديدة ، وهي ظاهرة تسمى overfitting. “إنه توازن بين ملاءمة بياناتك بطريقة ما بشكل جيد للغاية وعدم ملاءمتها جيدًا على الإطلاق. قال ميخائيل بلكين ، باحث التعلم الآلي في جامعة كاليفورنيا ، سان دييغو: “تريد أن تكون في المنتصف”.
يشعر Mikahil Belkin من جامعة كاليفورنيا في سان دييغو بالحماسة بشأن إمكانات آلات النواة للمساعدة في تفسير النجاح الملحوظ للشبكات العصبية الاصطناعية.
تاو شيويه
بكل المقاييس ، الشبكات العصبية العميقة مثل VGG لديها الكثير من المعلمات ويجب أن تكون أكثر من اللازم. لكنهم لا يفعلون. بدلاً من ذلك ، تعمم هذه الشبكات بشكل مذهل على البيانات الجديدة – وحتى وقت قريب ، لم يكن أحد يعرف السبب. لم يكن بسبب قلة المحاولة. على سبيل المثال ، جادل Naftali Tishby ، عالم الكمبيوتر وعالم الأعصاب في الجامعة العبرية في القدس والذي توفي في أغسطس ، بأن الشبكات العصبية العميقة تناسب أولاً بيانات التدريب ثم تتجاهل المعلومات غير ذات الصلة (من خلال المرور عبر عنق الزجاجة في المعلومات) ، مما يساعدهم على التعميم . لكن جادل آخرون بأن هذا لا يحدث في جميع أنواع الشبكات العصبية العميقة ، ولا تزال الفكرة مثيرة للجدل.
الآن ، يوفر التكافؤ الرياضي لآلات النواة والشبكات العصبية المثالية أدلة على سبب أو كيفية وصول هذه الشبكات ذات المعلمات الزائدة إلى (أو تتقارب) مع حلولها. آلات Kernel هي خوارزميات تجد أنماطًا في البيانات عن طريق إسقاط البيانات في أبعاد عالية للغاية. من خلال دراسة معادلات النواة القابلة للتتبع رياضياً للشبكات العصبية المثالية ، يتعلم الباحثون سبب تقارب الشبكات العميقة ، على الرغم من تعقيدها المذهل ، أثناء التدريب على الحلول التي تعمم جيدًا على البيانات غير المرئية.
“الشبكة العصبية تشبه إلى حد ما آلة Rube Goldberg. قال بلكين “أنت لا تعرف أي جزء منها مهم حقًا”. “أعتقد أن اختزالها إلى طرق kernel – لأن أساليب kernel لا تحتوي على كل هذا التعقيد – بطريقة ما يسمح لنا بعزل محرك ما يحدث.”
تعتمد طرق Kernel ، أو آلات النواة ، على منطقة من الرياضيات ذات تاريخ طويل. يعود الأمر إلى عالم الرياضيات الألماني في القرن التاسع عشر كارل فريدريش جاوس ، الذي ابتكر نواة غاوسي التي تحمل اسمًا ، والتي ترسم متغيرًا x إلى دالة ذات الشكل المألوف لمنحنى الجرس. بدأ الاستخدام الحديث للحبوب في أوائل القرن العشرين ،عندما استخدمها عالم الرياضيات الإنجليزي جيمس ميرسر لحل المعادلات التكاملية. بحلول الستينيات من القرن الماضي ، تم استخدام النوى في التعلم الآلي لمعالجة البيانات التي لم تكن قابلة لتقنيات التصنيف البسيطة.
يتطلب فهم طرق kernel البدء بالخوارزميات في التعلم الآلي التي تسمى المصنفات الخطية. لنفترض أنه يمكن تصنيف القطط والكلاب باستخدام البيانات في بعدين فقط ، مما يعني أنك بحاجة إلى ميزتين (لنقل حجم الخطم ، والذي يمكننا رسمه على المحور السيني ، وحجم الأذنين ، والذي يستمر المحور الصادي) لتمييز نوعي الحيوانات عن بعضهما البعض. ارسم هذه البيانات المسمى على المستوى xy ، ويجب أن تكون القطط في مجموعة واحدة والكلاب في مجموعة أخرى.
الشبكة العصبية تشبه إلى حد ما آلة Rube Goldberg. أنت لا تعرف أي جزء منها مهم حقًا.ميخائيل بلكين ، جامعة كاليفورنيا ، سان دييغو يمكن للمرء بعد ذلك تدريب المصنف الخطي باستخدام البيانات المسمى للعثور على خط مستقيم يفصل بين المجموعتين. يتضمن ذلك إيجاد معاملات المعادلة التي تمثل الخط المستقيم. الآن ، نظرًا لبيانات جديدة غير مسماة ، من السهل تصنيفها على أنها كلب أو قطة من خلال رؤية أي جانب من الخط يقع عليه.
ومع ذلك ، فإن محبي الكلاب والقطط سيشعرون بالذهول من مثل هذا التبسيط المفرط. من شبه المؤكد أنه لا يمكن تقسيم البيانات الفعلية حول الأنف والأذن لأنواع عديدة من القطط والكلاب بواسطة فاصل خطي. في مثل هذه الحالات ، عندما تكون البيانات غير قابلة للفصل خطيًا ، يمكن تحويلها أو إسقاطها إلى مساحة ذات أبعاد أعلى. (إحدى الطرق البسيطة للقيام بذلك هي مضاعفة قيمة ميزتين لإنشاء سمة ثالثة ؛ ربما هناك شيء ما حول العلاقة بين أحجام الأنف والأذنين التي تفصل الكلاب عن القطط.)
بشكل عام ، فإن النظر إلى البيانات في مساحة ذات أبعاد أعلى يجعل من السهل العثور على فاصل خطي ، يُعرف باسم المستوى الفائق عندما يكون للمساحة أكثر من ثلاثة أبعاد. عندما يتم إسقاط هذه الطائرة الفائقة مرة أخرى إلى الأبعاد السفلية ، فإنها ستأخذ شكل دالة غير خطية ذات منحنيات وتذبذبات تفصل البيانات الأصلية ذات الأبعاد المنخفضة إلى مجموعتين.
عندما نعمل مع بيانات حقيقية ، غالبًا ما يكون العثور على معاملات المستوى الفائق في الأبعاد العالية غير فعال من الناحية الحسابية – وأحيانًا من المستحيل – لكنها ليست لأجهزة kernel.
نواة الحقيقة
تتضمن قوة آلات النواة قدرتها على القيام بأمرين. أولاً ، يقومون بتعيين كل نقطة في مجموعة بيانات منخفضة الأبعاد إلى نقطة تعيش في أبعاد أعلى. يمكن أن تكون أبعاد هذه المساحة الزائدة لانهائية ، اعتمادًا على التعيين ، والذي يمكن أن يشكل مشكلة: العثور على معاملات المستوى الفائق المنفصل يتضمن حساب شيء يسمى المنتج الداخلي لكل زوج من الميزات عالية الأبعاد ، ويصبح ذلك صعبًا عندما تكون البيانات يُسقط في أبعاد لا نهائية.
إذن ، هذا هو الشيء الثاني الذي تفعله آلات النواة: بالنظر إلى نقطتي بيانات منخفضتي الأبعاد ، فإنها تستخدم دالة kernel لإخراج رقم يساوي المنتج الداخلي للسمات ذات الأبعاد الأعلى المقابلة. بشكل حاسم ، يمكن للخوارزمية استخدام هذه الحيلة للعثور على معاملات المستوى الفائق ، دون الدخول في الفضاء عالي الأبعاد.
قال برنارد بوسر ، الأستاذ الفخري في جامعة كاليفورنيا ، بيركلي: “إن الشيء العظيم في خدعة النواة هو أن جميع العمليات الحسابية تحدث في الفضاء ذي الأبعاد المنخفضة” بدلاً من الفضاء اللامتناهي الأبعاد المحتمل.
اخترع Boser ، مع زملائه إيزابيل جويون وفلاديمير فابنيك ، فئة من آلات النواة تسمى آلات ناقلات الدعم (SVMs) في أواخر الثمانينيات وأوائل التسعينيات ، عندما كانوا جميعًا في مختبرات بيل في هولمدل ، نيو جيرسي. في حين أن آلات النواة من مختلف الأنواع قد تركت بصماتها في التعلم الآلي من الستينيات فصاعدًا ، فقد احتلت مركز الصدارة مع اختراع أجهزة SVM. أثبتت SVMs أنها قوية بشكل غير عادي. بحلول أوائل العقد الأول من القرن الحادي والعشرين ، تم استخدامها في مجالات متنوعة مثل المعلوماتية الحيوية (لإيجاد أوجه التشابه بين تسلسلات البروتين المختلفة والتنبؤ بوظائف البروتينات ، على سبيل المثال) ، ورؤية الآلة والتعرف على خط اليد.
استمرت أجهزة SVM في السيطرة على التعلم الآلي حتى نشأت الشبكات العصبية العميقة في عام 2012 مع وصول AlexNet. نظرًا لأن مجتمع التعلم الآلي تمحور حول شبكات ANN ، فقد تركت SVMs عالقة ، لكنها (وآلات kernel بشكل عام) تظل نماذج قوية لديها الكثير لتعلمنا إياه. على سبيل المثال ، يمكنهم فعل أكثر من مجرد استخدام خدعة النواة للعثور على مستوى فائق منفصل.الشبكة المدربة التي تمثل وظيفة مثالية تقريبًا تقوم بتعيين المدخلات إلى المخرجات. إنها عملية معقدة يصعب تحليلها.
قال سيمون دو ، خبير في التعلم الآلي في جامعة واشنطن في سياتل: “لا توجد نظرية حالية يمكن أن تضمن أنه إذا قمت بتطبيق بعض الخوارزميات المستخدمة على نطاق واسع مثل النسب المتدرج ، فيمكن أن تتقارب [ANN] مع الحد الأدنى العالمي”. بحلول نهاية عام 2018 ، بدأنا نفهم السبب.
مرة أخرى ، كما يحدث غالبًا مع التطورات العلمية الكبرى ، توصلت مجموعات متعددة إلى إجابة محتملة في نفس الوقت ، بناءً على التحليلات الرياضية للشبكات ذات العرض اللانهائي وكيفية ارتباطها بآلات النواة المفهومة بشكل أفضل. في الوقت الذي قدمت فيه مجموعة دو وآخرون أوراقًا ، قدم طالب دراسات عليا سويسري شاب يُدعى آرثر جاكوت عمل مجموعته في NeurIPS 2018 ، المؤتمر الرائد في هذا المجال.
بينما اختلفت الفرق في التفاصيل وتأطير عملهم ، كان الجوهر كما يلي: الشبكات العصبية العميقة ذات العرض اللانهائي ، والتي يتم تهيئة أوزانها مع وضع خصائص إحصائية معينة في الاعتبار ، تعادل تمامًا النواة ليس فقط عند التهيئة ، ولكن في جميع أنحاء العالم. عملية التدريب. الافتراض الأساسي حول الأوزان هو أنها تتغير بشكل فردي قليلًا جدًا أثناء التدريب (على الرغم من أن التأثير الصافي لعدد لا حصر له من التغييرات الصغيرة مهم). بالنظر إلى مثل هذه الافتراضات ، أظهر جاكوت وزملاؤه في المعهد الفيدرالي السويسري للتكنولوجيا في لوزان أن الشبكة العصبية العميقة ذات العرض اللانهائي تعادل دائمًا نواة لا تتغير أبدًا أثناء التدريب. لا تعتمد حتى على بيانات التدريب. تعتمد وظيفة النواة فقط على بنية الشبكة العصبية ، مثل عمقها ونوع الاتصال. أطلق الفريق على نواتهم اسم نواة الظل العصبية ، بناءً على بعض خصائصها الهندسية.
قال جاكوت: “نحن نعلم أنه في بعض الحالات على الأقل يمكن للشبكات العصبية أن تتصرف مثل أساليب النواة”. “إنها الخطوة الأولى لمحاولة مقارنة هذه الأساليب حقًا في محاولة فهم أوجه التشابه والاختلاف.”
الوصول إلى جميع شبكات ANN
أهم نتيجة لهذه النتيجة هي أنها تشرح سبب تقارب الشبكات العصبية العميقة ، على الأقل في هذا السيناريو المثالي ، للوصول إلى حل. يصعب إثبات هذا التقارب رياضيًا عندما ننظر إلى ANN في مساحة المعلمة ، أي من حيث المعلمات وطبيعة الخسارة المعقدة. ولكن نظرًا لأن الشبكة العميقة المثالية تعادل آلة النواة ، يمكننا استخدام بيانات التدريب لتدريب إما الشبكة العميقة أو آلة النواة ، وسيجد كل منهما في النهاية وظيفة شبه مثالية تحول المدخلات إلى مخرجات.
إذا فهمنا ما يحدث مع طرق النواة ، فأعتقد أن هذا يعطينا حقًا مفتاحًا لفتح هذا الصندوق السحري من [الشبكات العصبية]. ميخائيل بلكين ، جامعة كاليفورنيا ، سان دييغو
أثناء التدريب ، يتطابق تطور الوظيفة التي تمثلها الشبكة العصبية ذات العرض اللانهائي مع تطور الوظيفة التي تمثلها آلة النواة. عند رؤيتها في مساحة الوظيفة ، تتدحرج الشبكة العصبية وآلة النواة المكافئة لها في مشهد بسيط على شكل وعاء في مساحة مفرطة الأبعاد. من السهل إثبات أن الانحدار المتدرج سيوصلك إلى قاع الوعاء – الحد الأدنى العالمي. قال دو ، على الأقل بالنسبة لهذا السيناريو المثالي ، “يمكنك إثبات التقارب العالمي”. “هذا هو السبب في أن الناس في مجتمع نظرية التعلم متحمسون للغاية.”
ليس الجميع مقتنعًا بأن هذا التكافؤ بين النواة والشبكات العصبية سيصمد بالنسبة للشبكات العصبية العملية ، التي لها عرض محدود والتي يمكن أن تتغير معلماتها بشكل كبير أثناء التدريب. قال تشانغ “أعتقد أن هناك بعض النقاط التي لا تزال بحاجة إلى الربط”. هناك أيضًا الجانب النفسي: الشبكات العصبية لها لغز غامض حولها ، وتقليلها إلى آلات النواة أمر مخيب للآمال بالنسبة لـ Zhang. “آمل نوعًا ما ألا تكون الإجابة ، لأنها تجعل الأشياء أقل إثارة للاهتمام بمعنى أنه يمكن استخدام النظرية القديمة.”
لكن الآخرين متحمسون. يعتقد بلكين ، على سبيل المثال ، أنه حتى لو كانت أساليب النواة نظرية قديمة ، فإنها لا تزال غير مفهومة تمامًا. لقد أظهر فريقه بشكل تجريبي أن أساليب النواة لا تتناسب بشكل زائد وتقوم بتعميمها جيدًا لاختبار البيانات دون أي حاجة إلى التنظيم ، على غرار الشبكات العصبية وعلى عكس ما تتوقعه من نظرية التعلم التقليدية. قال بيلكين: “إذا فهمنا ما يجري مع أساليب النواة ، فأعتقد أن هذا يعطينا حقًا مفتاحًا لفتح هذا الصندوق السحري من [الشبكات العصبية]”.
لا يقتصر الأمر على امتلاك الباحثين فهمًا رياضيًا أكثر ثباتًا للنواة ، مما يسهل استخدامها كنظائر لفهم الشبكات العصبية ، ولكن من السهل أيضًا التعامل معها تجريبيًا مقارنة بالشبكة العصبية
قال تشيوان زانج ، عالم أبحاث في فريق Brain التابع لأبحاث Google: “إذا كان لديك نواة قوية ، فأنت تقوم بتعيين البيانات إلى مساحة النواة التي تعد نوعًا من الأبعاد اللانهائية والقوية للغاية”. “يمكنك دائمًا العثور على فاصل خطي في هذه المساحة المخفية القوية التي تفصل بين البيانات ، وهناك عدد لا نهائي من الحلول الممكنة.” لكن نظرية النواة تسمح لك باختيار ليس فقط فاصل خطي تعسفي ، ولكن الأفضل النواة أقل تعقيدًا بكثير ، فهي لا تتطلب تهيئة عشوائية للمعلمات ، كما أن أدائها أكثر قابلية للتكرار. بدأ الباحثون في التحقيق في الروابط بين الشبكات الواقعية والنواة وهم متحمسون لمعرفة إلى أي مدى يمكنهم الوصول إلى هذا الفهم الجديد.
قال بيلكين: “إذا أنشأنا تكافؤًا مطلقًا وكاملاً ، فأعتقد أنه سيغير اللعبة بأكملها نوعًا ما”.