أداة الذكاء الاصطناعي الجديدة يمكنها التنبؤ بالطفرات
أداة الذكاء الاصطناعي الجديدة يمكنها التنبؤ بالطفرات التي تعمل على تحسين وظيفة الحمض النووي الريبي
مصر ايهاب محمد زايد
تسمح نماذج لغة الحمض النووي الريبي التي تم تطويرها في المعهد الهندي للهندسة الحيوية للباحثين باستكشاف آفاق جديدة في مجال الهندسة الحيوية.
الريبوسومات هي مصانع صغيرة تستخدمها الخلايا لصنع البروتينات . لسنوات، بحث العلماء عن طرق لتصميم هذه المصانع الخلوية لمساعدتنا في صنع الأدوية أو البوليمرات أو حتى تنظيف البيئة باستخدام المعالجة البيولوجية. في ورقة بحثية جديدة في Nature Communications ، يشارك باحثون من معهد الجينوم المبتكر (IGI)، ومركز NSF للمواد المشفرة وراثيًا (C-GEM)، ومن قسم الهندسة الكهربائية وعلوم الكمبيوتر بجامعة كاليفورنيا في بيركلي (EECS) ومركز علم الأحياء الحسابي، بقيادة المحقق IGI وC-GEM جيمي كيت، نماذج التعلم العميق التي تقربنا من استخدام الريبوسومات كمصانع متعددة الأغراض.
تتكون الريبوسومات من مزيج من الحمض النووي الريبوزي منقوص الأكسجين (RNA) ، وهو قريب الحمض النووي الريبوزي منقوص الأكسجين أحادي السلسلة ، والبروتين. ومثل الحمض النووي الريبوزي منقوص الأكسجين (DNA)، يتكون الحمض النووي الريبوزي منقوص الأكسجين (RNA) من قواعد نيوكليوتيدية ممثلة بأربعة أحرف. وفي حين أحرز الباحثون تقدمًا كبيرًا في استخدام التعلم العميق للتنبؤ بهياكل البروتين باستخدام أدوات رائدة مثل AlphaFold2 وESMFold، فقد حظي الحمض النووي الريبوزي منقوص الأكسجين (RNA) باهتمام أقل.
وباستخدام أساليب التسلسل الحالية، يمكن للباحثين مقارنة الحمض النووي الريبي من كائنات حية مختلفة والعثور على الطفرات التي قد تؤدي إلى وظائف مختلفة، ولكن الباحثين الذين يتطلعون إلى توسيع قدرات الريبوسوم لا يمكنهم تعلم الكثير من هذا النهج، وخاصة لأن التنوع الطبيعي الموجود في الريبوسومات صغير نسبيا.
“لقد وصلنا إلى حد ما لما يمكننا فعله فقط باستخدام هذا النوع من أساليب مقارنة التسلسل، لذلك بدأنا نفكر، حسنًا، هل يمكننا تطبيق أساليب التعلم العميق على هذا؟” تقول كيت.
جيمي كيت في هاكاثون IGI & EECS في أواخر عام 2023
جيمي كيت في هاكاثون IGI-EECS الذي أدى إلى الورقة البحثية الحالية حول نماذج لغة الحمض النووي الريبي
رؤية فرصة للجمع بين خبرة الباحثين في مجال الجينوم في IGI وعلماء الكمبيوتر في قسم EECS، عقدت كيت في خريف عام 2023 هاكاثونًا مع المجموعتين لبدء تطوير أدوات لتطبيق التعلم الآلي على عالم RNA.
كان إنجازهم الأول هو تجميع مجموعة بيانات عالية الجودة من الحمض النووي الريبي لتدريب نماذج التعلم العميق عليها. وبالمقارنة بالحمض النووي والبروتينات، فإن البيانات المتعلقة بالحمض النووي الريبي نادرة نسبيًا، وتعتمد النماذج الجيدة على كميات كبيرة من البيانات عالية الجودة.
تقول مارينا ترينيداد، عالمة المعلومات الحيوية في مختبر دودنا في معهد إنديانا للجينات والمؤلفة الرئيسية للورقة البحثية: “إذا نظرت إلى أوراق بحثية مماثلة تحاول حل مشكلة طي الحمض النووي الريبي، فإننا جميعًا نصل إلى نفس النتيجة وهي أن حوالي ألف حمض نووي ريبوزي فقط لها هياكل تجريبية عالية الجودة. في الواقع، هناك القليل جدًا من البيانات المتاحة في قواعد البيانات والأدبيات حول هياكل الحمض النووي الريبي التي تم حلها، وحتى أقل من ذلك هياكل الحمض النووي الريبي التي تتطابق مع النمط الظاهري”.
وبعد مقارنة عدة مناهج، كان نموذج التعلم العميق الأكثر نجاحاً هو نموذج اللغة، المشابه لنموذج GPT أو Llama. وفي هذه الأنظمة، يتم تحويل الكلمات ــ سواء باللغة البشرية أو الحمض النووي الريبي ــ إلى رموز تحتوي على معلومات عالية الأبعاد.
يقول ترينيداد: “هناك خيارات أخرى متاحة للتعلم الآلي، لكننا اخترنا نماذج اللغة التوليدية. بالطبع، سيكون من الرائع اختبار جميع التركيبات المحتملة للطفرات، لكننا لا نستطيع فعل ذلك فعليًا. يمنحنا نموذج اللغة نتائج يمكننا البدء في العمل بها في المختبر”.
مارينا ترينيداد تعمل في هاكاثون IGI & EECS
مارينا ترينيداد تعمل في حدث hackathon IGI-EECS
كان الاختراق الكبير الذي حققته المجموعة هو إدراك أنه بدلاً من النظر إلى أحرف النوكليوتيدات الفردية، كانوا بحاجة إلى النظر إلى مجموعات متداخلة من 3 للحصول على معلومات تنبؤية.
تقول كيت: “تفسيري لسبب نجاح هذا هو أنه يعكس ما يحدث بالفعل مع بنية الحمض النووي الريبي، والتي تعتمد على كيفية تكديس هذه القواعد فوق بعضها البعض. إن تسلسل الحمض النووي الريبي يشبه كومة من الصفائح، لذلك لا تريد حقًا التفكير في كيفية وضع صفيحة واحدة دون النظر في الصفائح الموجودة أعلى وأسفل منها. وهو يختلف عن البروتينات لأنه في الحمض النووي الريبي، القواعد، والأجزاء الموجودة في تلك الأكوام من الصفائح، هي التي تحرك البنية”.
يمكن إحاطة كل حرف من حروف النوكليوتيدات بـ 16 تركيبة مختلفة من النوكليوتيدات مباشرة على كلا الجانبين. ومن خلال تضمين هذه المعلومات حول كيفية تكديس النوكليوتيدات، يحتوي النموذج على معلومات أعمق وأكثر تأثيرًا يمكن من خلالها إجراء تنبؤات. وقد تم إثبات هذه التنبؤات في المختبر في تجاربهم الأولية: حيث دربت المجموعة نماذج التعلم العميق الخاصة بهم، والتي تسمى Garnet DL، على تسلسلات الحمض النووي الريبي من الكائنات الحية المحبة للحرارة – الميكروبات التي تزدهر في بيئات ذات درجات حرارة عالية – وتمكنت من التنبؤ بالطفرات التي من شأنها أن تزيد من استقرار الريبوسوم في درجات حرارة أعلى.
وتؤكد كل من كيت وترينيداد على مدى أهمية الجمع بين الباحثين من كل من المعهد الدولي للجينوم وعلوم الكمبيوتر والبناء على نقاط القوة التكميلية في علم الجينوم والتعلم الآلي.
“لقد كان الأمر متآزرًا للغاية. بصراحة لا أعتقد أننا كنا لنتمكن من إنجاز البحث بدون خبراء من كلا الجانبين، والذين تمكنوا حقًا من تحديد النهج الأفضل للبحث وخاصة التغلب على عقبة ندرة البيانات”، كما يقول ترينيداد.
في الوقت الحالي، تستطيع المجموعة استخدام Garnet DL للتنبؤ بكيفية تأثير الطفرات في تسلسل الحمض النووي الريبي على بنية الريبوسوم ووظيفته. وفي المستقبل، يأملون في توسيع نطاق عملهم للتنبؤ ببنية الحمض النووي الريبي ووظيفته إلى ما هو أبعد من الريبوسوم، وتمكين الباحثين من هندسة الحمض النووي الريبي بوظائف جديدة ومخصصة بالكامل.
اقرأ المزيد: تتنبأ نماذج لغة RNA بالطفرات التي تعمل على تحسين وظيفة RNA. يكاترينا شوجلينا، مارينا ترينيداد، كونر لانجبيرج، هانتر نيسونوف، سيوني تشيثراناندا، بيتر سكوبينتسيف، عاموس نيسلي، جايمين باتل، رون بوجر، هونجلو شي، بيتر يون، إيرين دوهرتي، تارا باندي، أديتيا أيير، جينيفر دودنا، وجيمي كيت. اتصالات الطبيعة (2024). https://doi.org/10.1038/s41467-024-54812-y