دراسات وابحاث

يقوم “Google for DNA” بفهرسة 10% من التسلسلات الجينية المعروفة في العالم

يقوم “Google for DNA” بفهرسة 10% من التسلسلات الجينية المعروفة في العالم
مصر: إيهاب محمد زايد
يُظهر الإنجاز إمكانية جعل جميع رموز الحياة قابلة للبحث بسهولة، كما يقول الباحثون
أظهرت أداة تعمل مثل محرك بحث Google للحمض النووي وعدها بجعل جميع بيانات التسلسل البيولوجي في العالم قابلة للبحث بسهولة وبتكلفة زهيدة، وفقًا للفريق السويسري الذي طورها. وفي دراسة تثبت المبدأ، يقول الباحثون إنهم نجحوا في فهرسة 10% من تسلسلات الحمض النووي، والحمض النووي الريبوزي، والبروتينات المعروفة في العالم، ويمكن استخدام نفس الطريقة للقيام بالباقي.
استخدم التقدم، الذي تم نشره الشهر الماضي على موقع bioRxiv، أداة حسابية طورتها المجموعة مؤخرًا تسمى ميتاغراف MetaGraph لتنظيم وضغط بيانات التسلسل المتاحة للجمهور في تنسيق قابل للبحث، مثلما تفعل محركات البحث على الإنترنت لصفحات الويب ومحتواها. تسمح الفهارس الناتجة، المتاحة للتنزيل وعبر بوابة الويب، للمستخدمين بمسح التسلسلات التي تشتمل على تريليونات من الأزواج الأساسية ومليارات الأحماض الأمينية.
يقول روب باترو، عالِم الأحياء الحسابية بجامعة ميريلاند، والذي لم يشارك في الجهد التجريبي، إن البحث “يمثل إنجازًا هائلاً ومعلمًا بارزًا في سعينا المستمر لمواجهة التحدي الكبير المتمثل في فهرسة جميع بيانات التسلسل المتاحة للجمهور”. يمكن لمثل هذا المورد أن يساعد في مجالات بحثية لا تعد ولا تحصى، بدءًا من تحديد الفيروسات الجديدة وحتى الكشف عن تسلسلات الحمض النووي الريبي (RNA) المرتبطة بالأمراض.
على الرغم من أن ميتاغراف ليس المشروع الوحيد الذي يهدف إلى تحقيق هذا الهدف، فقد أنشأ الفريق بعضًا من أكبر الفهارس حتى الآن ويقدر أن استخدام أداته سيكون غير مكلف نسبيًا.
ويشير باترو وآخرون إلى أن الحاجة ملحة. تتوسع المستودعات التي تخزن بيانات تسلسل الحمض النووي والحمض النووي الريبي (DNA) والبروتين بشكل كبير. يحتوي أرشيف قراءة التسلسل (SRA)، وهو قاعدة بيانات وراثية يديرها المركز الوطني لمعلومات التكنولوجيا الحيوية التابع للمعاهد الوطنية للصحة (NCBI) والمتعاونين، بالفعل على أكثر من 50 ألف تريليون زوج قاعدي (50 بيتاباز) من الكائنات الحية بما في ذلك البشر والحيوانات الأخرى. النباتات، والبكتيريا.
لا تستطيع أدوات المعلوماتية الحيوية الحالية مسح هذا القدر من البيانات دفعة واحدة، خاصة بالنسبة للتسلسلات التي لم يتم تجميعها بعد في الجينومات. يتعين على الباحثين تضييق نطاق مجموعات التسلسل قبل أن يتمكنوا من البحث فيها. تأمل عدة مجموعات في حل هذه المشكلة عن طريق ضغط تسلسلات من قواعد بيانات أكبر إلى بنية بيانات أكثر تنظيمًا، أو فهرس، مصمم لسهولة البحث في الملفات القابلة للتنزيل، أو البوابات الإلكترونية.
في عام 2020، قدم خبير المعلومات الحيوية أندريه كاليس، وعالم الكمبيوتر جونار راتش، وكلاهما من ETH زيورخ، وزملاؤهما نسخة مبكرة من ميتاغراف. استخدم الفريق أداته، حيث تمثل الهياكل الرياضية المعروفة باسم رسوم دي بروين البيانية تداخلات بين التسلسلات، لفهرسة أكثر من مليون سجل من SRA، بإجمالي حوالي 3 بيتاباز. لقد استخدموا بالفعل ميتاغراف في مشاريع بما في ذلك تحديد التركيب الميكروبي للمدن المختلفة.
الآن، يمتلك الفريق نسخة محسنة من ميتاغراف وقد قام بتسخيرها لفهرسة 5 بيتاباز من SRA وقواعد بيانات أخرى، تتضمن تسلسلات من الميكروبات والفطريات والنباتات والبشر وميكروبيوم الأمعاء البشرية. تعمل بعض الفهارس في البحث الجديد على تقليل عشرات التيراباز من البيانات إلى حوالي 10 جيجا بايت، وهي صغيرة بما يكفي للعمل عليها على جهاز كمبيوتر شخصي. على الرغم من بناء الفهارس الأولية
ويقول الباحثون إن التكلفة الباهظة – مئات الآلاف من الدولارات لجميع SRA – يمكن للمستخدمين الاستعلام عن مجموعات البيانات بتكلفة أقل بكثير من التقنيات الحالية.
تقول ليزلي هويلز، المتخصصة في المعلوماتية الحيوية وعالمة الأحياء الدقيقة في جامعة نوتنجهام ترنت، إن هذا العمل «مثير للغاية». ومع تضخم حجم مستودعات البيانات، فإن “أي شيء يمكن أن يقلل من تكاليف التخزين والطاقة الحاسوبية … يعد بمثابة إضافة هائلة للباحثين في جميع أنحاء العالم”. وتضيف قائلة إن مثل هذه الأساليب يمكن أن تقلل من العوائق التي تعترض الأبحاث الجينومية أمام العلماء في البلدان المنخفضة والمتوسطة الدخل. “يمكن إنجاز العمل بسهولة باستخدام أجهزة كمبيوتر محمولة رخيصة الثمن.”
كما تحرز مجموعات أخرى تقدما. وفي العام الماضي، فاز معهد باستور بمبلغ مليوني يورو من مجلس البحوث الأوروبي لإطلاق مشروعه مؤشر الكوكب IndexThePlanet لفهرسة كافة البيانات في SRA. ويعمل الباحثون في NCBI على أداة الفهرسة الخاصة بهم، والتي تسمى بيبلسكاوت Pebblescout. يقول زامين إقبال، عالِم الأحياء الحسابية بجامعة باث، الذي عمل في مشروع AllTheBacteria، وهو مشروع يجمع بيانات التسلسل البكتيري، لتسهيل البحث عنها: “إنه مجال نشط للغاية في الوقت الحالي”.
يقترح باترو أنه بسبب أحجام فهرس MetaGraph، قد يكون أبطأ من الأدوات الأخرى في بعض المهام الكبيرة بشكل خاص، مثل البحث عن ملايين التسلسلات من عينة في وقت واحد. إنه ليس أنت أيضًا ويضيف أنه ليس من الواضح أفضل السبل لتحديث الفهارس ببيانات تسلسلية جديدة. هناك أيضًا التحدي المتمثل في تمويل المشروع، بالإضافة إلى جميع التكاليف الحسابية المصاحبة له. في الواقع، يقول باترو إن إمكانية اعتماد هذه الأداة على نطاق واسع في نهاية المطاف ستعتمد جزئيًا على “معالجة المسائل الاجتماعية والإدارية حول كيفية استضافة مثل هذا المورد الكبير وتحديثه وصيانته”، مضيفًا أن الأمر يبدو “غير ممكن (وغير عادل).” أن نتوقع من مجموعة بحثية فردية أن تتولى هذه المهمة الهائلة.
ويتفق كاليس وراتش مع ذلك، قائلين إنهما يأملان أن يلهم هذا العمل مجموعات أخرى، ومنظمات أكبر، مثل NCBI، أو SRA، لتبني المشروع والمساعدة في فهرسة 90% المتبقية من بيانات التسلسل ليستخدمها الباحثون. يقول راتش: “لقد أظهرنا لهم هنا: “هذا ممكن، يرجى القيام بذلك”.

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى