Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.
مرشحات بلوم في المعلوماتية الحيوية
مرشحات بلوم هي هياكل بيانات احتمالية موفرة للمساحة تُستخدم لاختبار ما، إذا كان العنصر جزءًا من مجموعة. تتطلب فلاتر بلوم مساحة أقل بكثير من هياكل البيانات الأخرى؛ لتمثيل المجموعات، ولكن الجانب السلبي لفلاتر بلوم هو أن هناك معدل إيجابي كاذب عند الاستعلام عن بنية البيانات. نظرًا لأن العناصر المتعددة قد يكون لها نفس قيم التجزئة لعدد من وظائف التجزئة، فهناك احتمال أن يؤدي الاستعلام عن عنصر غير موجود إلى إرجاع عنصر إيجابي إذا تمت إضافة عنصر آخر بنفس قيم التجزئة إلى مرشح (Bloom). بافتراض أن دالة التجزئة لها احتمالية متساوية لاختيار أي فهرس لمرشح بلوم، فإن المعدل الإيجابي الكاذب للاستعلام عن مرشح بلوم هو دالة لعدد البتات وعدد وظائف التجزئة وعدد عناصر مرشح بلوم. يسمح هذا للمستخدم بإدارة مخاطر الحصول على نتيجة إيجابية خاطئة من خلال المساومة على مزايا المساحة لمرشح بلوم.
تستخدم مرشحات بلوم في المقام الأول في المعلوماتية الحيوية لاختبار وجود k-mer في تسلسل أو مجموعة من التسلسلات. يتم فهرسة k-mers للتسلسل في مرشح (Bloom)، ويمكن الاستعلام عن أي k-mer من نفس الحجم مقابل مرشح Bloom. هذا هو البديل المفضل لتجزئة k-mers في تسلسل مع جدول تجزئة، خاصة عندما يكون التسلسل طويلًا جدًا، حيث يتطلب تخزين أعداد كبيرة من k-mers في الذاكرة.
تطبيقات
تمييز أو وصف التسلسل
خطوة المعالجة في العديد من تطبيقات المعلوماتية الحيوية تتضمن تصنيف التسلسل، والتصنيف الأولي للقراءات من تجربة تسلسل الحمض النووي DNA. على سبيل المثال، في دراسات علم الجينوم البيئي (الميتاجينوميات) من المهم أن تكون قادراً على معرفة إذا كانت قراءة التسلسل تنتمي إلى نوع جديد. وفي مشاريع التسلسل السريري، من الضروري ترشيح أو تصفية القراءات من مجموعة العوامل الوراثية (جينومات)للكائنات الحية الملوثة. هنالك العديد من أدوات المعلوماتية الحيوية التي تستخدم مرشحات بلوم (Bloom) لتصنيف القراءات بواسطة الاستفسار أو الاستعلام من k-mers لقراءة مجموعة من مرشحات بلوم (Bloom) المولدة من مجموعة العوامل الوراثية (جينومات) مرجعية معروفة. بعض الأدوات التي تستخدم هذه الطريقة هيFACS وأدوات BIOBLOOM. في حين هذه الطرق يمكن أن لا تتفوق على أدوات تصنيف المعلوماتية الحيوية الأخرى، مثل Kraken، فإنها تقدم بديلاً أو خياراً مقتصداً للذاكرة.
مجال حديث للبحث مع مرشحات بلوم (Bloom) في تمييز التسلسل، ويكون بتطوير طرق للإستعلام عن القراءات
الأولية من تجارب التسلسل.على سبيل المثال، كيف يمكن للشخص أن يحدد أي قراءات تحتوي على 30-mer معينة في
أرشيف قراءة تسلسل NCBI بأكمله؟ هذه المهمة تتطلب إعادة قراءات محددة تحتوي على K-mer BLAST، وأدوات مماثلة لا يمكنها التعامل مع هذه المشكلة بكفاءة، لذلك تم تنفيذ هياكل البيانات القائمة على مرشح
بلوم (Bloom) لتحقيق هذا الغرض أو هذه الغاية. أشجار الازدهار الثنائية، هي أشجار ثنائية لمرشحات بلوم التي تسهل الإستعلام عن النسخ في تجارب RNA-seq الكبيرة.
تركيب مجموعة المادة الوراثية (الجينوم) في الإنسان
لقد تم استخدام كفاءة الذاكرة لمرشح بلوم (Bloom) في تجميع مجموعة المادة الوراثية (الجينوم) كوسيلة لتقليل مساحة بصمة القدم للk-mers من البيانات المتسلسلة. مساهمة أساليب التجميع المرتكزة على مرشح بلوم (Bloom) تكون من خلال الدمج بين مرشحات بلوم (Bloom) والرسوم البيانية de bruijn في نموذج يسمى الرسم البياني الاحتمالي de bruijn، الذي يعمل على تحسين استخدام الذاكرة على حساب المعدل الإيجابي الخاطئ الملازم لمرشحات بلوم (Bloom)، وبدلاً من تخزين الرسم البياني de bruijn في جدول تجزئة يتم تخزينه في عند استخدام مرشح بلوم (Bloom) لتخزين الرسم البياني de bruijn يؤدي ذلك إلى تعقيد مرحلة اجتياز الرسم البياني لبناء التجميع وتأخير هذه الخطوة، ولأن معلومات الحواف ليس مشفرة في مرشح بلوم (Bloom)، لذلك يتم إنجاز تمرير واجتياز الرسم البياني عن طريق الاستعلام عن مرشح بلوم (Bloom) لأي خيار من الأربعة خيارات الممكنة التالية لنقطة k-mers الحالية. على سبيل المثال: إذا كانت النقطة أو العقدة الحالية هي ACT يجب أن تكون العقدة التالية لها هي CTA أوCTG أو CTC أو CTT.
إذا كان الاستعلام عن k-mers موجود وفعال في مرشح بلوم (Bloom) فسيتم إضافة k-mers إلى المسار، لذلك هناك مصدران لنتيجة ايجابية خاطئة للاستعلام عن مرشح بلوم (Bloom)، وذلك عندما يتم اجتياز الرسم البياني ل de bruijn، لذلك هناك احتمال لوجود عنصر أو أكثر من ثلاثة عناصر خاطئة في مكان آخر من مجموعة التسلسل لإعادة نتيجة ايجابية خاطئة واحدة فقط. هناك نسبة للنتائج الايجابية الخاطئة ملازم لها ومذكو سابقاً لمرشح بلوم (Bloom) نفسه، لذلك فإن أدوات التجميع التي تستخدم مرشح بلوم (Bloom) يجب أن تعمل على حساب مصادر النتائج الايجابية الخاطئة في اساليبها وطرقها، ومن الأمثلة على المجموعات التي تستخدم هذا الأسلوب والنهج لتجميع de novo هي (ABySS2) و (Minia).
تصحيح خطأ التسلسل
إن طرق تسلسل وترتيب الجيل (NGS) سمحت واتاحت لنا فرص لتوليد تسلسلات مجموعة المادة الوراثية (الجينوم) جديدة بشكل أسرع وأقل تكلفة بكثير من الطرق القديمة، وبالرغم من ذلك فإن هذه الطرق لديها نسبة خطأ أكثر، الأمر الذي يعقد التحليل النهائي للتسلسل، ومن الممكن أيضاً أن يؤدي إلى استنتاجات خاطئة. وقد تم تطوير الكثير من الطرق لتصحيح الأخطاء في قراءة (NGS)، ولكنها تستخدم مساحات كبيرة من الذاكرة مما يجعلها وسيلة غير عملية وغير مجدية بالنسبة لمجموعة المادة الوراثية (الجينوم)الكبيرة، مثل مجموعة المادة الوراثية في الإنسان. لذلك تم تطوير أدوات تستخدم مرشحات بلوم (Bloom) لمعالجة هذه المشاكل مع ضرورة الأستفادة من الاستخدام الصحيح الفعال للذاكرة، ومن الأمثلة على هذه الأدوات (BLESS) و (Musket).
وهاتان الطريقتان تستخدمان اسلوب الطيف في k-mer لتصحيح الخطأ. الخطوة الأولى في هذا الاسلوب هي حساب تضاعف k-mers، اما طريقة (BLESS) تستخدم فقط مرشحات بلوم (Bloom) لتخزين العدد الإجمالي، اما طريقة (Musket) فهي تعتمد على استخدام مرشحات بلوم (Bloom) فقط لحساب k-mers الوحيدة غير المشابهة
لغيرها، اما باقي k-mers المتشابهة فيتم تخزينها في جدول التجزئة.
تسلسل وترتيب RNA
ومن اسخدمات مرشحات بلوم (Bloom) الاستفادة منها في خطوط وتوصيلات متسلسلة RNA، وفي مجموعات متسلسلة RNA، وأيضاً تستخدم مرشحات بلوم (Bloom) لإيجاد sig-mers: k-mers التي توجد فقط في إحدى الكتل والعقد. وبعد ذلك، يتم استخدام هذه النتائج لتخمين وتقدير مستويات التطابق، لذلك فإنه لا يعمل على تحليل كل k-mers المحتملة، مما يؤدي إلى تحسينات في الأداء، وفي استخدام الذاكرة، وقد ظهر بالبحث انه يعمل مثل الطرق السابقة.