یادداشت
مدل یادگیری عمیق BigRNA رفتار RNA را پیشبینی میکند
یک مدل پایه RNA کشف مکانیسمهای بیماری و درمانهای کاندید را امکان پذیر میکند.
امتیاز:
به گزارش پایگاه اطلاع رسانی بنیان، در یک پیش چاپ از مقاله اخیر که در سرور bioRxiv آپلود شد، محققان یک مدل پایه برای پیشبینی بیان RNA خاص بافت، اتصال، ویژگی پروتئین اتصال RNA و سایتهای microRNA از توالیهای DNA ژنومی ایجاد و آموزش دادند. مدل آنها که BigRNA نامیده میشود، میتواند انواع DNA غیرکدکننده بیماری زا را در طیف گستردهای از موارد مکانیکی شناسایی و پیش بینی کند. قابل ذکر است، BigRNA قادر به پیش بینی دقیق اثرات الیگونوکلئوتیدهای مسدود کننده فضایی (SBOs)، اسیدهای نوکلئیک که قادر به تعدیل بیان ژن هستند، بود. نتایج آنها نشان میدهد که BigRNA و مدلهای بنیادی مشابه ممکن است امکان درمانهای شخصیسازی شده با RNA را در آینده فراهم کنند.
پیش زمینه
یادگیری عمیق، یادگیری ژرف یا ژرفآموزی (Deep learning) به بیانی دیگر: یادگیری ژرف ماشین، یادگیری ساختار ژرف یا یادگیری سلسله مراتبی) یک زیر شاخه از یادگیری ماشین و بر مبنای مجموعهای از الگوریتمها است که در تلاشند تا مفاهیم انتزاعی سطح بالا در دادگان را مدل نمایند که این فرایند را با استفاده از یک گراف عمیق که دارای چندین لایه پردازشی متشکل از چندین لایه تبدیلات خطی و غیرخطی هستند، مدل میکنند. به بیانی دیگر یادگیری عمیق یک نوع یادگیری ماشین به همراه شبکههای عصبی چندلایه است که با دقتی فزاینده الگوهای موجود در دادهها کشف کرده و به همینخاطر میتواند علائق کاربر را بشناسد، اشیا را شناسایی کرده و زبانها را بفهمد.
مدل سازی RNA و مزایای یادگیری عمیق
تحقیقات با هدف طراحی الگوریتمهای یادگیری ماشینی (ML) که قادر به پیشبینی نتایج RNA از توالیهای DNA هستند، طولانیمدت و فراوان است اما باید موفقیت آمیز به اثبات برسد. پیشرفتهای اخیر در یادگیری عمیق (DL) به پیشرفتهای قابل توجهی در تحقیقات کنونی در زمینه پیشبینیهای RNA و رویکردهای محاسباتی موجود اجازه داده است که تا یک دهه پیش غیرممکن بود. متأسفانه، بیشتر تحقیقات فعلی در این زمینه بر پیشبینی بیان مطلق یا کلی RNA متمرکز است، و تحقیقات در مورد مکانیسمهای تنظیمی زیربنای بیان RNA فاقد آن است. از آنجایی که مداخلات نظارتی مانند اسپلایسینگ و پلی آدنیلاسیون برای مداخلات درمانی بالینی بسیار حیاتیتر هستند، مطالعات مربوط به اختلالات رونویسی خاص حاکم بر بیان RNA برای هر کاربرد پزشکی آینده در این زمینه بسیار مهم است. پیشرفتها در تکنیکهای توالییابی نسل بعدی، دادههای توالییابی RNA (RNA-seq) را به طور گسترده در دسترس قرار داده است. مقدار زیادی داده RNA-seq در گردش، منبع ایده آلی را برای تجزیه و تحلیل با وضوح بالا بیان RNA فراهم میکند و همچنین امکان آموزش مدلهای یادگیری عمیق را فراهم میکند که قادر به شناسایی و پیش بینی رویدادهای تنظیمی رونویسی پیچیده از طیف گستردهای از ژنوتیپهای DNA متمایز هستند. مجموعه دادههای ترکیبی، از جمله پروژه بیان ژنوتیپ-بافت (GTEx)، به ویژه مفید هستند، زیرا آنها هر دو RNA-seq با وضوح بالا و توالی ژنوم کامل (WGS) را ترکیب میکنند، که امکان مقایسه مستقیم DNA به RNA را فراهم میکند.
درباره مطالعه
مطالعه حاضر از دادههای گسترده WGS و RNA-seq برای طراحی و آموزش یک مدل یادگیری عمیق به نام BigRNA با هدف پیش بینی بیان RNA و تعاملات مکانیکی که منجر به سطوح بیان RNA مشاهده شده میشود، استفاده کرد. محققان با جمعآوری دادههای کنسرسیوم GTEx که شامل اطلاعات WGS و RNA-seq از 70 فرد با وراثت متنوع است، شروع کردند. دادههای دنباله تراز شده و از طریق یک خط لوله با پنجره 128bp عبور داده شد زیرا معماری مدل مبتنی بر ترانسفورماتور برای خواندن 128bp (جفت پایه) بهینه شده بود. هر نمونه RNA-seq در دو مسیر داده پردازش شد، پوشش و اتصال، که در آن مسیر اتصال شامل زیرمجموعهای از تعداد خواندن در اتصالات اتصال است. سپس BigRNA بر روی 70 جفت DNA-RNA به طور جداگانه آموزش داده شد و امکان یادگیری مستقل از هر یک از افراد نمونهگیری شده را پس از محاسبه تفاوتهای فنوتیپی ناشی از هاپلوتیپها فراهم کرد. محققان خروجیهای فردی آگنوستیک به ازای هر بافت را به هنگهای آموزشی BigRNA اضافه کردند و مدل را تشویق کردند تا شروع به پیشبینی ژنوتیپ کند که منجر به دادههای RNA-seq مشاهدهشده میشود. پس از آموزش مدل، BigRNA روی پروتئین اتصال RNA (RBP) و مجموعه دادههای microRNA بهدستآمده از روشهای پیوند متقابل و رسوب ایمنی (eCLIP) و پایگاهداده عناصر DNA (ENCODE) بهخوبی تنظیم شد. برای آزمایش عملکرد مدل، ژنهای کدکننده پروتئین کاملاً جدا از آنهایی که برای تمرین استفاده میشوند، انتخاب شدند. به منظور اعتبارسنجی عملکرد و دقت BigRNA، تفاوت بین پیشبینیهای مدل و نتایج تجربی قبلی برای هر بافت محاسبه شد. عملکرد پیشبینی بیان ژن دیفرانسیل با استفاده از مقایسههای زوجی بین پیشبینیها و مشاهدات تأیید شد و با استفاده از متریک تغییر برابری log2 ضریب همبستگی بین دادههای پوشش پیشبینیشده و هدف در هر ژن برای همه ژنها محاسبه شد.
نتایج مطالعه
BigRNA قادر به پیش بینی هر دو بیان RNA خاص بافت و پروتئین بالقوه و محل اتصال microRNA با دقت بالا بود. قابل ذکر است، برای ژنهای ناشناختهای که در مجموعه دادههای آموزشی یا اعتبارسنجی گنجانده نشدهاند، ضرایب همبستگی (r) ~0.70 بهدست آمد (محدوده 0.47 - 0.77). دقت زمانی که بر بیان RNA در مغز متمرکز شد، در حدود 74٪ قابل توجه تر بود. BigRNA به طور قابل توجهی از استاندارد طلای فعلی در مدلهای پیشبینی RNA، DeepRiPe، برای تمام 142 مجموعه داده آزمایششده، بهتر عمل کرد. هنگامی که روی پیشبینیهای microRNA متمرکز شد، BigRNA دقت 84٪ را نشان داد. با توجه به کاربردهای کشف داروی microRNAها، این امیدوارکننده است. یک چالش کلیدی در ژنتیک انسانی، پیشبینی تاثیر انواع توالی است که ممکن است در جمعیت انسانی یافت شود. بسیاری از مدلهای یادگیری عمیق که با استفاده از معیارهای خاصی مانند AlphaFold روی ژنهای دیده نشده به خوبی عمل میکنند، برای پیشبینی اثرات متغیر تلاش میکنند. روشهای دقیقی برای پیشبینی تأثیر بیماریزای انواع نادرست نادرست وجود دارد، انواع غیرکدکننده، مانند آنهایی که در نواحی ترجمهنشده 3' و 5' ژنها قرار دارند، تفسیر آنها دشوار است. BigRNA این نگرانیها را کاهش میدهد، هنگامی که با استفاده از مجموعه دادههای نمونه از ClinVar (مجموعه مجموعهای از بیماریهای ژنتیکی غیرقابل انتقال) آزمایش شد، BigRNA توانست پیامدهای بیماری را از دادههای ورودی RNA-seq با سطح زیر منحنی ROC (AUC) امتیاز 0.95 پیشبینی کند. میانگین نرخ مثبت کاذب (FPR) مدل به طور مداوم <0.5٪ بود که نشان میدهد BigRNA و سایر مدلهای پایه ممکن است به پزشکان در تشخیص بیماریهای ارثی و ژنتیکی در آینده کمک کنند. اکثر مدلهای مرسوم نمیتوانند گونههای پاتوژنتیک پیوند شونده را شناسایی کنند، و تعداد معدودی که هنوز نمیتوانند بین جهشهای خوشخیم و واریانتهای پاتوژنتیک تمایز قائل شوند. BigRNA بر اساس توانایی آن در پیشبینی و پرچمگذاری اثرات پیرایش پرش اگزون با استفاده از دادههای یک روش پیوند موازی انبوه (MaPSy) ارزیابی شد. این مدل عملکرد چشمگیری را با امتیاز AUC 0.89 نشان داد. برای ارزیابی تأثیرات پیوند بر واریانتهای اینترونیک و عملکرد BigRNA در آن، از دادههای ژن ABCA4 استفاده شد. یک بار دیگر، BigRNA برای شناسایی دقیق و پرچمگذاری رویداد splicing، با AUC 0.9 یافت شد. توانایی BigRNA در درک مکانیسمهای تنظیمی مؤثر بر پیوند و بیان ژن ممکن است به آن اجازه دهد تا مداخلات درمانی را طراحی کند که اثرات نوع بیماریزا را نجات میدهد.
نتیجه گیری
در مقاله پیش چاپ حاضر، محققان یک مدل یادگیری ماشین عمیق جدید به نام BigRNA را برای شناسایی و پیشبینی نقصهای RNA-seq از مجموعه دادههای DNA ژنومیتوسعه دادند. نتایج آنها نشان میدهد که BigRNA بهترین و دقیق ترین مدل را تا به امروز در شناسایی انحرافات RNA-seq، از جمله اتصال، از مجموعه دادههای DNA ارائه میدهد. علاوه بر این نشان داده شد که BigRNA قادر به پیشبینی بیان ژن خاص بافت و شناسایی مکانیسم زمینهای است که منجر به سطوح بیان متفاوت در بین ژنوتیپها میشود. به عنوان یک الگوریتم یادگیری ماشین، دقت BigRNA این پتانسیل را دارد که با دادههای WGS و RNA-seq بیشتر بهبود یابد. مدلهای بنیادی، از جمله BigRNA، ممکن است راه را برای درمآنهای RNA شخصیسازی شده در آینده هموار کند. به گفته محققان این نتایج نشان میدهد که وظایف مختلف کشف دارو را میتوان با یادگیری عمیق کمک کرد. آنها اعتقاد دارند که BigRNA و سیستمهای یادگیری عمیق مانند آن پتانسیل تغییر زمینه درمان RNA را دارند.
پایان مطلب./