مدل یادگیری عمیق BigRNA رفتار RNA را پیش‌بینی می‌کند

یادداشت

مدل یادگیری عمیق BigRNA رفتار RNA را پیش‌بینی می‌کند

یک مدل پایه RNA کشف مکانیسم‌های بیماری و درمان‌های کاندید را امکان پذیر می‌کند.

امتیاز:

به گزارش پایگاه اطلاع رسانی بنیان، در یک پیش چاپ از مقاله اخیر که در سرور bioRxiv آپلود شد، محققان یک مدل پایه برای پیش‌بینی بیان RNA خاص بافت، اتصال، ویژگی پروتئین اتصال RNA و سایت‌های microRNA از توالی‌های DNA ژنومی ایجاد و آموزش دادند. مدل آن‌ها که BigRNA نامیده می‌شود، می‌تواند انواع DNA غیرکدکننده بیماری زا را در طیف گسترده‌ای از موارد مکانیکی شناسایی و پیش بینی کند. قابل ذکر است، BigRNA قادر به پیش بینی دقیق اثرات الیگونوکلئوتیدهای مسدود کننده فضایی (SBOs)، اسیدهای نوکلئیک که قادر به تعدیل بیان ژن هستند، بود. نتایج آن‌ها نشان می‌دهد که BigRNA و مدل‌های بنیادی مشابه ممکن است امکان درمان‌های شخصی‌سازی شده با RNA را در آینده فراهم کنند.

پیش زمینه

یادگیری عمیق، یادگیری ژرف یا ژرف‌آموزی (Deep learning) به بیانی دیگر: یادگیری ژرف ماشین، یادگیری ساختار ژرف یا یادگیری سلسله مراتبی) یک زیر شاخه از یادگیری ماشین و بر مبنای مجموعه‌ای از الگوریتم‌ها است که در تلاشند تا مفاهیم انتزاعی سطح بالا در دادگان را مدل نمایند که این فرایند را با استفاده از یک گراف عمیق که دارای چندین لایه پردازشی متشکل از چندین لایه تبدیلات خطی و غیرخطی هستند، مدل می‌کنند. به بیانی دیگر یادگیری عمیق یک نوع یادگیری ماشین به همراه شبکه‌های عصبی چندلایه است که با دقتی فزاینده الگو‌های موجود در داده‌ها کشف کرده و به همین‌خاطر می‌تواند علائق کاربر را بشناسد، اشیا را شناسایی کرده و زبان‌ها را بفهمد.

مدل سازی RNA و مزایای یادگیری عمیق

تحقیقات با هدف طراحی الگوریتم‌های یادگیری ماشینی (ML) که قادر به پیش‌بینی نتایج RNA از توالی‌های DNA هستند، طولانی‌مدت و فراوان است اما باید موفقیت آمیز به اثبات برسد. پیشرفت‌های اخیر در یادگیری عمیق (DL) به پیشرفت‌های قابل توجهی در تحقیقات کنونی در زمینه پیش‌بینی‌های RNA و رویکردهای محاسباتی موجود اجازه داده است که تا یک دهه پیش غیرممکن بود. متأسفانه، بیشتر تحقیقات فعلی در این زمینه بر پیش‌بینی بیان مطلق یا کلی RNA متمرکز است، و تحقیقات در مورد مکانیسم‌های تنظیمی‌ زیربنای بیان RNA فاقد آن است. از آنجایی که مداخلات نظارتی مانند اسپلایسینگ و پلی آدنیلاسیون برای مداخلات درمانی بالینی بسیار حیاتی‌تر هستند، مطالعات مربوط به اختلالات رونویسی خاص حاکم بر بیان RNA برای هر کاربرد پزشکی آینده در این زمینه بسیار مهم است. پیشرفت‌ها در تکنیک‌های توالی‌یابی نسل بعدی، داده‌های توالی‌یابی RNA (RNA-seq) را به طور گسترده در دسترس قرار داده است. مقدار زیادی داده RNA-seq در گردش، منبع ایده آلی را برای تجزیه و تحلیل با وضوح بالا بیان RNA فراهم می‌کند و همچنین امکان آموزش مدل‌های یادگیری عمیق را فراهم می‌کند که قادر به شناسایی و پیش بینی رویدادهای تنظیمی رونویسی پیچیده از طیف گسترده‌ای از ژنوتیپ‌های DNA متمایز هستند. مجموعه داده‌های ترکیبی، از جمله پروژه بیان ژنوتیپ-بافت (GTEx)، به ویژه مفید هستند، زیرا آن‌ها هر دو RNA-seq با وضوح بالا و توالی ژنوم کامل (WGS) را ترکیب می‌کنند، که امکان مقایسه مستقیم DNA به RNA را فراهم می‌کند.

درباره مطالعه

مطالعه حاضر از داده‌های گسترده WGS و RNA-seq برای طراحی و آموزش یک مدل یادگیری عمیق به نام BigRNA با هدف پیش بینی بیان RNA و تعاملات مکانیکی که منجر به سطوح بیان RNA مشاهده شده می‌شود، استفاده کرد. محققان با جمع‌آوری داده‌های کنسرسیوم GTEx که شامل اطلاعات WGS و RNA-seq از 70 فرد با وراثت متنوع است، شروع کردند. داده‌های دنباله تراز شده و از طریق یک خط لوله با پنجره 128bp عبور داده شد زیرا معماری مدل مبتنی بر ترانسفورماتور برای خواندن 128bp (جفت پایه) بهینه شده بود. هر نمونه RNA-seq در دو مسیر داده پردازش شد، پوشش و اتصال، که در آن مسیر اتصال شامل زیرمجموعه‌ای از تعداد خواندن در اتصالات اتصال است. سپس BigRNA بر روی 70 جفت DNA-RNA به طور جداگانه آموزش داده شد و امکان یادگیری مستقل از هر یک از افراد نمونه‌گیری شده را پس از محاسبه تفاوت‌های فنوتیپی ناشی از ‌هاپلوتیپ‌ها فراهم کرد. محققان خروجی‌های فردی آگنوستیک به ازای هر بافت را به هنگ‌های آموزشی BigRNA اضافه کردند و مدل را تشویق کردند تا شروع به پیش‌بینی ژنوتیپ کند که منجر به داده‌های RNA-seq مشاهده‌شده می‌شود. پس از آموزش مدل، BigRNA روی پروتئین اتصال RNA (RBP) و مجموعه داده‌های microRNA به‌دست‌آمده از روش‌های پیوند متقابل و رسوب ایمنی (eCLIP) و پایگاه‌داده عناصر DNA (ENCODE) به‌خوبی تنظیم شد. برای آزمایش عملکرد مدل، ژن‌های کدکننده پروتئین کاملاً جدا از آن‌هایی که برای تمرین استفاده می‌شوند، انتخاب شدند. به منظور اعتبارسنجی عملکرد و دقت BigRNA، تفاوت بین پیش‌بینی‌های مدل و نتایج تجربی قبلی برای هر بافت محاسبه شد. عملکرد پیش‌بینی بیان ژن دیفرانسیل با استفاده از مقایسه‌های زوجی بین پیش‌بینی‌ها و مشاهدات تأیید شد و با استفاده از متریک تغییر برابری log2 ضریب همبستگی بین داده‌های پوشش پیش‌بینی‌شده و هدف در هر ژن برای همه ژن‌ها محاسبه شد.

نتایج مطالعه

BigRNA قادر به پیش بینی هر دو بیان RNA خاص بافت و پروتئین بالقوه و محل اتصال microRNA با دقت بالا بود. قابل ذکر است، برای ژن‌های ناشناخته‌ای که در مجموعه داده‌های آموزشی یا اعتبارسنجی گنجانده نشده‌اند، ضرایب همبستگی (r) ~0.70 به‌دست آمد (محدوده 0.47 - 0.77). دقت زمانی که بر بیان RNA در مغز متمرکز شد، در حدود 74٪ قابل توجه تر بود. BigRNA به طور قابل توجهی از استاندارد طلای فعلی در مدل‌های پیش‌بینی RNA، DeepRiPe، برای تمام 142 مجموعه داده آزمایش‌شده، بهتر عمل کرد. هنگامی که روی پیش‌بینی‌های microRNA متمرکز شد، BigRNA دقت 84٪ را نشان داد. با توجه به کاربردهای کشف داروی microRNA‌ها، این امیدوارکننده است. یک چالش کلیدی در ژنتیک انسانی، پیش‌بینی تاثیر انواع توالی است که ممکن است در جمعیت انسانی یافت شود. بسیاری از مدل‌های یادگیری عمیق که با استفاده از معیارهای خاصی مانند AlphaFold روی ژن‌های دیده نشده به خوبی عمل می‌کنند، برای پیش‌بینی اثرات متغیر تلاش می‌کنند. روش‌های دقیقی برای پیش‌بینی تأثیر بیماری‌زای انواع نادرست نادرست وجود دارد، انواع غیرکدکننده، مانند آن‌هایی که در نواحی ترجمه‌نشده 3' و 5' ژن‌ها قرار دارند، تفسیر آن‌ها دشوار است. BigRNA این نگرانی‌ها را کاهش می‌دهد، هنگامی که با استفاده از مجموعه داده‌های نمونه از ClinVar (مجموعه مجموعه‌ای از بیماری‌های ژنتیکی غیرقابل انتقال) آزمایش شد، BigRNA توانست پیامدهای بیماری را از داده‌های ورودی RNA-seq با سطح زیر منحنی ROC (AUC) امتیاز 0.95 پیش‌بینی کند. میانگین نرخ مثبت کاذب (FPR) مدل به طور مداوم <0.5٪ بود که نشان می‌دهد BigRNA و سایر مدل‌های پایه ممکن است به پزشکان در تشخیص بیماری‌های ارثی و ژنتیکی در آینده کمک کنند. اکثر مدل‌های مرسوم نمی‌توانند گونه‌های پاتوژنتیک پیوند شونده را شناسایی کنند، و تعداد معدودی که هنوز نمی‌توانند بین جهش‌های خوش‌خیم و واریانت‌های پاتوژنتیک تمایز قائل شوند. BigRNA بر اساس توانایی آن در پیش‌بینی و پرچم‌گذاری اثرات پیرایش پرش اگزون با استفاده از داده‌های یک روش پیوند موازی انبوه (MaPSy) ارزیابی شد. این مدل عملکرد چشمگیری را با امتیاز AUC 0.89 نشان داد. برای ارزیابی تأثیرات پیوند بر واریانت‌های اینترونیک و عملکرد BigRNA در آن، از داده‌های ژن ABCA4 استفاده شد. یک بار دیگر، BigRNA برای شناسایی دقیق و پرچم‌گذاری رویداد splicing، با AUC 0.9 یافت شد. توانایی BigRNA در درک مکانیسم‌های تنظیمی مؤثر بر پیوند و بیان ژن ممکن است به آن اجازه دهد تا مداخلات درمانی را طراحی کند که اثرات نوع بیماری‌زا را نجات می‌دهد.

نتیجه گیری

در مقاله پیش چاپ حاضر، محققان یک مدل یادگیری ماشین عمیق جدید به نام BigRNA را برای شناسایی و پیش‌بینی نقص‌های RNA-seq از مجموعه داده‌های DNA ژنومی‌توسعه دادند. نتایج آن‌ها نشان می‌دهد که BigRNA بهترین و دقیق ترین مدل را تا به امروز در شناسایی انحرافات RNA-seq، از جمله اتصال، از مجموعه داده‌های DNA ارائه می‌دهد. علاوه بر این نشان داده شد که BigRNA قادر به پیش‌بینی بیان ژن خاص بافت و شناسایی مکانیسم زمینه‌ای است که منجر به سطوح بیان متفاوت در بین ژنوتیپ‌ها می‌شود. به عنوان یک الگوریتم یادگیری ماشین، دقت BigRNA این پتانسیل را دارد که با داده‌های WGS و RNA-seq بیشتر بهبود یابد. مدل‌های بنیادی، از جمله BigRNA، ممکن است راه را برای درمآن‌های RNA شخصی‌سازی شده در آینده هموار کند. به گفته محققان این نتایج نشان می‌دهد که وظایف مختلف کشف دارو را می‌توان با یادگیری عمیق کمک کرد. آن‌ها اعتقاد دارند که BigRNA و سیستم‌های یادگیری عمیق مانند آن پتانسیل تغییر زمینه درمان RNA را دارند.

پایان مطلب./