یادداشت
پیشآموزش مدلهای زبان DNA
مدلهای زبان DNA پیشبینیکنندههای قدرتمندی برای اثرات گونهای در سطح ژنوم هستند.
امتیاز:
به گزارش پایگاه اطلاع رسانی بنیان، در مطالعهای که اخیراً در PNAS منتشر شده است، محققان شبکه پیشآزمایش شده ژنومی (GPN) را معرفی کردند، یک مدل چند گونهای که برای یادگیری اثرات تنوع ژنومی با پیشآموزش خود نظارت شده روی توالیهای دیاکسی ریبونوکلئیک اسید ژنومی (DNA) توسعه یافته است.
پیش زمینه
تغییرات ژنتیکی ژنوم به بیماریهای پیچیده و ویژگیهای کشاورزی کمک میکند، اما درک آنها همچنان چالش برانگیز است. اگرچه مطالعات انجمن گسترده ژنوم (GWAS) بینشهای بیولوژیکی را ارائه میدهد، شناسایی تغییرات ایجاد کننده همچنان دشوار است. اعتبار سنجی آزمایش زمان بر و پرهزینه است و بر نیاز به رویکردهای رایانهای دقیق و مقیاس پذیر برای پیش بینی تأثیر تغییرات ژنتیکی در کل ژنوم تأکید دارد. پیشآموزش بدون نظارت با استفاده از پایگاههای اطلاعاتی توالی پروتئین بزرگ، در استخراج اطلاعات پیچیده در مورد پروتئینها و تأثیرات تنوع یادگیری در حوزههای کدگذاری مؤثر بوده است.
درباره مطالعه
در مطالعه حاضر، محققان یک استراتژی پیشبینی تأثیر تنوع گسترده ژنوم را بر اساس مدلهای زبان DNA بدون نظارت پیشنهاد کردند که عملکردی پیشرفته در آرابیدوپسیس تالیانا، یک ارگانیسم مدل برای زیستشناسی گیاهی و منبع بینش در مورد اختلالات انسانی، به دست آورد. آرابیدوپسیس تالیانا (Arabidopsis thaliana) یک گیاه گلدار کوچک و بومی اروپا، آسیا و شمالغربی آفریقا است.این گیاه، نخستین گیاهی است که نقشه ژنی آن توالییابی شد. آرابیدوپسیس تالیانا، یک جاندار مدل محبوب و شناختهشده است که در پژوهشهای گیاهشناسی، زیستشناسی مولکولی و ژنتیک، دارای اهمیت بالایی است. برای پیشآموزش مدل زبانی مبتنی بر شبکه عصبی کانولوشن، محققان از ژنومهای غیرهمتراز از آرابیدوپسیس تالیانا (A.thaliana) و هفت گونه براسیکالز مرتبط با استفاده از کاتالوگ AraGWAS برای مرجع استفاده کردند. این رویکرد برای پیشبینی نوکلئوتیدهای پوشانده شده بر اساس زمینه ژنتیکی آنها استفاده شد. دانشمندان میانگین تعبیههای متنی GPN 512 بعد از نوکلئوتیدها را در بیش از 100 جفت باز (bp) پنجره از ژنوم مرجع محاسبه کردند. آنها را با استفاده از تقریب و طرح ریزی منیفولد یکنواخت (UMAP) برای اندازه گیری میزان درک مدل سازمان ژنومی نشان دادند. یک طبقه بندی رگرسیون لجستیک با استفاده از تعبیههای متوسط به عنوان ویژگیهایی برای اندازهگیری ظرفیت GPN برای تمایز مناطق ژنومی ساخته شد. با توجه به زمینه، هر مکان ژنومیبه طور جداگانه پوشانده شد، همانطور که توزیع خروجی مدل بر روی نوکلئوتیدها بود. آرمهای دنبالهای تولید شدند که میتوان آن را در مرورگر ژنوم دانشگاه کالیفرنیا سانتا کروز (UCSC) مشاهده کرد تا استفاده از این توزیعهای پیشبینیشده آسانتر شود. نمرات GPN برای جهش زایی سیلیکونی SNPها در یک منطقه 1.0 مگابایتی محاسبه شد و یافتهها در انواع مختلف به طور میانگین محاسبه شدند. متعاقبا، محققان بیش از 10 میلیون پلیمورفیسم تک نوکلئوتیدی (SNPs) را از پروژههای 1001 ژنوم طبیعی برای تخمین توانایی GPN برای پیشبینی تأثیر عملکردی گونههای ژنتیکی در A.thaliana مورد بررسی قرار دادند. کدهایی برای آموزش مدل GPN برای هر گونه معین تنها بر اساس توالی اسید دئوکسی ریبونوکلئیک آن ارائه شد، که امکان برآورد بدون نظارت اثرات تغییرات در کل ژنوم را فراهم میکند. محققان غنیسازی واریانتهای ژنتیکی غیرمعمول و رایج را در دم توزیعهای امتیاز در سطح ژنوم تجزیه و تحلیل کردند تا تواناییهای یافتن تغییرات عملکردی بالقوه را ارزیابی کنند.
نتایج
مدل GPN که بدون نظارت آموزش داده شد، به طور موثر ساختار ژن و الگوهای DNA را در آرابیدوپسیس تالیانا، یک ارگانیسم مدل بیولوژی گیاهی که ارتباط نزدیکی با چندین گونه مرتبط کشاورزی دارد که میتواند برای ارائه بینش در مورد اختلالات انسانی مورد استفاده قرار گیرد، یاد گرفت. این رویکرد از روشهای حفاظتی تثبیت شده مانند pastCons و phyloP، بر اساس 18 گونه براسیکالز مرتبط که با توالییابی کل ژنوم (WGS) همتراز شدهاند، بهتر عمل کرد. نمایش داخلی توالیهای DNA مورد استفاده توسط GPN میتواند نواحی ژنومی مانند نواحی ترجمه نشده (UTR)، اینترونها و توالیهای کدکننده را متمایز کند و اطمینان آن میتواند به کشف گرامر تنظیمکننده، مانند موتیفهایی که فاکتورهای رونویسی را متصل میکنند، کمک کند. GPN بهترین دقت را در توالیهای کدکننده (CDS، 96%) و کمترین دقت را در اسید ریبونوکلئیک غیرکدکننده (ncRNA، 51%)، کمترین کلاس را داشت. این مدل میتواند مناطق ژنومیبین ژنی، اینترونها، CDS، UTR و ncRNA را شناسایی کند. اطمینان پیشبینی مدل با عملکرد مورد انتظار سایتها مرتبط بود و نقوش کدون شروع و توقف معمولاً به طور دقیق پیشبینی میشد. با استفاده از نسبت لاگ احتمال بین آللهای جایگزین و مرجع، GPN ممکن است امتیاز بیماری زایی یا عملکرد را برای هر SNP در ژنوم تعیین کند. طبقهبندی انواع مختلف بر اساس پایینترین صدک نمرات GPN معمولاً با ایدههای قبلی پذیرفته شده در مورد مضر بودن مطابقت داشت. هشت درصد و نه درصد از تغییرات تکراری به ترتیب قبل از دهک اول انواع بدمعنا در مدلهای با کاهش وزن 0.0 و 0.1 رتبهبندی شدند. SNPهای عملکردی فرضی، که به عنوان کمترین 0.1درصد امتیازات GPN تعریف میشوند، در تغییرات غیر معمول 5.5 برابر غنی میشوند. GPN از تخصیص امتیازهای متفاوت قابل توجهی به گونههای ژنتیکی در عدم تعادل پیوند قوی (LD) با یکدیگر در صورت متفاوت بودن زمینههای اطراف آنها برخوردار است. تکنیک GPN - LD به طور موثر مطالعات ارتباط در سراسر ژنوم را از موارد غیرضروری جدا میکند، به طوری که با پلی مورفیسمهای تک نوکلئوتیدی با کم ترین یک درصد از امتیازات عدم تعادل ارتباط GPN که در حملات GWAS ۱۰ برابر غنی تر از آنهایی است که بیش ترین ۹۹.۰ درصد از مقادیر عدم تعادل ارتباط GPN را دارند. با کمال تعجب، مدلی که با وزنههای متوسط روی تکرارها تمرین کرده بود بهترین عملکرد را داشت. هنگام ارزیابی کل مجموعه تغییرات، از جمله مکانهایی که با سایر براسیکالز مطابقت ندارند، تکنیک GPN-LD مقادیر نسبت شانس بهطور قابل توجهی بالاتری تولید کرد.
نتیجه گیری
بر اساس یافتههای مطالعه، تکنیک پیشبینی واریانت گسترده ژنوم (GPN) به طور قابل اعتمادی اثرات واریانت گسترده ژنوم را تنها بر اساس توالی ژنومی پیشبینی میکند. برای همه گونهها کاربرد دارد و ممکن است برای اصلاح نقشههای دقیق GWAS و امتیاز خطر چند ژنی استفاده شود. از آنجایی که GPN روی توالیهای DNA آموزش دیده است، ممکن است برای گونههای غیرمدلی که کمتر مورد مطالعه قرار گرفتهاند و فاقد دادههای ژنومیک عملکردی جامع هستند، استفاده شود. این مدل از توزیعهای نوکلئوتیدی مشترک در زمینههای مشابه در ژنوم به جای ترازهای کل ژنوم یاد میگیرد، که میتواند منجر به کیفیت غیرکدگذاری بدتر شود. پیشبینیهای GPN در اطراف اتصالات اتصال ممکن است به شناسایی مکانهای اتصال فاکتور اتصال کمک کند. مطالعات آینده میتوانند تأثیر تکرارهای کاهش وزن را بر اساس خانواده یا سن ارزیابی کنند.
پایان مطلب./