تاریخ انتشار: شنبه 09 دی 1402
پیش‌آموزش مدل‌های زبان DNA
یادداشت

  پیش‌آموزش مدل‌های زبان DNA

مدل‌های زبان DNA پیش‌بینی‌کننده‌های قدرتمندی برای اثرات گونه‌ای در سطح ژنوم هستند.
امتیاز: Article Rating

به گزارش پایگاه اطلاع رسانی بنیان، در مطالعه‌ای که اخیراً در PNAS منتشر شده است، محققان شبکه پیش‌آزمایش ‌شده ژنومی (GPN) را معرفی کردند، یک مدل چند گونه‌ای که برای یادگیری اثرات تنوع ژنومی‌ با پیش‌آموزش خود نظارت شده روی توالی‌های دی‌اکسی ریبونوکلئیک اسید ژنومی (DNA) توسعه یافته است.

پیش زمینه

تغییرات ژنتیکی ژنوم به بیماری‌های پیچیده و ویژگی‌های کشاورزی کمک می‌کند، اما درک آن‌ها همچنان چالش برانگیز است. اگرچه مطالعات انجمن گسترده ژنوم (GWAS) بینش‌های بیولوژیکی را ارائه می‌دهد، شناسایی تغییرات ایجاد کننده همچنان دشوار است. اعتبار سنجی آزمایش زمان بر و پرهزینه است و بر نیاز به رویکردهای رایان‌های دقیق و مقیاس پذیر برای پیش بینی تأثیر تغییرات ژنتیکی در کل ژنوم تأکید دارد. پیش‌آموزش بدون نظارت با استفاده از پایگاه‌های اطلاعاتی توالی پروتئین بزرگ، در استخراج اطلاعات پیچیده در مورد پروتئین‌ها و تأثیرات تنوع یادگیری در حوزه‌های کدگذاری مؤثر بوده است.

درباره مطالعه

در مطالعه حاضر، محققان یک استراتژی پیش‌بینی تأثیر تنوع گسترده ژنوم را بر اساس مدل‌های زبان DNA بدون نظارت پیشنهاد کردند که عملکردی پیشرفته در آرابیدوپسیس تالیانا، یک ارگانیسم مدل برای زیست‌شناسی گیاهی و منبع بینش در مورد اختلالات انسانی، به دست آورد. آرابیدوپسیس تالیانا (Arabidopsis thaliana) یک گیاه گل‌دار کوچک و بومی اروپا، آسیا و شمال‌غربی آفریقا است.این گیاه، نخستین گیاهی است که نقشه ژنی آن توالی‌یابی شد. آرابیدوپسیس تالیانا، یک جاندار مدل محبوب و شناخته‌شده‌ است که در پژوهش‌های گیاه‌شناسی، زیست‌شناسی مولکولی و ژنتیک، دارای اهمیت بالایی است. برای پیش‌آموزش مدل زبانی مبتنی بر شبکه عصبی کانولوشن، محققان از ژنوم‌های غیرهمتراز از آرابیدوپسیس تالیانا (A.thaliana) و هفت گونه براسیکالز مرتبط با استفاده از کاتالوگ AraGWAS برای مرجع استفاده کردند. این رویکرد برای پیش‌بینی نوکلئوتیدهای پوشانده شده بر اساس زمینه ژنتیکی آن‌ها استفاده شد. دانشمندان میانگین تعبیه‌های متنی GPN 512 بعد از نوکلئوتیدها را در بیش از 100 جفت باز (bp) پنجره از ژنوم مرجع محاسبه کردند. آن‌ها را با استفاده از تقریب و طرح ریزی منیفولد یکنواخت (UMAP) برای اندازه گیری میزان درک مدل سازمان ژنومی نشان دادند. یک طبقه‌ بندی رگرسیون لجستیک با استفاده از تعبیه‌های متوسط به عنوان ویژگی‌هایی برای اندازه‌گیری ظرفیت GPN برای تمایز مناطق ژنومی ساخته شد. با توجه به زمینه، هر مکان ژنومی‌به طور جداگانه پوشانده شد، همانطور که توزیع خروجی مدل بر روی نوکلئوتیدها بود. آرم‌های دنباله‌ای تولید شدند که می‌توان آن را در مرورگر ژنوم دانشگاه کالیفرنیا سانتا کروز (UCSC) مشاهده کرد تا استفاده از این توزیع‌های پیش‌بینی‌شده آسان‌تر شود. نمرات GPN برای جهش زایی سیلیکونی SNP‌ها در یک منطقه 1.0 مگابایتی محاسبه شد و یافته‌ها در انواع مختلف به طور میانگین محاسبه شدند. متعاقبا، محققان بیش از 10 میلیون پلی‌مورفیسم تک نوکلئوتیدی (SNPs) را از پروژه‌های 1001 ژنوم طبیعی برای تخمین توانایی GPN برای پیش‌بینی تأثیر عملکردی گونه‌های ژنتیکی در A.thaliana مورد بررسی قرار دادند. کدهایی برای آموزش مدل GPN برای هر گونه معین تنها بر اساس توالی اسید دئوکسی ریبونوکلئیک آن ارائه شد، که امکان برآورد بدون نظارت اثرات تغییرات در کل ژنوم را فراهم می‌کند. محققان غنی‌سازی واریانت‌های ژنتیکی غیرمعمول و رایج را در دم توزیع‌های امتیاز در سطح ژنوم تجزیه و تحلیل کردند تا توانایی‌های یافتن تغییرات عملکردی بالقوه را ارزیابی کنند.

نتایج

مدل GPN که بدون نظارت آموزش داده شد، به طور موثر ساختار ژن و الگوهای DNA را در آرابیدوپسیس تالیانا، یک ارگانیسم مدل بیولوژی گیاهی که ارتباط نزدیکی با چندین گونه مرتبط کشاورزی دارد که می‌تواند برای ارائه بینش در مورد اختلالات انسانی مورد استفاده قرار گیرد، یاد گرفت. این رویکرد از روش‌های حفاظتی تثبیت ‌شده مانند pastCons و phyloP، بر اساس 18 گونه براسیکالز مرتبط که با توالی‌یابی کل ژنوم (WGS) هم‌تراز شده‌اند، بهتر عمل کرد. نمایش داخلی توالی‌های DNA مورد استفاده توسط GPN می‌تواند نواحی ژنومی مانند نواحی ترجمه‌ نشده (UTR)، اینترون‌ها و توالی‌های کدکننده را متمایز کند و اطمینان آن می‌تواند به کشف گرامر تنظیم‌کننده، مانند موتیف‌هایی که فاکتورهای رونویسی را متصل می‌کنند، کمک کند. GPN بهترین دقت را در توالی‌های کدکننده (CDS، 96%) و کمترین دقت را در اسید ریبونوکلئیک غیرکدکننده (ncRNA، 51%)، کمترین کلاس را داشت. این مدل می‌تواند مناطق ژنومی‌بین ژنی، اینترون‌ها، CDS، UTR و ncRNA را شناسایی کند. اطمینان پیش‌بینی مدل با عملکرد مورد انتظار سایت‌ها مرتبط بود و نقوش کدون شروع و توقف معمولاً به طور دقیق پیش‌بینی می‌شد. با استفاده از نسبت لاگ احتمال بین آلل‌های جایگزین و مرجع، GPN ممکن است امتیاز بیماری زایی یا عملکرد را برای هر SNP در ژنوم تعیین کند. طبقه‌بندی انواع مختلف بر اساس پایین‌ترین صدک نمرات GPN معمولاً با ایده‌های قبلی پذیرفته شده در مورد مضر بودن مطابقت داشت. هشت درصد و نه درصد از تغییرات تکراری به ترتیب قبل از دهک اول انواع بدمعنا در مدل‌های با کاهش وزن 0.0 و 0.1 رتبه‌بندی شدند. SNPهای عملکردی فرضی، که به عنوان کمترین 0.1درصد امتیازات GPN تعریف می‌شوند، در تغییرات غیر معمول 5.5 برابر غنی می‌شوند. GPN از تخصیص امتیازهای متفاوت قابل توجهی به گونه‌های ژنتیکی در عدم تعادل پیوند قوی (LD) با یکدیگر در صورت متفاوت بودن زمینه‌های اطراف آن‌ها برخوردار است. تکنیک GPN - LD به طور موثر مطالعات ارتباط در سراسر ژنوم را از موارد غیرضروری جدا می‌کند، به طوری که با پلی مورفیسم‌های تک نوکلئوتیدی با کم ترین یک درصد از امتیازات عدم تعادل ارتباط GPN که در حملات GWAS ۱۰ برابر غنی تر از آن‌هایی است که بیش ترین ۹۹.۰ درصد  از مقادیر عدم تعادل ارتباط GPN را دارند. با کمال تعجب، مدلی که با وزنه‌های متوسط روی تکرارها تمرین کرده بود بهترین عملکرد را داشت. هنگام ارزیابی کل مجموعه تغییرات، از جمله مکان‌هایی که با سایر براسیکالز مطابقت ندارند، تکنیک GPN-LD مقادیر نسبت شانس به‌طور قابل‌ توجهی بالاتری تولید کرد.

نتیجه گیری

بر اساس یافته‌های مطالعه، تکنیک پیش‌بینی واریانت گسترده ژنوم (GPN) به طور قابل اعتمادی اثرات واریانت گسترده ژنوم را تنها بر اساس توالی ژنومی پیش‌بینی می‌کند. برای همه گونه‌ها کاربرد دارد و ممکن است برای اصلاح نقشه‌های دقیق GWAS و امتیاز خطر چند ژنی استفاده شود. از آنجایی که GPN روی توالی‌های DNA آموزش دیده است، ممکن است برای گونه‌های غیرمدلی که کمتر مورد مطالعه قرار گرفته‌اند و فاقد داده‌های ژنومیک عملکردی جامع هستند، استفاده شود. این مدل از توزیع‌های نوکلئوتیدی مشترک در زمینه‌های مشابه در ژنوم به جای ترازهای کل ژنوم یاد می‌گیرد، که می‌تواند منجر به کیفیت غیرکدگذاری بدتر شود. پیش‌بینی‌های GPN در اطراف اتصالات اتصال ممکن است به شناسایی مکان‌های اتصال فاکتور اتصال کمک کند. مطالعات آینده می‌توانند تأثیر تکرارهای کاهش وزن را بر اساس خانواده یا سن ارزیابی کنند.

پایان مطلب./

ثبت امتیاز
نظرات
در حال حاضر هیچ نظری ثبت نشده است. شما می توانید اولین نفری باشید که نظر می دهید.
ارسال نظر جدید

تصویر امنیتی
کد امنیتی را وارد نمایید:

کلیدواژه
کلیدواژه