بررسی آخرین پیشرفتها و چالشها در تکمیل فهرست ژنهای انسانی.
به گزارش پایگاه اطلاع رسانی بنیان، در یک بررسی اخیر که در نشریه Nature منتشر شد، گروهی از نویسندگان پیشرفتها و چالشهای یادداشت برداری ژنوم انسان، از جمله ژنهای کدکننده پروتئین، ایزوفرمها و اسیدهای ریبونوکلئیک غیر کدکننده (RNAs)را بررسی کردند و از یک استاندارد یادداشت برداری جهانی برای استفاده بالینی حمایت کردند.
پیش زمینه
پروژه ژنوم انسان که در سال ۱۹۹۰ آغاز شد، به دنبال نقشه برداری از اسید دئوکسی ریبونوکلئیک انسانی (DNA) و شناسایی تمام ژنها بود. اگرچه یک توالی کامل DNA به دست آمد، اما درک تفاوتهای ژنوم پیچیده بوده است. ژنوم در ابتدا به عنوان یک مخزن ژن در نظر گرفته میشد، و اکنون شبکه پیچیده ژنوم از رونوشتهای جایگزین، موجودیتهای غیر کدکننده پروتئین و عناصر تنظیمی، شناخته شده است. برخی از مولکولهای RNA حتی نقشهایی متفاوت از عملکرد اولیه خود دارند. تحقیقات بیشتری مورد نیاز است، زیرا درک کامل عملکردها و عناصر چند وجهی ژنوم همچنان یک چالش پیچیده است.
آشنایی با ژنهای کد کننده پروتئین
پروژه ژنوم انسانی که برای تجزیه و تحلیل DNA انسان راهاندازی شد، پیشرفت قابل توجهی در یادداشت برداری ژنهای کد کننده پروتئین داشته است. پایگاههای داده مانند GENCODE و پایگاه دادههای توالی مرجع (RefSeq) شواهدی برای ترجمه و عملکرد این ژنها ارائه میکنند. پیشرفتهایی مانند توالیهای ژنومی با کیفیت بالا از گونههای مختلف و دادههای طیفسنجی جرمی، اعتماد ما را به دقت بسیاری از ژنهای کدکننده پروتئین تقویت میکند.
تخمینهای در حال تحول در تعداد ژنها
پس از تعیین توالی DNA، ماموریت اصلی ثبت هر ژن کد کننده پروتئین با تخمین اولیه بین 50000 تا 100000 ژن بود. این تعداد امروز به تدریج به کمتر از 20000 کاهش یافت و برخی از پایگاههای داده حتی کمتر را نشان میدهند. پالایش مستمر در شمارش به پیشرفتهای تکنولوژیکی، بررسی دقیق و افزایش کیفیت داده نسبت داده میشود. همکاری که به عنوان Matched Annotation از NCBI و EMBL-EBI (MANE) شناخته میشود، در شفافسازی نقش مهمی داشته است، بهطوری که جدیدترین انتشار آن 19062 مکان ژنی را نشان میدهد.
جهتهای آینده برای یادداشت برداریژن
بهبود یادداشت برداریژن شامل بررسی رونوشتهای ژن، ساختارهای پروتئینی و مکانهای رونویسی است. چالشها از محدودیتهای توالییابی RNA و تغییرات ژنتیکی ناشی میشوند که شمارش دقیق ایزوفرم پروتئین را ناممکن میسازد. فراتر از شناسایی ژن، تمایز شبه ژنها - نسخههای ژن معیوب - مانع دیگری است. بیش از 14000 شبه ژن یادداشت برداری شده است که در منشأ و عملکرد آنها متفاوت است. با این حال، پیشرفتهای تکنولوژیکی اخیر نشان میدهد که برخی از آنها ممکن است کاربردی باشند و بر ماهیت ظریف تحقیقات ژنومیتأکید دارند.
مروری بر ژنهای غیر کد کننده RNA (ncRNA)
ژنهای ncRNA مولکولهای RNA رونویسی شده از DNA را در بر میگیرند که به پروتئین ترجمه نمیشوند، اما عملکردهای ضروری را در سلولها انجام میدهند. این ncRNA ها را میتوان به طور گسترده به ncRNAهای بلند (lncRNAs) با طول حداقل 200 نوکلئوتید و ncRNAهای کوتاهتر، از جمله microRNA ها، RNAهای هستهایی کوچک و غیره طبقه بندی کرد. مهمتر از همه، یک توالی RNA تنها در صورتی به عنوان یک ژن ncRNA در نظر گرفته میشود که عملکرد قابل تشخیصی را نشان دهد.
تعیین عملکرد و چالشها
در حالی که نقش ژنهای کدکننده پروتئین به آسانی قابل درک است، تعریف عملکرد lncRNAها به شواهد تجربی نیاز دارد که اغلب از مطالعاتی که این lncRNAها را مختل میکنند و فنوتیپهای مولکولی حاصل را مشاهده میکنند، به دست میآیند. با این حال، عملکرد تعیین در lncRNA ها به دلیل مکانیسمهای پیچیده و ارتباط آنها با رتروترانسپوزونها پیچیدهتر است. آزمایشهای RNA-seq با کارایی بالا در شناسایی ژنهای ncRNA بسیار مهم بودهاند، اما بسیاری از این ژنها فراوانی کم را نشان میدهند، که منجر به بحثهایی در مورد ارتباط عملکردی آنها در مقابل نویز رونویسی صرف میشود.
نقشهای ncRNA و چالشهای حاشیه نویسی
ncRNA ها عملکردهای مختلفی از جمله تنظیم ژن و ترمیم DNA را انجام میدهند. با این حال، دامنه کامل آنها به دلیل همپوشانی محدود پایگاه داده نامشخص است. یادداشت برداری از ncRNA ها به دلیل منابع داده محدود، انواع RNA نادیده گرفته شده و الگوهای بیان پیچیده آنها چالش برانگیز است.
محو کردن مرزها: کدگذاری در مقابل غیر کدگذاری
مرزهای بین RNAهای کد کننده و غیر کد کننده به طور فزایندهای محو میشوند. در حالی که برخی در ابتدا lncRNA را برای رمزگذاری پپتیدهای کوچک شناسایی کردند، برخی از ژنهای کدکننده پروتئین، ایزوفرمهای رونوشت غیرکدکننده را با عملکرد ثابت تولید میکنند. علاوه بر این، توالییابی RNA طولانی مدت نشان میدهد که بسیاری از ژنهای همسایه با رویدادهای رونویسی خواندنی به هم متصل میشوند و تعاریف سنتی ژن را به چالش میکشند.
به سمت یادداشت برداری عملکردی ncRNA ها
در حالی که ژنهای کدکننده پروتئین از شواهد کاربردی گسترده و روشهای محاسباتی پیشبینی سود میبرند، ncRNAها تا حد زیادی مبهم باقی میمانند. اهداف فعلی شامل مستندسازی شواهدی است که از حضور ncRNA پشتیبانی میکند، حتی اگر عملکرد آنها نامشخص باقی بماند. اگرچه بسیاری از ncRNA ها به طور خلاصه مورد مطالعه قرار گرفتهاند، سنجشهای عملکردی جامع برای تعداد فزاینده ncRNA ها مورد نیاز است. متأسفانه، نامگذاری برخی از ncRNA ها، اغلب بر اساس ژنهای کدکننده پروتئین مجاور، میتواند منجر به سوء تفاهم در مورد عملکرد واقعی آنها شود.
اهمیت پزشکی یادداشت برداریژن
یادداشت برداری از ژن برای تشخیص و درمان بیماریهای ژنتیکی بسیار مهم است، با فهرست کردن مدل وراثت مندلی آنلاین در انسان (OMIM48) که بیش از 5000 ژن مرتبط با اختلالات تک ژنی را مستند میکند. به عنوان مثال، پایگاه داده BRCA Exchange به تنهایی بیش از 34000 گونه در ژن BRCA1 را شناسایی میکند که 2228 نوع آن بیماری زا است. مدلهای دقیق ژن و رونوشت در یک محیط بالینی برای ارزیابی بیماریزایی انواع حیاتی هستند. اشتباهات در یادداشت برداری میتواند منجر به تشخیص اشتباه شود، مانند اگزونهای از دست رفته در Cyclin-Dependent Kinase-Like 5 (CDKL5) که منجر به تشخیص منفی کاذب شد.
استانداردهای یادداشت برداری بالینی
آزمایشگاههای بالینی اغلب از رونوشتهای RefSeq بهعنوان مرجعی برای گزارش انواع ژنهای مرتبط با بیماری، معمولاً بر اساس منابع موجود، استفاده میکنند. این رویکرد ناسازگار است و ممکن است نیازهای تشخیصی بالینی را به بهترین شکل نشان ندهد. هدف همکاری MANE این بود که با راهاندازی یک مرجع رونوشت جهانی برای هر ژن کدکننده پروتئین، به این موضوع رسیدگی کند. با این حال، نیاز مبرمی به گنجاندن یادداشت برداریهای مهم ncRNA و عناصر تنظیمی در MANE وجود دارد. علاوه بر این، استاندارد کردن توصیفهای گونههای ژنتیکی، نگاشت واضحتر به ژنومهای مرجع را تضمین میکند.
انتقال به منابع ژنومی جدید
ژنوم قدیمیتر hg19 (GRCh37) در سال 2014 توسط GRCh38 جایگزین شد. این نسخهها از نظر ساختار ژن و مختصات به طور قابل توجهی متفاوت هستند. توالی ژنوم انسانی T2T-CHM13 که اخیراً معرفی شده است، ثبات بیشتری در مختصات ژن ارائه میدهد. یک رویکرد امیدوارکننده شامل ایجاد یک پان ژنوم است که همه جمعیتهای انسانی را نشان میدهد و قوام را افزایش میدهد.
نوآوری در فن آوریهای تجزیه و تحلیل ژن
فنآوریهای نوآورانه، از جمله توالییابی طولانی مدت (مانند فناوریهای نانوپوره آکسفورد (ONT) و علوم زیستی اقیانوس آرام (PacBio)، برای یک فهرست ژنی جامع حیاتی هستند و بینش عمیقتری را در مورد عبارات ایزوفرم علیرغم میزان خطایشان ارائه میدهند. با پیشرفت این فناوریها، ایزوفرم رونوشت دقیق نقشه برداری در وضوح سلولی امکان پذیر میشود.علاوه بر این، توالی یابی پوشش بیشتری را برای RNAهای خاص فراهم میکند، که تحولی در مطالعه رونوشتهای با بیان کم، به ویژه lncRNA ها ایجاد میکند و درک ما از تنظیم ژن را افزایش میدهد.
پایان مطلب./