بررسی دقیق استفاده نادرست از ChatGPTدر مقالات

تاریخ انتشار: دوشنبه 06 آذر 1402

یادداشت

بررسی دقیق استفاده نادرست از ChatGPTدر مقالات

محققان می‌گویند ChatGPT داده‌های جعلی را برای حمایت از فرضیه‌های علمی تولید می‌کند.

امتیاز:

به گزارش پایگاه اطلاع رسانی بنیان، مدل هوش مصنوعی که ChatGPT را تقویت می‌کند می‌تواند مجموعه داده‌های علمی به طور سطحی قابل قبولی ایجاد کند. محققان از فناوری پشت ربات چت هوش مصنوعی (AI) ChatGPT برای ایجاد مجموعه‌ای از داده‌های آزمایش بالینی جعلی برای حمایت از یک ادعای علمی تایید نشده استفاده کرده اند. در مقاله ای که در JAMA Ophthalmology در 9 نوامبر منتشر شد، نویسندگان از GPT-4 - آخرین نسخه از مدل زبان بزرگی که ChatGPT بر روی آن اجرا می‌شود، استفاده کردند. مدلی که زبان برنامه نویسی پایتون را در خود جای داده و می‌تواند انجام تجزیه و تحلیل آماری و ایجاد تجسم داده‌ها، همچنین داده‌های تولید شده توسط هوش مصنوعی و نتایج دو روش جراحی را مقایسه کرده و به اشتباه نشان دهد که یک درمان بهتر از دیگری است. Giuseppe Giannaccare، نویسنده مقاله و جراح چشم در دانشگاه کالیاری در ایتالیا، می‌گوید: «هدف ما برجسته کردن این بود که در چند دقیقه، می‌توانید مجموعه داده‌ای ایجاد کنید که توسط داده‌های اصلی واقعی پشتیبانی نمی‌شود، و همچنین در مقابل یا در جهت دیگر در مقایسه با شواهد موجود است».

ChatGPT چیست

ChatGPT یک بات مکالمه است که توسط شرکت اوپن ای‌آی توسعه یافته‌است؛ گروه اوپن اِی‌آی برعکس نسخه‌های قبلی که با نام پردازش زبانی منتشر شده بود این بار ابزاری با نام بات مکالمه منتشر کرد. چت‌جی‌پی‌تی بر روی خانواده مدل زبانی جی‌پی‌تی ۳٫۵ و جی‌پی‌تی ۴ اوپن ای‌آی ساخته شده و با تکنیک‌های یادگیری نظارت شده و تقویتی به‌خوبی تنظیم شده‌است. چت‌جی‌پی‌تی به عنوان یک نمونه اولیه در ۳۰ نوامبر ۲۰۲۲ معرفی شد و به سرعت به دلیل پاسخ‌های دقیق و واضح خود در بسیاری از حوزه‌ها، توجه‌ها را به خود جلب کرد. چت‌جی‌پی‌تی به دلیل ظرفیت آن در ترکیب و تفسیر زبان طبیعی مشابه انسان، استفاده از آن محبوبیت پیدا کرده‌است. دقت واقعی نابرابر آن به عنوان یک اشکال مهم شناسایی شد. پس از عرضه چت‌جی‌پی‌تی، اوپن ای‌آی شرکت تولیدکننده این چت بات، ۲۹ میلیارد دلار ارزش‌گذاری شد.

نگرانی‌ها درخصوص توانایی هوش مصنوعی در ساخت داده‌

توانایی هوش مصنوعی در ساخت داده‌های قانع‌کننده به نگرانی محققان و سردبیران مجلات در مورد یکپارچگی تحقیق می‌افزاید. الیزابت بیک، میکروبیولوژیست و پژوهشگر مستقل می‌گوید: «این یک چیز بود که می‌توان از هوش مصنوعی مولد برای تولید متن‌هایی استفاده کرد که با استفاده از نرم‌افزار سرقت ادبی قابل شناسایی نباشند، اما ظرفیت ایجاد مجموعه‌های داده‌های جعلی اما واقعی سطح بعدی نگرانی است.» .زیرا با این روش ایجاد اندازه‌گیری‌های جعلی بر روی بیماران غیرموجود، پاسخ‌های جعلی به پرسش‌نامه‌ها یا تولید مجموعه‌ای از داده‌های بزرگ در آزمایش‌های حیوانی برای هر محقق یا گروهی از محققین بسیار آسان می‌شود.» زیرا درابتدا نویسندگان نتایج را به عنوان یک "پایگاه داده به ظاهر معتبر" توصیف می‌کنند. اما هنگامی که توسط متخصصان بررسی شد، داده‌ها در بررسی اصالت ناموفق بودند و این خود حاوی نشانه‌هایی مبنی بر ساختگی بودن داده بوده است.

مقایسه جراحی

نویسندگان از GPT-4 ADA خواستند تا مجموعه ای از داده‌ها در مورد افراد مبتلا به بیماری چشمی به نام قوز قرنیه ایجاد کند که باعث نازک شدن قرنیه می‌شود و می‌تواند منجر به اختلال در تمرکز و بینایی ضعیف شود. به همین سبب برای 15 تا 20 درصد از افراد مبتلا به این بیماری، درمان شامل پیوند قرنیه است که با استفاده از یکی از دو روش انجام می‌شود. روش اول، کراتوپلاستی نفوذی (PK)، شامل برداشتن تمام لایه‌های آسیب دیده قرنیه و جایگزینی آنها با بافت سالم اهداکننده است. روش دوم، کراتوپلاستی لایه‌ای عمیق قدامی (DALK)، تنها لایه جلویی قرنیه را جایگزین می‌کند و داخلی‌ترین لایه را دست نخورده باقی می‌گذارد.

چگونه ChatGPT و سایر ابزارهای هوش مصنوعی می‌توانند انتشار علمی را مختل کنند

نویسندگان به مدل زبان بزرگ دستور دادند تا داده‌هایی را برای حمایت از این نتیجه گیری که DALK نتایج بهتری نسبت به PK دارد، بسازد. برای انجام این کار، آنها از آن خواستند تا تفاوت آماری را در یک آزمایش تصویربرداری نشان دهد که شکل قرنیه را ارزیابی می‌کند و بی‌نظمی‌ها را تشخیص می‌دهد، و همچنین تفاوت در میزان دید شرکت‌کنندگان کارآزمایی قبل و بعد از عمل. سپس داده‌های ایجاد شده توسط هوش مصنوعی که شامل 160 شرکت‌کننده مرد و 140 شرکت‌کننده زن بود، نشان داد که افرادی که تحت DALK قرار گرفتند، هم در بینایی و هم در تست تصویربرداری نسبت به کسانی که PK داشتند، امتیاز بهتری کسب کردند، یافته‌ای که با آنچه آزمایش‌های بالینی واقعی نشان می‌دهد در تضاد است. در گزارشی در سال 2010 از یک کارآزمایی با 77 شرکت‌کننده، نتایج DALK تا 2 سال پس از جراحی مشابه نتایج PK بود. به نظر می‌رسد ایجاد مجموعه داده‌هایی که حداقل به صورت سطحی قابل قبول هستند، بسیار آسان است. جک ویلکینسون، متخصص آمار زیستی در دانشگاه منچستر، بریتانیا، می‌گوید: بنابراین، برای یک چشم آموزش ندیده، این مطمئناً مانند یک مجموعه داده واقعی به نظر می‌رسد. ویلکینسون، که به روش‌هایی برای تشخیص داده‌های غیر معتبر علاقه دارد، چندین مجموعه داده تولید شده توسط نسخه‌های قبلی مدل زبان بزرگ را مورد بررسی قرار داده است، که به گفته او فاقد عناصر قانع‌کننده در هنگام بررسی دقیق است، زیرا آنها برای به دست آوردن روابط واقعی بین متغیرها تلاش می‌کردند.

بررسی دقیق تر جعل داده توسط تیم خبری Nature

به درخواست تیم خبری Nature، ویلکینسون و همکارش Zewen Lu مجموعه داده‌های جعلی را با استفاده از یک پروتکل غربالگری که برای بررسی صحت طراحی شده بود، ارزیابی کردند. این عدم تطابق را در بسیاری از "شرکت کنندگان" بین جنسیت تعیین شده و جنسیتی که معمولاً از نام آنها انتظار می‌رود می‌توان آشکار کرد. علاوه بر این، هیچ ارتباطی بین اندازه‌گیری ظرفیت بینایی قبل و بعد از عمل و تست تصویربرداری چشم یافت نشد. ویلکینسون و لو همچنین توزیع اعداد را در برخی از ستون‌های مجموعه داده بررسی کردند تا الگوهای غیر تصادفی را بررسی کنند. در ادامه نیز مقادیر تصویربرداری از چشم این آزمایش را پشت سر گذاشتند، اما برخی از ارزش‌های سنی شرکت‌کنندگان به‌گونه‌ای دسته‌بندی شدند که در مجموعه داده‌های واقعی بسیار غیرعادی بود: تعداد نامتناسبی از شرکت‌کنندگان وجود داشت که مقادیر سنی آنها به 7 یا 8 سال ختم می‌شد.

ChatGPT وارد کلاس درس شده است: چگونه LLM ها می‌توانند آموزش را متحول کنند

نویسندگان مطالعه اذعان می‌کنند که مجموعه داده‌های آنها دارای نقص‌هایی است که با بررسی دقیق قابل شناسایی است. اما با این وجود، Giannaccare می‌گوید: «اگر خیلی سریع به مجموعه داده‌ها نگاه کنید، تشخیص منشأ غیرانسانی منبع داده دشوار است». Bernd Pulverer ، سردبیر EMBO Reports، موافق است که این موضوع باعث نگرانی است. او می‌گوید: «بررسی همتایان در واقعیت اغلب از تجزیه و تحلیل مجدد داده‌ها کوتاه می‌آید و بعید است که نقض یکپارچگی با استفاده از هوش مصنوعی را شناسایی کند.

در همین راستا برای راستای آزمایی، ویلکینسون یک پروژه مشترک را برای طراحی ابزارهای آماری و غیرآماری برای ارزیابی مطالعات بالقوه مشکل ساز رهبری می‌کند. همانطور که AI ممکن است بخشی از مشکل باشد، ممکن است راه حل‌های مبتنی بر هوش مصنوعی برای برخی از این مشکلات وجود داشته باشد. ممکن است بتوانیم برخی از این بررسی‌ها را خودکار کنیم.» اما او هشدار می‌دهد که پیشرفت در هوش مصنوعی مولد می‌تواند به زودی راه‌هایی را برای دور زدن این پروتکل‌ها ارائه دهد. پولورر موافق است: «اینها چیزهایی هستند که هوش مصنوعی می‌تواند به راحتی در برابر آنها مسلح شود، البته به محض اینکه مشخص شد غربالگری به دنبال چه چیزی است.»

پایان مطلب/.

لینک منبع سایر منابع سایر منابع سایر منابع