یادداشت
بررسی دقیق استفاده نادرست از ChatGPTدر مقالات
محققان میگویند ChatGPT دادههای جعلی را برای حمایت از فرضیههای علمی تولید میکند.
امتیاز:
به گزارش پایگاه اطلاع رسانی بنیان، مدل هوش مصنوعی که ChatGPT را تقویت میکند میتواند مجموعه دادههای علمی به طور سطحی قابل قبولی ایجاد کند. محققان از فناوری پشت ربات چت هوش مصنوعی (AI) ChatGPT برای ایجاد مجموعهای از دادههای آزمایش بالینی جعلی برای حمایت از یک ادعای علمی تایید نشده استفاده کرده اند. در مقاله ای که در JAMA Ophthalmology در 9 نوامبر منتشر شد، نویسندگان از GPT-4 - آخرین نسخه از مدل زبان بزرگی که ChatGPT بر روی آن اجرا میشود، استفاده کردند. مدلی که زبان برنامه نویسی پایتون را در خود جای داده و میتواند انجام تجزیه و تحلیل آماری و ایجاد تجسم دادهها، همچنین دادههای تولید شده توسط هوش مصنوعی و نتایج دو روش جراحی را مقایسه کرده و به اشتباه نشان دهد که یک درمان بهتر از دیگری است. Giuseppe Giannaccare، نویسنده مقاله و جراح چشم در دانشگاه کالیاری در ایتالیا، میگوید: «هدف ما برجسته کردن این بود که در چند دقیقه، میتوانید مجموعه دادهای ایجاد کنید که توسط دادههای اصلی واقعی پشتیبانی نمیشود، و همچنین در مقابل یا در جهت دیگر در مقایسه با شواهد موجود است».
ChatGPT چیست
ChatGPT یک بات مکالمه است که توسط شرکت اوپن ایآی توسعه یافتهاست؛ گروه اوپن اِیآی برعکس نسخههای قبلی که با نام پردازش زبانی منتشر شده بود این بار ابزاری با نام بات مکالمه منتشر کرد. چتجیپیتی بر روی خانواده مدل زبانی جیپیتی ۳٫۵ و جیپیتی ۴ اوپن ایآی ساخته شده و با تکنیکهای یادگیری نظارت شده و تقویتی بهخوبی تنظیم شدهاست. چتجیپیتی به عنوان یک نمونه اولیه در ۳۰ نوامبر ۲۰۲۲ معرفی شد و به سرعت به دلیل پاسخهای دقیق و واضح خود در بسیاری از حوزهها، توجهها را به خود جلب کرد. چتجیپیتی به دلیل ظرفیت آن در ترکیب و تفسیر زبان طبیعی مشابه انسان، استفاده از آن محبوبیت پیدا کردهاست. دقت واقعی نابرابر آن به عنوان یک اشکال مهم شناسایی شد. پس از عرضه چتجیپیتی، اوپن ایآی شرکت تولیدکننده این چت بات، ۲۹ میلیارد دلار ارزشگذاری شد.
نگرانیها درخصوص توانایی هوش مصنوعی در ساخت داده
توانایی هوش مصنوعی در ساخت دادههای قانعکننده به نگرانی محققان و سردبیران مجلات در مورد یکپارچگی تحقیق میافزاید. الیزابت بیک، میکروبیولوژیست و پژوهشگر مستقل میگوید: «این یک چیز بود که میتوان از هوش مصنوعی مولد برای تولید متنهایی استفاده کرد که با استفاده از نرمافزار سرقت ادبی قابل شناسایی نباشند، اما ظرفیت ایجاد مجموعههای دادههای جعلی اما واقعی سطح بعدی نگرانی است.» .زیرا با این روش ایجاد اندازهگیریهای جعلی بر روی بیماران غیرموجود، پاسخهای جعلی به پرسشنامهها یا تولید مجموعهای از دادههای بزرگ در آزمایشهای حیوانی برای هر محقق یا گروهی از محققین بسیار آسان میشود.» زیرا درابتدا نویسندگان نتایج را به عنوان یک "پایگاه داده به ظاهر معتبر" توصیف میکنند. اما هنگامی که توسط متخصصان بررسی شد، دادهها در بررسی اصالت ناموفق بودند و این خود حاوی نشانههایی مبنی بر ساختگی بودن داده بوده است.
مقایسه جراحی
نویسندگان از GPT-4 ADA خواستند تا مجموعه ای از دادهها در مورد افراد مبتلا به بیماری چشمی به نام قوز قرنیه ایجاد کند که باعث نازک شدن قرنیه میشود و میتواند منجر به اختلال در تمرکز و بینایی ضعیف شود. به همین سبب برای 15 تا 20 درصد از افراد مبتلا به این بیماری، درمان شامل پیوند قرنیه است که با استفاده از یکی از دو روش انجام میشود. روش اول، کراتوپلاستی نفوذی (PK)، شامل برداشتن تمام لایههای آسیب دیده قرنیه و جایگزینی آنها با بافت سالم اهداکننده است. روش دوم، کراتوپلاستی لایهای عمیق قدامی (DALK)، تنها لایه جلویی قرنیه را جایگزین میکند و داخلیترین لایه را دست نخورده باقی میگذارد.
چگونه ChatGPT و سایر ابزارهای هوش مصنوعی میتوانند انتشار علمی را مختل کنند
نویسندگان به مدل زبان بزرگ دستور دادند تا دادههایی را برای حمایت از این نتیجه گیری که DALK نتایج بهتری نسبت به PK دارد، بسازد. برای انجام این کار، آنها از آن خواستند تا تفاوت آماری را در یک آزمایش تصویربرداری نشان دهد که شکل قرنیه را ارزیابی میکند و بینظمیها را تشخیص میدهد، و همچنین تفاوت در میزان دید شرکتکنندگان کارآزمایی قبل و بعد از عمل. سپس دادههای ایجاد شده توسط هوش مصنوعی که شامل 160 شرکتکننده مرد و 140 شرکتکننده زن بود، نشان داد که افرادی که تحت DALK قرار گرفتند، هم در بینایی و هم در تست تصویربرداری نسبت به کسانی که PK داشتند، امتیاز بهتری کسب کردند، یافتهای که با آنچه آزمایشهای بالینی واقعی نشان میدهد در تضاد است. در گزارشی در سال 2010 از یک کارآزمایی با 77 شرکتکننده، نتایج DALK تا 2 سال پس از جراحی مشابه نتایج PK بود. به نظر میرسد ایجاد مجموعه دادههایی که حداقل به صورت سطحی قابل قبول هستند، بسیار آسان است. جک ویلکینسون، متخصص آمار زیستی در دانشگاه منچستر، بریتانیا، میگوید: بنابراین، برای یک چشم آموزش ندیده، این مطمئناً مانند یک مجموعه داده واقعی به نظر میرسد. ویلکینسون، که به روشهایی برای تشخیص دادههای غیر معتبر علاقه دارد، چندین مجموعه داده تولید شده توسط نسخههای قبلی مدل زبان بزرگ را مورد بررسی قرار داده است، که به گفته او فاقد عناصر قانعکننده در هنگام بررسی دقیق است، زیرا آنها برای به دست آوردن روابط واقعی بین متغیرها تلاش میکردند.
بررسی دقیق تر جعل داده توسط تیم خبری Nature
به درخواست تیم خبری Nature، ویلکینسون و همکارش Zewen Lu مجموعه دادههای جعلی را با استفاده از یک پروتکل غربالگری که برای بررسی صحت طراحی شده بود، ارزیابی کردند. این عدم تطابق را در بسیاری از "شرکت کنندگان" بین جنسیت تعیین شده و جنسیتی که معمولاً از نام آنها انتظار میرود میتوان آشکار کرد. علاوه بر این، هیچ ارتباطی بین اندازهگیری ظرفیت بینایی قبل و بعد از عمل و تست تصویربرداری چشم یافت نشد. ویلکینسون و لو همچنین توزیع اعداد را در برخی از ستونهای مجموعه داده بررسی کردند تا الگوهای غیر تصادفی را بررسی کنند. در ادامه نیز مقادیر تصویربرداری از چشم این آزمایش را پشت سر گذاشتند، اما برخی از ارزشهای سنی شرکتکنندگان بهگونهای دستهبندی شدند که در مجموعه دادههای واقعی بسیار غیرعادی بود: تعداد نامتناسبی از شرکتکنندگان وجود داشت که مقادیر سنی آنها به 7 یا 8 سال ختم میشد.
ChatGPT وارد کلاس درس شده است: چگونه LLM ها میتوانند آموزش را متحول کنند
نویسندگان مطالعه اذعان میکنند که مجموعه دادههای آنها دارای نقصهایی است که با بررسی دقیق قابل شناسایی است. اما با این وجود، Giannaccare میگوید: «اگر خیلی سریع به مجموعه دادهها نگاه کنید، تشخیص منشأ غیرانسانی منبع داده دشوار است». Bernd Pulverer ، سردبیر EMBO Reports، موافق است که این موضوع باعث نگرانی است. او میگوید: «بررسی همتایان در واقعیت اغلب از تجزیه و تحلیل مجدد دادهها کوتاه میآید و بعید است که نقض یکپارچگی با استفاده از هوش مصنوعی را شناسایی کند.
در همین راستا برای راستای آزمایی، ویلکینسون یک پروژه مشترک را برای طراحی ابزارهای آماری و غیرآماری برای ارزیابی مطالعات بالقوه مشکل ساز رهبری میکند. همانطور که AI ممکن است بخشی از مشکل باشد، ممکن است راه حلهای مبتنی بر هوش مصنوعی برای برخی از این مشکلات وجود داشته باشد. ممکن است بتوانیم برخی از این بررسیها را خودکار کنیم.» اما او هشدار میدهد که پیشرفت در هوش مصنوعی مولد میتواند به زودی راههایی را برای دور زدن این پروتکلها ارائه دهد. پولورر موافق است: «اینها چیزهایی هستند که هوش مصنوعی میتواند به راحتی در برابر آنها مسلح شود، البته به محض اینکه مشخص شد غربالگری به دنبال چه چیزی است.»
پایان مطلب/.