یادداشت
ارزیابی عملکرد هوش مصنوعی در مکالمات پزشکی
طراحی واقعیتر آزمایش برای ارزیابی مهارتهای ارتباطی بالینی هوش مصنوعی در دست اجرا است.
امتیاز:
به گزارش پایگاه اطلاع رسانی بنیان، ادغام مدلهای زبان بزرگ (LLM) در تشخیصهای بالینی پتانسیل تغییر تعاملات پزشک و بیمار را دارد. محققان چارچوب ارزیابی جدیدی طراحی کردهاند تا بهطور موثرتری توانایی مدلهای هوش مصنوعی در اتخاذ تصمیمات بالینی را در سناریوهایی شبیهسازیشده با تعاملات واقعی بیماران ارزیابی کنند. این تحلیل نشان میدهد که مدلهای زبان بزرگ در پاسخ به سوالات آزمون پزشکی عملکرد خوبی دارند، اما در تحلیل یادداشتهای مکالمهای ضعیفتر عمل میکنند.
بررسی عملکرد ابزارهای هوش مصنوعی
ابزارهای هوش مصنوعی مانند ChatGPT به دلیل قابلیتهایی که برای کاهش بار کاری پزشکان از جمله ارزیابی بیماران، گرفتن تاریخچه پزشکی و حتی ارائه تشخیصهای اولیه دارند، معرفی شدهاند. این ابزارها که مدلهای زبان بزرگ نامیده میشوند، هماکنون توسط بیماران برای درک علائم و نتایج آزمایشهای پزشکی خود استفاده میشوند. اما در حالی که این مدلها در آزمونهای استاندارد پزشکی عملکرد چشمگیری دارند، چگونه در موقعیتهایی که به دنیای واقعی نزدیکتر هستند عمل میکنند؟ پاسخ به این سوال، طبق یافتههای یک مطالعه جدید که توسط محققان دانشگاههای هاروارد و استنفورد انجام شده، چندان مطلوب نیست. برای این تحلیل، که در 2 ژانویه در Nature Medicine منتشر شد، محققان چارچوب ارزیابی جدیدی به نام CRAFT-MD (چارچوب ارزیابی استدلال مکالمهای برای آزمایش در پزشکی) طراحی کرده و آن را روی چهار مدل زبان بزرگ پیادهسازی کردند تا بررسی کنند که این مدلها در محیطهایی که بیشتر شبیه به تعاملات واقعی با بیماران است، چگونه عمل میکنند. تمامی چهار مدل زبان بزرگ در پاسخ به سوالات استاندارد آزمونهای پزشکی عملکرد خوبی داشتند، اما عملکرد آنها زمانی که در مکالمات واقعیتر که شبیه به تعاملات دنیای واقعی هستند، قرار گرفتند، کاهش یافت. این شکاف، به گفته محققان، نیاز به دو نکته مهم را نشان میدهد: اول، نیاز به طراحی ارزیابیهای واقعیتر که بهتر میزان تناسب مدلهای هوش مصنوعی را برای استفاده در دنیای واقعی ارزیابی کنند و دوم، بهبود توانایی این ابزارها برای تشخیص بیماریها بر اساس تعاملات واقعیتر پیش از بهکارگیری آنها در مطب. چارچوبهای ارزیابی مانند CRAFT-MD، به گفته تیم تحقیقاتی، نه تنها میتوانند ارزیابی دقیقتری از تناسب مدلهای هوش مصنوعی برای دنیای واقعی داشته باشند، بلکه میتوانند به بهینهسازی عملکرد آنها در محیطهای بالینی کمک کنند. کار ما پارادوکس جالبی را نشان میدهد، در حالی که این مدلهای هوش مصنوعی در آزمونهای پزشکی عملکرد خوبی دارند، در مواجهه با مکالمات ساده یک ویزیت پزشک مشکل دارند"، نیاز به پرسیدن سوالات صحیح در زمان مناسب، جمعآوری اطلاعات پراکنده و استدلال در مورد علائم — چالشهایی خاص به همراه دارد که فراتر از پاسخ دادن به سوالات چندگزینهای است. وقتی از آزمونهای استاندارد به این مکالمات طبیعی تغییر میدهیم، حتی پیشرفتهترین مدلهای هوش مصنوعی دچار افت قابل توجهی در دقت تشخیص میشوند."
بررسی عملکرد هوش مصنوعی در دنیای واقعی
در حال حاضر، توسعهدهندگان عملکرد مدلهای هوش مصنوعی را با استفاده از سوالات چندگزینهای پزشکی ارزیابی میکنند که معمولاً از آزمونهای ملی برای فارغالتحصیلان دانشکدههای پزشکی یا از آزمونهای پزشکی که به پزشکان مقیم داده میشود، گرفته میشود. این رویکرد فرض میکند که تمام اطلاعات مرتبط بهطور واضح و مختصر ارائه میشود، اغلب با اصطلاحات پزشکی یا کلمات کلیدی که فرایند تشخیص را ساده میکنند، اما در دنیای واقعی، این فرایند بسیار آشفتهتر است"، گفت شریا جوهری، نویسنده همکار این مطالعه و دانشجوی دکتری در آزمایشگاه راجپورکار در دانشگاه هاروارد. "ما به یک چارچوب آزمایشی نیاز داریم که واقعیت را بهتر منعکس کند و بنابراین بهتر پیشبینی کند که یک مدل چگونه در دنیای واقعی عمل خواهد کرد."
CRAFT-MD به عنوان یک معیار واقعگرایانه
CRAFT-MD نحوه عملکرد مدلهای زبان بزرگ در جمعآوری اطلاعات درباره علائم، داروها و تاریخچه خانوادگی و سپس ارائه تشخیص را ارزیابی میکند. یک عامل هوش مصنوعی بهعنوان بیمار ایفای نقش کرده و در قالبی مکالمهای و طبیعی به سوالات پاسخ میدهد. یک عامل هوش مصنوعی دیگر دقت تشخیص نهایی مدل را ارزیابی میکند. سپس کارشناسان انسانی نتایج هر تعامل را از نظر توانایی در جمعآوری اطلاعات مرتبط از بیمار، دقت تشخیصی در مواجهه با اطلاعات پراکنده و پایبندی به دستورات ارزیابی میکنند. محققان از CRAFT-MD برای آزمایش چهار مدل هوش مصنوعی شامل مدلهای تجاری و منبعباز استفاده کردند که عملکرد آنها را در 2000 سناریو بالینی شامل شرایط رایج در مراقبتهای اولیه و 12 تخصص پزشکی مختلف مورد بررسی قرار دادند. تمامی مدلها دارای محدودیتهایی بودند، بهویژه در توانایی انجام مکالمات بالینی و استدلال بر اساس اطلاعاتی که از بیماران دریافت کرده بودند. این مسائل موجب اختلال در جمعآوری تاریخچه پزشکی و ارائه تشخیصهای مناسب شد. برای مثال، مدلها اغلب در پرسیدن سوالات درست برای جمعآوری تاریخچه بیمار دچار مشکل میشدند، اطلاعات حیاتی را در حین جمعآوری تاریخچه از دست میدادند و در ترکیب اطلاعات پراکنده دچار مشکل میشدند. دقت این مدلها زمانی که با اطلاعات باز و غیر ساختارمند مواجه میشدند نسبت به زمانی که با پاسخهای چندگزینهای مواجه میشدند کاهش مییافت. همچنین، این مدلها هنگام مشارکت در مکالمات طولانی و پیاپی مشابه مکالمات دنیای واقعی بدتر از زمانی که در مکالمات خلاصهشده قرار میگرفتند عمل میکردند.
پیشنهادات برای بهینهسازی عملکرد هوش مصنوعی
پیشنهادات برای بهینهسازی عملکرد هوش مصنوعی در دنیای واقعی بر اساس این یافتهها، تیم تحقیقاتی مجموعهای از پیشنهادات برای توسعهدهندگان مدلهای هوش مصنوعی و ناظران در ارزیابی و تأیید این ابزارها ارائه کرده است:1. استفاده از سوالات باز و مکالمهای که بهطور دقیقتر تعاملات پزشک-بیمار بدون ساختار را شبیهسازی کنند. 2. ارزیابی مدلها برای توانایی در پرسیدن سوالات صحیح و استخراج اطلاعات اساسی.3. طراحی مدلها برای پیگیری مکالمات متعدد و ادغام اطلاعات از آنها.4. طراحی مدلهای هوش مصنوعی قادر به ترکیب دادههای متنی (یادداشتهای مکالمات) با دادههای غیرمتنی (5. طراحی مدلهای هوش مصنوعی پیچیدهتر که قادر به تفسیر نشانههای غیرکلامی مانند حالات صورت، لحن صدا و زبان بدن باشند. علاوه بر این، محققان پیشنهاد کردند که ارزیابیها شامل هر دو عامل هوش مصنوعی و کارشناسان انسانی باشد، زیرا تکیه صرف بر کارشناسان انسانی زمانبر و پرهزینه است. برای مثال، CRAFT-MD بهطور قابل توجهی سریعتر از ارزیابیهای انسانی عمل میکند و میتواند 10,000 مکالمه را در 48 تا 72 ساعت پردازش کند، در حالی که ارزیابیهای انسانی به استخدام گسترده و حدود 500 ساعت زمان برای شبیهسازی بیمار نیاز دارند. محققان همچنین اعلام کردند که انتظار دارند CRAFT-MD بهطور دورهای بهروزرسانی و بهینهسازی شود تا مدلهای بهبود یافته بیمار-هوش مصنوعی را در بر گیرد.
"به عنوان یک پزشک-دانشمند، من به مدلهای هوش مصنوعی علاقهمندم که بتوانند بهطور موثر و اخلاقی در عمل بالینی کمک کنند". زیرا چارچوبی ایجاد میکند که به تعاملات واقعیتر نزدیکتر است و به همین دلیل به پیشرفت این حوزه در زمینه آزمایش عملکرد مدلهای هوش مصنوعی در مراقبتهای بهداشتی کمک میکند."
پایان مطلب/.