تاریخ انتشار: چهارشنبه 03 بهمن 1403
ارزیابی عملکرد هوش مصنوعی در مکالمات پزشکی
یادداشت

  ارزیابی عملکرد هوش مصنوعی در مکالمات پزشکی

طراحی واقعی‌تر آزمایش برای ارزیابی مهارت‌های ارتباطی بالینی هوش مصنوعی در دست اجرا است.
امتیاز: Article Rating

به گزارش پایگاه اطلاع رسانی بنیان، ادغام مدل‌های زبان بزرگ (LLM) در تشخیص‌های بالینی پتانسیل تغییر تعاملات پزشک و بیمار را دارد. محققان چارچوب ارزیابی جدیدی طراحی کرده‌اند تا به‌طور موثرتری توانایی مدل‌های هوش مصنوعی در اتخاذ تصمیمات بالینی را در سناریوهایی شبیه‌سازی‌شده با تعاملات واقعی بیماران ارزیابی کنند. این تحلیل نشان می‌دهد که مدل‌های زبان بزرگ در پاسخ به سوالات آزمون پزشکی عملکرد خوبی دارند، اما در تحلیل یادداشت‌های مکالمه‌ای ضعیف‌تر عمل می‌کنند.

بررسی عملکرد ابزارهای هوش مصنوعی

ابزارهای هوش مصنوعی مانند ChatGPT به دلیل قابلیت‌هایی که برای کاهش بار کاری پزشکان از جمله ارزیابی بیماران، گرفتن تاریخچه پزشکی و حتی ارائه تشخیص‌های اولیه دارند، معرفی شده‌اند. این ابزارها که مدل‌های زبان بزرگ نامیده می‌شوند، هم‌اکنون توسط بیماران برای درک علائم و نتایج آزمایش‌های پزشکی خود استفاده می‌شوند. اما در حالی که این مدل‌ها در آزمون‌های استاندارد پزشکی عملکرد چشمگیری دارند، چگونه در موقعیت‌هایی که به دنیای واقعی نزدیک‌تر هستند عمل می‌کنند؟ پاسخ به این سوال، طبق یافته‌های یک مطالعه جدید که توسط محققان دانشگاه‌های هاروارد و استنفورد انجام شده، چندان مطلوب نیست. برای این تحلیل، که در 2 ژانویه در Nature Medicine منتشر شد، محققان چارچوب ارزیابی جدیدی به نام CRAFT-MD (چارچوب ارزیابی استدلال مکالمه‌ای برای آزمایش در پزشکی) طراحی کرده و آن را روی چهار مدل زبان بزرگ پیاده‌سازی کردند تا بررسی کنند که این مدل‌ها در محیط‌هایی که بیشتر شبیه به تعاملات واقعی با بیماران است، چگونه عمل می‌کنند. تمامی چهار مدل زبان بزرگ در پاسخ به سوالات استاندارد آزمون‌های پزشکی عملکرد خوبی داشتند، اما عملکرد آن‌ها زمانی که در مکالمات واقعی‌تر که شبیه به تعاملات دنیای واقعی هستند، قرار گرفتند، کاهش یافت. این شکاف، به گفته محققان، نیاز به دو نکته مهم را نشان می‌دهد: اول، نیاز به طراحی ارزیابی‌های واقعی‌تر که بهتر میزان تناسب مدل‌های هوش مصنوعی را برای استفاده در دنیای واقعی ارزیابی کنند و دوم، بهبود توانایی این ابزارها برای تشخیص بیماری‌ها بر اساس تعاملات واقعی‌تر پیش از به‌کارگیری آن‌ها در مطب. چارچوب‌های ارزیابی مانند CRAFT-MD، به گفته تیم تحقیقاتی، نه تنها می‌توانند ارزیابی دقیق‌تری از تناسب مدل‌های هوش مصنوعی برای دنیای واقعی داشته باشند، بلکه می‌توانند به بهینه‌سازی عملکرد آن‌ها در محیط‌های بالینی کمک کنند. کار ما پارادوکس جالبی را نشان می‌دهد، در حالی که این مدل‌های هوش مصنوعی در آزمون‌های پزشکی عملکرد خوبی دارند، در مواجهه با مکالمات ساده یک ویزیت پزشک مشکل دارند"، نیاز به پرسیدن سوالات صحیح در زمان مناسب، جمع‌آوری اطلاعات پراکنده و استدلال در مورد علائم — چالش‌هایی خاص به همراه دارد که فراتر از پاسخ دادن به سوالات چندگزینه‌ای است. وقتی از آزمون‌های استاندارد به این مکالمات طبیعی تغییر می‌دهیم، حتی پیشرفته‌ترین مدل‌های هوش مصنوعی دچار افت قابل توجهی در دقت تشخیص می‌شوند."

بررسی عملکرد هوش مصنوعی در دنیای واقعی

در حال حاضر، توسعه‌دهندگان عملکرد مدل‌های هوش مصنوعی را با استفاده از سوالات چندگزینه‌ای پزشکی ارزیابی می‌کنند که معمولاً از آزمون‌های ملی برای فارغ‌التحصیلان دانشکده‌های پزشکی یا از آزمون‌های پزشکی که به پزشکان مقیم داده می‌شود، گرفته می‌شود. این رویکرد فرض می‌کند که تمام اطلاعات مرتبط به‌طور واضح و مختصر ارائه می‌شود، اغلب با اصطلاحات پزشکی یا کلمات کلیدی که فرایند تشخیص را ساده می‌کنند، اما در دنیای واقعی، این فرایند بسیار آشفته‌تر است"، گفت شریا جوهری، نویسنده همکار این مطالعه و دانشجوی دکتری در آزمایشگاه راجپورکار در دانشگاه هاروارد. "ما به یک چارچوب آزمایشی نیاز داریم که واقعیت را بهتر منعکس کند و بنابراین بهتر پیش‌بینی کند که یک مدل چگونه در دنیای واقعی عمل خواهد کرد."

CRAFT-MD به عنوان یک معیار واقع‌گرایانه

CRAFT-MD نحوه عملکرد مدل‌های زبان بزرگ در جمع‌آوری اطلاعات درباره علائم، داروها و تاریخچه خانوادگی و سپس ارائه تشخیص را ارزیابی می‌کند. یک عامل هوش مصنوعی به‌عنوان بیمار ایفای نقش کرده و در قالبی مکالمه‌ای و طبیعی به سوالات پاسخ می‌دهد. یک عامل هوش مصنوعی دیگر دقت تشخیص نهایی مدل را ارزیابی می‌کند. سپس کارشناسان انسانی نتایج هر تعامل را از نظر توانایی در جمع‌آوری اطلاعات مرتبط از بیمار، دقت تشخیصی در مواجهه با اطلاعات پراکنده و پایبندی به دستورات ارزیابی می‌کنند. محققان از CRAFT-MD برای آزمایش چهار مدل هوش مصنوعی شامل مدل‌های تجاری و منبع‌باز استفاده کردند که عملکرد آن‌ها را در 2000 سناریو بالینی شامل شرایط رایج در مراقبت‌های اولیه و 12 تخصص پزشکی مختلف مورد بررسی قرار دادند. تمامی مدل‌ها دارای محدودیت‌هایی بودند، به‌ویژه در توانایی انجام مکالمات بالینی و استدلال بر اساس اطلاعاتی که از بیماران دریافت کرده بودند. این مسائل موجب اختلال در جمع‌آوری تاریخچه پزشکی و ارائه تشخیص‌های مناسب شد. برای مثال، مدل‌ها اغلب در پرسیدن سوالات درست برای جمع‌آوری تاریخچه بیمار دچار مشکل می‌شدند، اطلاعات حیاتی را در حین جمع‌آوری تاریخچه از دست می‌دادند و در ترکیب اطلاعات پراکنده دچار مشکل می‌شدند. دقت این مدل‌ها زمانی که با اطلاعات باز و غیر ساختارمند مواجه می‌شدند نسبت به زمانی که با پاسخ‌های چندگزینه‌ای مواجه می‌شدند کاهش می‌یافت. همچنین، این مدل‌ها هنگام مشارکت در مکالمات طولانی و پیاپی مشابه مکالمات دنیای واقعی بدتر از زمانی که در مکالمات خلاصه‌شده قرار می‌گرفتند عمل می‌کردند.

پیشنهادات برای بهینه‌سازی عملکرد هوش مصنوعی

پیشنهادات برای بهینه‌سازی عملکرد هوش مصنوعی در دنیای واقعی بر اساس این یافته‌ها، تیم تحقیقاتی مجموعه‌ای از پیشنهادات برای توسعه‌دهندگان مدل‌های هوش مصنوعی و ناظران در ارزیابی و تأیید این ابزارها ارائه کرده است:1. استفاده از سوالات باز و مکالمه‌ای که به‌طور دقیق‌تر تعاملات پزشک-بیمار بدون ساختار را شبیه‌سازی کنند. 2. ارزیابی مدل‌ها برای توانایی در پرسیدن سوالات صحیح و استخراج اطلاعات اساسی.3. طراحی مدل‌ها برای پیگیری مکالمات متعدد و ادغام اطلاعات از آن‌ها.4. طراحی مدل‌های هوش مصنوعی قادر به ترکیب داده‌های متنی (یادداشت‌های مکالمات) با داده‌های غیرمتنی (5. طراحی مدل‌های هوش مصنوعی پیچیده‌تر که قادر به تفسیر نشانه‌های غیرکلامی مانند حالات صورت، لحن صدا و زبان بدن باشند. علاوه بر این، محققان پیشنهاد کردند که ارزیابی‌ها شامل هر دو عامل هوش مصنوعی و کارشناسان انسانی باشد، زیرا تکیه صرف بر کارشناسان انسانی زمان‌بر و پرهزینه است. برای مثال، CRAFT-MD به‌طور قابل توجهی سریع‌تر از ارزیابی‌های انسانی عمل می‌کند و می‌تواند 10,000 مکالمه را در 48 تا 72 ساعت پردازش کند، در حالی که ارزیابی‌های انسانی به استخدام گسترده و حدود 500 ساعت زمان برای شبیه‌سازی بیمار نیاز دارند. محققان همچنین اعلام کردند که انتظار دارند CRAFT-MD به‌طور دوره‌ای به‌روزرسانی و بهینه‌سازی شود تا مدل‌های بهبود یافته بیمار-هوش مصنوعی را در بر گیرد.

"به عنوان یک پزشک-دانشمند، من به مدل‌های هوش مصنوعی علاقه‌مندم که بتوانند به‌طور موثر و اخلاقی در عمل بالینی کمک کنند". زیرا چارچوبی ایجاد می‌کند که به تعاملات واقعی‌تر نزدیک‌تر است و به همین دلیل به پیشرفت این حوزه در زمینه آزمایش عملکرد مدل‌های هوش مصنوعی در مراقبت‌های بهداشتی کمک می‌کند."

پایان مطلب/.

 

ثبت امتیاز
نظرات
در حال حاضر هیچ نظری ثبت نشده است. شما می توانید اولین نفری باشید که نظر می دهید.
ارسال نظر جدید

تصویر امنیتی
کد امنیتی را وارد نمایید:

کلیدواژه
کلیدواژه
دسته‌بندی اخبار
دسته‌بندی اخبار
Skip Navigation Links.