أظهرت دراسة حديثة أجراها فريق بحثي بجامعة أكسفورد البريطانية أن نماذج الذكاء الاصطناعي المخصصة للقطاع الطبي، مثل “GPT-4” و”Command R+”، تكشف عن أداء ممتاز في بيئات الاختبار المختبرية، لكنها تواجه تحديات كبيرة عند استخدامها من قبل المرضى في تشخيص مشاكلهم الصحية بشكل مستقل.
في التجارب المعملية، سجل نموذج “GPT-4” دقة تصل إلى 95% عند توجيه أسئلة تشخيصية مضبوطة، إلا أن هذه النسبة تراجعت بشكل حاد إلى أقل من 35% حين اعتمد 1298 مشاركًا على هذه الأدوات لاتخاذ قرارات خاصة بصحتهم في سيناريوهات واقعية. اللافت أن المشاركين الذين لم يعززوا قراراتهم بالذكاء الاصطناعي حققوا معدل دقة أعلى بلغ 76%.
ركزت الدراسة على تقديم حالات طبية معقدة تتضمن علامات وأعراضًا محددة، وطلب من المشاركين، بالتعاون مع استشاريين طبيين، تحديد التشخيص وخطة العلاج الأنسب. وأظهرت النتائج أن كثيرين منهم لم يلتقطوا تفاصيل دقيقة، أو فسروا ردود الذكاء الاصطناعي بشكل خاطئ. في إحدى الحالات، حدث تشخيص خاطئ لعسر الهضم بدلاً من حصوات المرارة، بسبب غياب معلومات ذات أهمية قصوى في توصيل الحالة الصحية.
أبرزت الفجوة الكبيرة بين الأداء المتميز في ظروف الاختبار ونتائج الاستخدام الواقعي قصور تصميم هذه الأنظمة في التفاعل مع طبيعة تفكير المستخدمين تحت ضغوط اتخاذ القرار الصحي. وأكد الباحثون ضرورة تقييم هذه النماذج في سيناريوهات استخدام حقيقي مع المرضى قبل الاعتماد عليها كأدوات تشخيصية، محذرين من الخطورة المحتملة للاعتماد الحصري على نتائج الاختبارات المعملية وحدها.
تأتي هذه النتائج كتذكير مهم بضرورة الجمع بين القدرات التقنية والنظرة الإنسانية في تطوير تطبيقات الذكاء الاصطناعي الطبية لضمان تقديم فائدة حقيقية وآمنة للمستخدمين.