أحدث إصدار من ChatGPT ، ملف الذكاء الاصطناعي وجدت دراسة جديدة من جامعة تورنتو أن chatbot من OpenAI ذكي بما يكفي لاجتياز اختبار على غرار لوحة الأشعة.
أجاب GPT-4 ، الذي تم إطلاقه رسميًا في 13 مارس 2023 ، بشكل صحيح على 81٪ من 150 سؤال متعدد الخيارات في الامتحان.
على الرغم من الدقة العالية لبرنامج chatbot ، وجدت الدراسة – المنشورة في Radiology ، وهي مجلة لجمعية Radiological Society of North America (RSNA) – بعض الأخطاء المقلقة.
يقدم CHATGPT نصيحة طبية أفضل من الأطباء الحقيقيين في الدراسة العمياء: “سيكون هذا مدير ألعاب”
أوضح المؤلف الرئيسي راجيش بهايانا ، طبيب أشعة البطن و رئيس قسم التكنولوجيا في جامعة ميديكال للتصوير في تورونتو ، مستشفى تورنتو العام تورنتو كندافي تصريح لفوكس نيوز ديجيتال.

وجدت دراسة جديدة من جامعة تورنتو أن أحدث إصدار من ChatGPT ، روبوت محادثة الذكاء الاصطناعي من OpenAI ، ذكي بما يكفي لاجتياز اختبار على غرار لوحة الأشعة. (آي ستوك)
وتابعت قائلة: “ركزت معظم أبحاث الذكاء الاصطناعي في علم الأشعة على رؤية الكمبيوتر ، لكن نماذج اللغة مثل ChatGPT تقوم أساسًا بالخطوتين الثانية والثالثة (التفكير المتقدم ومهام اللغة)”.
“يوفر بحثنا نظرة ثاقبة لأداء ChatGPT في سياق الأشعة ، ويسلط الضوء على الإمكانات المذهلة لنماذج اللغة الكبيرة جنبًا إلى جنب مع القيود الحالية التي تجعلها غير موثوقة.”
دردشة لمقدمي الرعاية الصحية: هل يمكن للذكاء الاصطناعي أن يجعل عمل المحترفين أسهل؟
ابتكر الباحثون الأسئلة بطريقة عكست أسلوب ومحتوى وصعوبة امتحانات الكلية الملكية الكندية والبورد الأمريكي للأشعة ، بحسب مناقشة الدراسة في المجلة الطبية.
(نظرًا لأن ChatGPT لا يقبل الصور بعد ، فقد اقتصر الباحثون على الأسئلة النصية.)
ثم طُرحت الأسئلة على شخصين مختلفين إصدارات ChatGPT: GPT-3.5 وأحدث GPT-4.
“تحسن ملحوظ” في التفكير المتقدم
أجاب الإصدار GPT-3.5 من ChatGPT على 69٪ من الأسئلة بشكل صحيح (104 من 150) ، بالقرب من علامة النجاح البالغة 70٪ التي تستخدمها الكلية الملكية الكندية ، وفقًا لنتائج الدراسة.
لقد عانى أكثر من غيره مع الأسئلة التي تنطوي على “مهارات التفكير العليا” ، مثل وصف نتائج التصوير.

قال المؤلف الرئيسي لدراسة جديدة (غير مصور): “يقوم اختصاصي الأشعة بثلاثة أشياء عند تفسير الصور الطبية: البحث عن النتائج ، واستخدام المنطق المتقدم لفهم معنى النتائج ، ثم نقل هذه النتائج إلى المرضى والأطباء الآخرين”. ). (آي ستوك)
أما بالنسبة لـ GPT-4 ، فقد أجاب على 81٪ (121 من 150) من نفس الأسئلة بشكل صحيح – متجاوزًا عتبة النجاح البالغة 70٪.
كان أداء الإصدار الأحدث أفضل بكثير في الإجابة على أسئلة التفكير العليا.
قال بهايانا: “كان الغرض من الدراسة هو معرفة أداء ChatGPT في سياق الأشعة – سواء في التفكير المتقدم أو المعرفة الأساسية”.
أجاب GPT-4 على 81٪ من الأسئلة بشكل صحيح ، متجاوزًا عتبة النجاح البالغة 70٪.
وأضافت: “كان أداء GPT-4 جيدًا للغاية في كلا المجالين ، مما يدل على تحسين فهم سياق اللغة الخاصة بالأشعة – وهو أمر بالغ الأهمية لتمكين الأدوات الأكثر تقدمًا التي يمكن لأخصائيي الأشعة استخدامها لتكون أكثر فعالية وكفاءة”.
فوجئ الباحثون بـ “التحسن الملحوظ” لـ GPT-4 في التفكير المتقدم مقارنة بـ GPT-3.5.
قال بهايانا: “تسلط نتائجنا الضوء على الإمكانات المتزايدة لهذه النماذج في مجال الأشعة ، ولكن أيضًا في مجالات أخرى من الطب”.

قال المؤلف الرئيسي لدراسة جديدة: “تسلط نتائجنا الضوء على الإمكانات المتزايدة لهذه النماذج في علم الأشعة ، ولكن أيضًا في مجالات أخرى من الطب”. (نيلسون الميدا / وكالة الصحافة الفرنسية عبر غيتي إيماجز)
دكتور. هارفي كاسترو أ دالاس ، تكساس ومقرها طبيب طوارئ معتمد من مجلس الإدارة ومتحدث وطني حول الذكاء الاصطناعي في الرعاية الصحية ، لم يشارك في الدراسة ولكنه راجع النتائج.
وقال لـ Fox News Digital: “يمكن أن تُعزى القفزة في الأداء من GPT-3.5 إلى GPT-4 إلى مجموعة بيانات تدريب أكثر شمولاً وزيادة التركيز على تعلم التعزيز البشري”.
وأضاف: “هذا التدريب الموسع يمكّن GPT-4 من تفسير وفهم واستخدام المعرفة المضمنة بشكل أكثر فعالية”.
الدردشة والصحة: هل يستطيع برنامج الدردشة المدعوم بالذكاء الاصطناعي تغيير تجربة المريض؟
ومع ذلك ، أشار كاسترو إلى أن الحصول على درجة أعلى في اختبار معياري لا يعني بالضرورة فهمًا أكثر تعمقًا لموضوع طبي مثل الأشعة.
وقال “إنه يظهر أن GPT-4 أفضل في التعرف على الأنماط بناءً على الكمية الكبيرة من المعلومات التي تم التدريب عليها”.
مستقبل ChatGPT في الرعاية الصحية
كثير خبراء التكنولوجيا الصحيةبما في ذلك Bhayana ، نعتقد أن نماذج اللغة الكبيرة (LLMs) مثل GPT-4 ستغير الطريقة التي يتفاعل بها الناس مع التكنولوجيا بشكل عام – وبشكل أكثر تحديدًا في الطب.
وقالت لـ Fox News Digital: “لقد تم دمجهم بالفعل في محركات البحث مثل Google والسجلات الطبية الإلكترونية مثل Epic وبرامج الإملاء الطبي مثل Nuance”.
“ولكن هناك العديد من الاستخدامات المتقدمة لهذه الأدوات التي ستفعل ذلك تحويل الرعاية الصحية أبعد من ذلك.”

“يمكن أن تُعزى القفزة في الأداء من GPT-3.5 إلى GPT-4 إلى مجموعة بيانات تدريب أكثر شمولاً وزيادة التركيز على تعلم التعزيز البشري ،” د. قال هارفي كاسترو ، طبيب الطوارئ المعتمد من مجلس الإدارة والمتحدث الوطني حول الذكاء الاصطناعي في الرعاية الصحية ، لـ Fox News Digital. (جاكوب بورزيكي / نور فوتو)
في المستقبل ، يعتقد بهايانا أن هذه النماذج يمكن أن تجيب بدقة على أسئلة المرضى ، وتساعد الأطباء على إجراء التشخيصات وتوجيه قرارات العلاج.
دخلت قسم الأشعة وتوقعت أن LLMs يمكن أن تساعد في زيادة مهارات أطباء الأشعة وجعلهم أكثر كفاءة وفعالية.
وأضافت: “لم نصل إلى هذا الحد بعد – النماذج ليست موثوقة بما يكفي لاستخدامها في الممارسة السريرية – لكننا نتحرك بسرعة في الاتجاه الصحيح”.
حدود ChatGPT في الطب
قال كاسترو: ربما يكون أكبر قيود على LLMs في علم الأشعة هو عدم قدرتها على تفسير البيانات المرئية ، وهو جانب مهم من علم الأشعة.
نماذج اللغات الكبيرة (LLMs) مثل ChatGPT وأشار بهايانا إلى أنهم معروفون أيضًا بميلهم إلى “الهلوسة” ، أي عندما يقدمون معلومات غير دقيقة بطريقة تبدو واثقة.
“النماذج ليست موثوقة بعد بما يكفي لاستخدامها في الممارسة السريرية.”
وقالت: “انخفضت هذه الهلوسة في GPT-4 مقارنة بـ 3.5 ، لكنها لا تزال تحدث بشكل متكرر للغاية بحيث لا يمكن الاعتماد عليها في الممارسة السريرية”.
وأضاف بهايانا: “يجب أن يكون الأطباء والمرضى على دراية بنقاط القوة والقيود الخاصة بهذه النماذج ، بما في ذلك معرفة أنه لا يمكن الاعتماد عليها كمصدر وحيد للمعلومات في هذا الوقت”.

“يجب أن يكون الأطباء والمرضى على دراية بنقاط القوة والقيود الخاصة بهذه النماذج ، بما في ذلك معرفة أنه لا يمكن الاعتماد عليها كمصدر وحيد للمعلومات في هذا الوقت.” (فرانك رامبنهورست / تحالف الصور عبر Getty Images)
وافق كاسترو على أنه على الرغم من أن LLM قد يكون لديهم معرفة كافية لاجتياز الاختبارات ، إلا أنهم لا يستطيعون التنافس مع الأطباء البشريين عندما يتعلق الأمر بتحديد تشخيص المرضى ووضع خطط العلاج.
وقال: “الفحوصات الموحدة ، بما في ذلك تلك الخاصة بالأشعة ، تركز في الغالب على الحالات” الكتابية “.
“ولكن في الممارسة السريرية ، نادرًا ما يظهر على المرضى أعراض الكتب المدرسية.”
انقر هنا للحصول على تطبيق FOX NEWS
وقال كاسترو إن لكل مريض أعراض وتاريخ وعوامل شخصية فريدة قد تختلف عن الحالة “القياسية”.
“غالبًا ما يتطلب هذا التعقيد حكمًا دقيقًا واتخاذ قرارات دقيقة ، وهي قدرة يفتقر إليها الذكاء الاصطناعي حاليًا – بما في ذلك النماذج المتقدمة مثل GPT-4.”
انقر هنا للاشتراك في نشرتنا الإخبارية الصحية
في حين أن النتائج المحسّنة لـ GPT-4 واعدة ، قال كاسترو ، “هناك الكثير من العمل الذي يتعين القيام به لضمان أن أدوات الذكاء الاصطناعي دقيقة وآمنة وقيمة في سياق سريري حقيقي”.