تقوم Openai بإطلاق مجموعة بيانات HealthBench لاختبار الذكاء الاصطناعي في الرعاية الصحية

مراجعته طبيا من قبل كارمن بوب ، bpharm. آخر تحديث في 13 مايو ، 2025.

بواسطة I. Edwards Healthday Reporter

الثلاثاء 13 مايو ، 2025 - كشفت Openai عن مجموعة بيانات كبيرة للمساعدة في اختبار مدى جودة النماذج للذكاء الاصطناعي (AI) على أسئلة الرعاية الصحية.

يطلق عليهم الخبراء خطوة كبيرة إلى الأمام ، لكنهم يقولون أيضًا أن هناك حاجة إلى مزيد من العمل لضمان السلامة.

مجموعة البيانات - التي تسمى HealthBench - هي أول مشروع رئيسي للرعاية الصحية المستقلة في Openai. ويشمل 5000 "محادثات صحية واقعية" ، ولكل منها أدوات تصنيف مفصلة لتقييم استجابات الذكاء الاصطناعي ، تم الإبلاغ عن أخبار الإحصائيات.

"مهمتنا مثل Openai هي التأكد من أن Agi مفيدة للبشرية" ،

"جزء واحد من ذلك هو بناء ونشر التكنولوجيا" ، قال سينغال. "جزء آخر منه هو ضمان أن تكون التطبيقات الإيجابية مثل الرعاية الصحية لها مكان للازدهار وأننا نقوم بالعمل الصحيح لضمان أن تكون النماذج آمنة وموثوقة في هذه الإعدادات."

تم إنشاء مجموعة البيانات بمساعدة من 262 طبيبًا عملوا في 60 دولة. لقد قدموا أكثر من 57000 معايير فريدة للحكم على مدى جودة نماذج الذكاء الاصطناعى تجيب على الأسئلة الصحية.

يهدف

HealthBench إلى حل مشكلة شائعة: مقارنة نماذج الذكاء الاصطناعى المختلفة بشكل عادل.

"ما فعله Openai هو أنها قدمت هذا بطريقة قابلة للتطوير من علامة تجارية كبيرة وسمعة تمكن الأشخاص من استخدام هذا بسهولة بالغة ،" Raj Ratwani ، باحث صحي في Medstar Health ،

تم إجراء 5000 أمثلة في HealthBench باستخدام محادثات توليف مصممة من قبل الأطباء.

.

تتضمن مجموعة البيانات أيضًا مجموعة خاصة من 1000 مثال صلب حيث ناضلت نماذج الذكاء الاصطناعى. يأمل Openai أن هذه المجموعة "توفر هدفًا يستحق لتحسين النماذج لعدة أشهر قادمة" ، كما تم الإبلاغ عن أخبار STAT.

قامت Openai أيضًا باختبار نماذجها الخاصة بالإضافة إلى نماذج من Google و Meta و Anthropic و Xai. ذكرت شركة STAT News أن نموذج Openai من O3 سجل الأفضل ، وخاصة في جودة الاتصالات.

لكن النماذج التي تم أداءها بشكل سيء في مجالات مثل الوعي بالسياق والاكتمال ، قال الخبراء.وأوضح هاو أن

"في السياقات الحساسة مثل الرعاية الصحية ، حيث نناقش الحياة والموت ، فإن هذا المستوى من العتامة أمر غير مقبول".

"قد تخفي الأخطاء التي يشاركها كل من النموذج والطلاء" ، girish nadkarni ، رئيس الذكاء الاصطناعي وصحة الإنسان في Mount Sinai. لمزيد من المراجعات لضمان عمل النماذج بشكل جيد في مختلف البلدان وبين التركيبة السكانية المختلفة.

"تقوم HealthBench بتحسين تقييم الرعاية الصحية LLM ولكن لا يزال يحتاج إلى تحليل فرعي للمجموعة الفرعية والمراجعة البشرية الأوسع قبل أن تتمكن من دعم مطالبات السلامة" ، قال Nadkarni.

المصادر

  • STAT News ، 12 مايو ، 2025
  • المصدر: HealthDay

    اقرأ أكثر

    إخلاء المسؤولية

    تم بذل كل جهد لضمان دقة المعلومات المقدمة من Drugslib.com، وتصل إلى -تاريخ، وكامل، ولكن لا يوجد ضمان بهذا المعنى. قد تكون المعلومات الدوائية الواردة هنا حساسة للوقت. تم تجميع معلومات موقع Drugslib.com للاستخدام من قبل ممارسي الرعاية الصحية والمستهلكين في الولايات المتحدة، وبالتالي لا يضمن موقع Drugslib.com أن الاستخدامات خارج الولايات المتحدة مناسبة، ما لم تتم الإشارة إلى خلاف ذلك على وجه التحديد. معلومات الأدوية الخاصة بموقع Drugslib.com لا تؤيد الأدوية أو تشخص المرضى أو توصي بالعلاج. معلومات الأدوية الخاصة بموقع Drugslib.com هي مورد معلوماتي مصمم لمساعدة ممارسي الرعاية الصحية المرخصين في رعاية مرضاهم و/أو لخدمة المستهلكين الذين ينظرون إلى هذه الخدمة كمكمل للخبرة والمهارة والمعرفة والحكم في مجال الرعاية الصحية وليس بديلاً عنها. الممارسين.

    لا ينبغي تفسير عدم وجود تحذير بشأن دواء معين أو مجموعة أدوية بأي حال من الأحوال على أنه يشير إلى أن الدواء أو مجموعة الأدوية آمنة أو فعالة أو مناسبة لأي مريض معين. لا يتحمل موقع Drugslib.com أي مسؤولية عن أي جانب من جوانب الرعاية الصحية التي يتم إدارتها بمساعدة المعلومات التي يوفرها موقع Drugslib.com. ليس المقصود من المعلومات الواردة هنا تغطية جميع الاستخدامات أو التوجيهات أو الاحتياطات أو التحذيرات أو التفاعلات الدوائية أو ردود الفعل التحسسية أو الآثار الضارة المحتملة. إذا كانت لديك أسئلة حول الأدوية التي تتناولها، استشر طبيبك أو الممرضة أو الصيدلي.

    كلمات رئيسية شعبية