OpenAI publie un ensemble de données HealthBench pour tester l'IA dans les soins de santé

examiné médicalement par Carmen Pope, bpharm. Dernière mise à jour le 13 mai 2025.

Par I. Edwards Healthday Reporter

mardi 13 mai 2025 - OpenAI a dévoilé un grand ensemble de données pour aider à tester la façon dont les modèles d'intelligence artificielle (IA) répondent aux questions des soins de santé.

Les experts appellent cela un pas en avant majeur, mais ils disent également que plus de travail est nécessaire pour assurer la sécurité.

L'ensemble de données - appelé HealthBench - est le premier grand projet de soins de santé indépendant d'Openai. Il comprend 5 000 «conversations de santé réalistes», chacune avec des outils de classement détaillés pour évaluer les réponses de l'IA, STAT News rapportée.

«Notre mission en tant qu'Openai est de s'assurer qu'Agi est bénéfique pour l'humanité», Karan Singhal L'équipe de santé de la société basée à Francisco a déclaré. AGI est une raccourci pour l'intelligence générale artificielle.

"Une partie de cela est la technologie de construction et de déploiement", a déclaré Singhal. "Une autre partie de celle-ci est de garantir que des applications positives comme les soins de santé ont un endroit pour s'épanouir et que nous faisons le bon travail pour nous assurer que les modèles sont sûrs et fiables dans ces contextes."

L'ensemble de données a été créé avec l'aide de 262 médecins qui ont travaillé dans 60 pays. Ils ont fourni plus de 57 000 critères uniques pour juger de la façon dont les modèles d'IA répondent aux questions de santé.

HealthBench vise à résoudre un problème commun: comparer les différents modèles d'IA équitablement.

"Ce que Openai a fait, c'est qu'ils l'ont fourni de manière évolutive à partir d'une très grande marque réputée qui va permettre aux gens de l'utiliser très facilement", raj ratwani , un chercheur de la santé de l'AI chez Medstar Health.

Les 5 000 exemples de HealthBench ont été effectués à l'aide de conversations synthétisées conçues par les médecins.

"Nous voulions équilibrer les avantages de pouvoir publier les données avec, bien sûr, les contraintes de confidentialité de l'utilisation de données réalistes", a déclaré Singhal à Stat News.

L'ensemble de données comprend également un groupe spécial de 1 000 exemples difficiles où les modèles d'IA ont lutté. OpenAI espère que ce groupe "fournit une cible digne pour les améliorations du modèle pour les mois à venir", a déclaré Stat News.

OpenAI a également testé ses propres modèles ainsi que des modèles de Google, Meta, Anthropic et Xai. Le modèle O3 d'Openai a obtenu le meilleur score, en particulier dans la qualité de la communication, a rapporté Stat News.

Mais les modèles ont mal fonctionné dans des domaines tels que la conscience du contexte et l'exhaustivité, ont déclaré les experts.

Certains ont averti d'Openai classant ses propres modèles.

"Dans des contextes sensibles comme les soins de santé, où nous discutons de la vie et de la mort, ce niveau d'opacité est inacceptable", a expliqué Hao.

D'autres ont noté que l'IA elle-même était utilisée pour noter certaines des réponses, ce qui pourrait entraîner l'opinion des erreurs.

Il "peut masquer les erreurs partagées par modèle et à gradue Pour plus d'examens pour s'assurer que les modèles fonctionnent bien dans différents pays et entre les différentes données démographiques.

«HealthBench améliore l'évaluation des soins de santé LLM mais a encore besoin d'une analyse des sous-groupes et d'un examen humain plus large avant de pouvoir soutenir les réclamations de sécurité», a déclaré Nadkarni.

Sources

  • State News, 12 mai 2025
  • dishumat tendances et ne concernent pas les individus. Les facteurs individuels peuvent varier considérablement. Recherchez toujours des conseils médicaux personnalisés pour les décisions de santé individuelles.

    Source: Healthday

    En savoir plus

    Avis de non-responsabilité

    Tous les efforts ont été déployés pour garantir que les informations fournies par Drugslib.com sont exactes, jusqu'à -date et complète, mais aucune garantie n'est donnée à cet effet. Les informations sur les médicaments contenues dans ce document peuvent être sensibles au facteur temps. Les informations de Drugslib.com ont été compilées pour être utilisées par des professionnels de la santé et des consommateurs aux États-Unis et, par conséquent, Drugslib.com ne garantit pas que les utilisations en dehors des États-Unis sont appropriées, sauf indication contraire spécifique. Les informations sur les médicaments de Drugslib.com ne cautionnent pas les médicaments, ne diagnostiquent pas les patients et ne recommandent pas de thérapie. Les informations sur les médicaments de Drugslib.com sont une ressource d'information conçue pour aider les professionnels de la santé agréés à prendre soin de leurs patients et/ou pour servir les consommateurs qui considèrent ce service comme un complément et non un substitut à l'expertise, aux compétences, aux connaissances et au jugement des soins de santé. praticiens.

    L'absence d'avertissement pour un médicament ou une combinaison de médicaments donné ne doit en aucun cas être interprétée comme indiquant que le médicament ou la combinaison de médicaments est sûr, efficace ou approprié pour un patient donné. Drugslib.com n'assume aucune responsabilité pour aucun aspect des soins de santé administrés à l'aide des informations fournies par Drugslib.com. Les informations contenues dans le présent document ne sont pas destinées à couvrir toutes les utilisations, instructions, précautions, avertissements, interactions médicamenteuses, réactions allergiques ou effets indésirables possibles. Si vous avez des questions sur les médicaments que vous prenez, consultez votre médecin, votre infirmière ou votre pharmacien.

    Mots-clés populaires