Operai publica el conjunto de datos de HealthBench para evaluar la IA en atención médica
por I. Edwards Healthday Reporter
Martes, 13 de mayo de 2025 - Openai ha presentado un gran conjunto de datos para ayudar a probar qué tan bien los modelos de inteligencia artificial (IA) responden preguntas de atención médica.
Los expertos lo llaman un gran paso adelante, pero también dicen que se necesita más trabajo para garantizar la seguridad.
El conjunto de datos, llamado HealthBench, es el primer proyecto de atención médica independiente de OpenAI. Incluye 5,000 "conversaciones de salud realistas", cada una con herramientas de clasificación detalladas para evaluar las respuestas de AI, informó Stat News.
"Nuestra misión como OpenAi es garantizar que AGI sea beneficioso para la humanidad", karan singhal , de los sanes>, de la cabeza de San San>, de la cabeza de los sanes>, de los sanes>, de los sanes>, de la cabeza de los sanes>, de los sanes>, de la cabeza "Una parte de eso es construir y desplegar tecnología", dijo Singhal. "Otra parte es garantizar que las aplicaciones positivas como la atención médica tengan un lugar para florecer y que hagamos el trabajo adecuado para garantizar que los modelos sean seguros y confiables en estos entornos". El conjunto de datos fue creado con la ayuda de 262 médicos que han trabajado en 60 países. Proporcionaron más de 57,000 criterios únicos para juzgar qué tan bien los modelos de IA responden preguntas de salud. HealthBench tiene como objetivo solucionar un problema común: comparar diferentes modelos de IA de manera justa. "Lo que OpenAi ha hecho es que lo han proporcionado de manera escalable desde una marca realmente grande y de buena reputación que permitirá a las personas usar esto muy fácilmente", raj ratwani , un investigador de AI de salud en Medstar Health, Los 5,000 ejemplos en HealthBench se realizaron utilizando conversaciones sintetizadas diseñadas por médicos. "Queríamos equilibrar los beneficios de poder liberar los datos con, por supuesto, las limitaciones de privacidad del uso de datos realistas", dijo Singhal a Stat News. El conjunto de datos también incluye un grupo especial de 1,000 ejemplos duros donde los modelos de IA luchaban. Operai espera que este grupo "proporcione un objetivo digno para las mejoras del modelo en los próximos meses", informó Stat News. Openai también probó sus propios modelos y modelos de Google, Meta, Anthrope y XAI. El modelo O3 de Openai obtuvo el mejor puntaje, especialmente en calidad de comunicación, informó Stat News. Pero los modelos se desempeñaron mal en áreas como la conciencia del contexto y la integridad, dijeron los expertos. Algunos advirtieron sobre la clasificación de OpenAi sus propios modelos. "En contextos sensibles como la atención médica, donde estamos discutiendo la vida y la muerte, ese nivel de opacidad es inaceptable", explicó Hao. Otros señalaron que la IA misma se usó para calificar algunas de las respuestas, lo que podría dar como resultado que los errores se pasen por alto. "puede ocultar errores compartidos por modelo y gradador", girish nadkarni , jefe de la inteligencia artificial y la salud humana en la escuela de icahn de la medicina en Mount Sinai en Nueva York, contó la estadística de la estadística. Para obtener más revisiones para garantizar que los modelos funcionen bien en diferentes países y entre diferentes datos demográficos. "HealthBench mejora la evaluación de la salud de LLM, pero aún necesita un análisis de subgrupos y una revisión humana más amplia antes de que pueda respaldar las reclamaciones de seguridad", dijo Nadkarni. Discusión: Fuente: Salud Day Al corriente : 2025-05-14 06:00 Se ha hecho todo lo posible para garantizar que la información proporcionada por Drugslib.com sea precisa, hasta -fecha y completa, pero no se ofrece ninguna garantía a tal efecto. La información sobre medicamentos contenida en este documento puede ser urgente. La información de Drugslib.com ha sido compilada para uso de profesionales de la salud y consumidores en los Estados Unidos y, por lo tanto, Drugslib.com no garantiza que los usos fuera de los Estados Unidos sean apropiados, a menos que se indique específicamente lo contrario. La información sobre medicamentos de Drugslib.com no respalda medicamentos, ni diagnostica a pacientes ni recomienda terapias. La información sobre medicamentos de Drugslib.com es un recurso informativo diseñado para ayudar a los profesionales de la salud autorizados a cuidar a sus pacientes y/o para servir a los consumidores que ven este servicio como un complemento y no un sustituto de la experiencia, habilidad, conocimiento y criterio de la atención médica. practicantes. La ausencia de una advertencia para un determinado medicamento o combinación de medicamentos de ninguna manera debe interpretarse como una indicación de que el medicamento o la combinación de medicamentos es seguro, eficaz o apropiado para un paciente determinado. Drugslib.com no asume ninguna responsabilidad por ningún aspecto de la atención médica administrada con la ayuda de la información que proporciona Drugslib.com. La información contenida en este documento no pretende cubrir todos los posibles usos, instrucciones, precauciones, advertencias, interacciones medicamentosas, reacciones alérgicas o efectos adversos. Si tiene preguntas sobre los medicamentos que está tomando, consulte con su médico, enfermera o farmacéutico. Sources
Leer más
Descargo de responsabilidad
Palabras clave populares