O OpenAI libera o conjunto de dados Healthbench para testar a IA em cuidados de saúde

revisado medicamente por Carmen Pope, Bpharm. Última atualização em 13 de maio de 2025.

Terça -feira, 13 de maio de 2025 - O OpenAI apresentou um grande conjunto de dados para ajudar a testar o quão bem os modelos de inteligência artificial (AI) respondem a perguntas sobre saúde.

Os especialistas chamam de grande passo à frente, mas também dizem que mais trabalho é necessário para garantir a segurança.

O conjunto de dados - chamado Healthbench - é o primeiro grande projeto independente de assistência médica da OpenAI. Inclui 5.000 "conversas realistas em saúde", cada uma com ferramentas detalhadas de classificação para avaliar as respostas da IA, informou o Stat News. A equipe de IA de saúde da empresa com sede em Francisco, disse. AGI é uma abreviação de inteligência geral artificial.

"Uma parte disso é construir e implantar tecnologia", disse Singhal. "Outra parte disso é garantir que aplicativos positivos, como os cuidados de saúde, tenham um lugar para florescer e que façamos o trabalho certo para garantir que os modelos sejam seguros e confiáveis nessas configurações."

O conjunto de dados foi criado com a ajuda de 262 médicos que trabalharam em 60 países. Eles forneceram mais de 57.000 critérios únicos para julgar como os modelos de IA respondem a perguntas de saúde.

HealthBench tem como objetivo corrigir um problema comum: comparar diferentes modelos de IA de maneira justa. href = "https://www.medstarhealth.org/innovation-and-research/medstar-health-research-institute/principal-investigators/raj-ratwani"> raj ratwani , um pesquisador de IA da saúde da Medstar Health, disse.

Os 5.000 exemplos no Healthbench foram feitos usando conversas sintetizadas projetadas por médicos.

O conjunto de dados também inclui um grupo especial de 1.000 exemplos difíceis, onde os modelos de IA lutaram. O OpenAI espera que este grupo "forneça um alvo digno para melhorias no modelo nos próximos meses", relatou o Stat News. O modelo O3 da OpenAI marcou o melhor, especialmente na qualidade da comunicação, informou o Stat News.

Mas os modelos tiveram um desempenho ruim em áreas como a conscientização e a integridade do contexto, disseram especialistas.

"Em contextos sensíveis, como a saúde, onde estamos discutindo a vida e a morte, esse nível de opacidade é inaceitável", explicou Hao.

“Pode ocultar erros compartilhados pelo modelo e pelo aluno”, girish nadkarni , chefe de inteligência artificial e saúde humana na escola da ICAHN MEDINA Para mais revisões para garantir que os modelos funcionem bem em diferentes países e entre diferentes dados demográficos.

"HealthBench melhora a avaliação da saúde da LLM, mas ainda precisa de análise de subgrupos e revisão humana mais ampla antes de suportar reivindicações de segurança", disse Nadkarni. tendências gerais e não se refere aos indivíduos. Fatores individuais podem variar muito. Sempre procure aconselhamento médico personalizado para decisões individuais de saúde.

Fonte: HealthDay

Postou : 2025-05-14 06:00

Consulte Mais informação

Isenção de responsabilidade

Todos os esforços foram feitos para garantir que as informações fornecidas por Drugslib.com sejam precisas, atualizadas -date e completo, mas nenhuma garantia é feita nesse sentido. As informações sobre medicamentos aqui contidas podem ser sensíveis ao tempo. As informações do Drugslib.com foram compiladas para uso por profissionais de saúde e consumidores nos Estados Unidos e, portanto, o Drugslib.com não garante que os usos fora dos Estados Unidos sejam apropriados, a menos que especificamente indicado de outra forma. As informações sobre medicamentos do Drugslib.com não endossam medicamentos, diagnosticam pacientes ou recomendam terapia. As informações sobre medicamentos do Drugslib.com são um recurso informativo projetado para ajudar os profissionais de saúde licenciados a cuidar de seus pacientes e/ou para atender os consumidores que veem este serviço como um complemento, e não um substituto, para a experiência, habilidade, conhecimento e julgamento dos cuidados de saúde. profissionais.

A ausência de uma advertência para um determinado medicamento ou combinação de medicamentos não deve de forma alguma ser interpretada como indicação de que o medicamento ou combinação de medicamentos é seguro, eficaz ou apropriado para qualquer paciente. Drugslib.com não assume qualquer responsabilidade por qualquer aspecto dos cuidados de saúde administrados com a ajuda das informações fornecidas por Drugslib.com. As informações aqui contidas não se destinam a cobrir todos os possíveis usos, instruções, precauções, advertências, interações medicamentosas, reações alérgicas ou efeitos adversos. Se você tiver dúvidas sobre os medicamentos que está tomando, consulte seu médico, enfermeiro ou farmacêutico.

O OpenAI libera o conjunto de dados Healthbench para testar a IA em cuidados de saúde

Consulte Mais informação

Isenção de responsabilidade

Palavras -chave populares