O OpenAI libera o conjunto de dados Healthbench para testar a IA em cuidados de saúde
Terça -feira, 13 de maio de 2025 - O OpenAI apresentou um grande conjunto de dados para ajudar a testar o quão bem os modelos de inteligência artificial (AI) respondem a perguntas sobre saúde.
Os especialistas chamam de grande passo à frente, mas também dizem que mais trabalho é necessário para garantir a segurança.
O conjunto de dados - chamado Healthbench - é o primeiro grande projeto independente de assistência médica da OpenAI. Inclui 5.000 "conversas realistas em saúde", cada uma com ferramentas detalhadas de classificação para avaliar as respostas da IA, informou o Stat News. A equipe de IA de saúde da empresa com sede em Francisco, disse. AGI é uma abreviação de inteligência geral artificial.
"Uma parte disso é construir e implantar tecnologia", disse Singhal. "Outra parte disso é garantir que aplicativos positivos, como os cuidados de saúde, tenham um lugar para florescer e que façamos o trabalho certo para garantir que os modelos sejam seguros e confiáveis nessas configurações."
O conjunto de dados foi criado com a ajuda de 262 médicos que trabalharam em 60 países. Eles forneceram mais de 57.000 critérios únicos para julgar como os modelos de IA respondem a perguntas de saúde.
HealthBench tem como objetivo corrigir um problema comum: comparar diferentes modelos de IA de maneira justa. href = "https://www.medstarhealth.org/innovation-and-research/medstar-health-research-institute/principal-investigators/raj-ratwani"> raj ratwani , um pesquisador de IA da saúde da Medstar Health, disse.
Os 5.000 exemplos no Healthbench foram feitos usando conversas sintetizadas projetadas por médicos.
O conjunto de dados também inclui um grupo especial de 1.000 exemplos difíceis, onde os modelos de IA lutaram. O OpenAI espera que este grupo "forneça um alvo digno para melhorias no modelo nos próximos meses", relatou o Stat News. O modelo O3 da OpenAI marcou o melhor, especialmente na qualidade da comunicação, informou o Stat News.
Mas os modelos tiveram um desempenho ruim em áreas como a conscientização e a integridade do contexto, disseram especialistas.
"Em contextos sensíveis, como a saúde, onde estamos discutindo a vida e a morte, esse nível de opacidade é inaceitável", explicou Hao.
“Pode ocultar erros compartilhados pelo modelo e pelo aluno”, girish nadkarni , chefe de inteligência artificial e saúde humana na escola da ICAHN MEDINA Para mais revisões para garantir que os modelos funcionem bem em diferentes países e entre diferentes dados demográficos.
"HealthBench melhora a avaliação da saúde da LLM, mas ainda precisa de análise de subgrupos e revisão humana mais ampla antes de suportar reivindicações de segurança", disse Nadkarni. tendências gerais e não se refere aos indivíduos. Fatores individuais podem variar muito. Sempre procure aconselhamento médico personalizado para decisões individuais de saúde.
Fonte: HealthDay
Postou : 2025-05-14 06:00
Consulte Mais informação

- O beijo pode passar o glúten? Novas descobertas para pacientes celíacos
- O uso de opióides ilícitos dos EUA pode ser 20 vezes maior do que o estimado anteriormente
- IA prevê a síndrome de desperdício em pacientes com câncer
- O teste de genes prevê problemas urinários da terapia de radiação de câncer de próstata
- O que você deve saber sobre a ALS, também conhecido como doença de Lou Gehrig
- Pacientes com síndrome de Down têm maior acidente vascular cerebral, risco de ataque cardíaco
Isenção de responsabilidade
Todos os esforços foram feitos para garantir que as informações fornecidas por Drugslib.com sejam precisas, atualizadas -date e completo, mas nenhuma garantia é feita nesse sentido. As informações sobre medicamentos aqui contidas podem ser sensíveis ao tempo. As informações do Drugslib.com foram compiladas para uso por profissionais de saúde e consumidores nos Estados Unidos e, portanto, o Drugslib.com não garante que os usos fora dos Estados Unidos sejam apropriados, a menos que especificamente indicado de outra forma. As informações sobre medicamentos do Drugslib.com não endossam medicamentos, diagnosticam pacientes ou recomendam terapia. As informações sobre medicamentos do Drugslib.com são um recurso informativo projetado para ajudar os profissionais de saúde licenciados a cuidar de seus pacientes e/ou para atender os consumidores que veem este serviço como um complemento, e não um substituto, para a experiência, habilidade, conhecimento e julgamento dos cuidados de saúde. profissionais.
A ausência de uma advertência para um determinado medicamento ou combinação de medicamentos não deve de forma alguma ser interpretada como indicação de que o medicamento ou combinação de medicamentos é seguro, eficaz ou apropriado para qualquer paciente. Drugslib.com não assume qualquer responsabilidade por qualquer aspecto dos cuidados de saúde administrados com a ajuda das informações fornecidas por Drugslib.com. As informações aqui contidas não se destinam a cobrir todos os possíveis usos, instruções, precauções, advertências, interações medicamentosas, reações alérgicas ou efeitos adversos. Se você tiver dúvidas sobre os medicamentos que está tomando, consulte seu médico, enfermeiro ou farmacêutico.
Palavras -chave populares
- metformin obat apa
- alahan panjang
- glimepiride obat apa
- takikardia adalah
- erau ernie
- pradiabetes
- besar88
- atrofi adalah
- kutu anjing
- trakeostomi
- mayzent pi
- enbrel auto injector not working
- enbrel interactions
- lenvima life expectancy
- leqvio pi
- what is lenvima
- lenvima pi
- empagliflozin-linagliptin
- encourage foundation for enbrel
- qulipta drug interactions