Openai rilascia il set di dati Healthbench per testare l'IA in assistenza sanitaria
di I. Edwards Healthday Reporter
Martedì 13 maggio 2025 - Openai ha svelato un ampio set di dati per aiutare a testare il modo in cui i modelli di intelligenza artificiale (AI) rispondono alle domande sanitarie.
Gli esperti lo chiamano un grande passo avanti, ma dicono anche che sono necessari più lavoro per garantire la sicurezza.
Il set di dati - chiamato Healthbench - è il primo grande progetto sanitario indipendente di Openai. Include 5.000 "conversazioni per la salute realistiche", ognuna con strumenti di classificazione dettagliati per valutare le risposte di intelligenza artificiale, riportate notizie su stat.
"La nostra missione come OpenAI è quella di garantire che l'AGI sia vantaggiosa per l'umanità" karan singhal
"Una parte di ciò è la costruzione e la distribuzione della tecnologia", ha detto Singhal. "Un'altra parte è garantire che applicazioni positive come l'assistenza sanitaria abbiano un posto dove prosperare e che facciamo il giusto lavoro per garantire che i modelli siano sicuri e affidabili in questi contesti."
Il set di dati è stato creato con l'aiuto di 262 medici che hanno lavorato in 60 paesi. Hanno fornito più di 57.000 criteri unici per giudicare come i modelli di intelligenza artificiale rispondono alle domande sulla salute.
Healthbench mira a risolvere un problema comune: confrontare i diversi modelli di intelligenza artificiale in modo equo.
"Ciò che OpenAI ha fatto è che lo hanno fornito in modo scalabile da un marchio davvero grande e affidabile che consentirà alle persone di usarlo molto facilmente", raj ratwani , un ricercatore di AI sanitario presso Medstar Health, ha detto.
I 5.000 esempi in Healthbench sono stati fatti utilizzando conversazioni sintetizzate progettate dai medici.
"Volevamo bilanciare i vantaggi di poter rilasciare i dati con, ovviamente, i vincoli sulla privacy dell'uso di dati realistici", ha detto Singhal a Stat News.
Il set di dati include anche un gruppo speciale di 1.000 esempi difficili in cui i modelli AI hanno lottato. Openi spera che questo gruppo "fornisca un obiettivo degno per i miglioramenti del modello per i mesi a venire", ha riferito Stat News.
Open ha anche testato i propri modelli e modelli di Google, Meta, Antropic e XAI. Il modello O3 di Openai ha ottenuto il meglio, soprattutto nella qualità della comunicazione, riportate Stat News.
Ma i modelli hanno funzionato male in aree come la consapevolezza del contesto e la completezza, hanno detto gli esperti.
Alcuni hanno avvertito sulla valutazione di Openai.
"In contesti sensibili come l'assistenza sanitaria, in cui stiamo discutendo della vita e della morte, quel livello di opacità è inaccettabile", ha spiegato Hao.
Altri hanno notato che l'IA stessa era usata per valutare alcune delle risposte, il che potrebbe comportare che gli errori vengano trascurati.
"può nascondere errori condivisi sia da modello che da elementare", Girish Nadkarni , capo dell'intelligenza artificiale e della salute umana presso la scuola Icahn di Mount Sinai a New York, ha detto a New York. Per ulteriori recensioni per garantire che i modelli funzionino bene in diversi paesi e tra diversi dati demografici.
"Healthbench migliora la valutazione di LLM Healthcare ma necessita ancora di analisi dei sottogruppi e una revisione umana più ampia prima di poter supportare le richieste di sicurezza", ha detto Nadkarni.
Fonti
Fonte: Healthday
Pubblicato : 2025-05-14 06:00
Per saperne di più

- Gli uomini peggiorano delle donne per 20 problemi di salute più importanti in tutto il mondo
- La camminata vivace riduce il rischio di disturbi del ritmo cardiaco
- I risultati ICOTROKINRA mostrano una significativa eliminazione della pelle in pazienti con cuoio capelluto difficile da trattare e psoriasi genitale
- RFK Jr. Criticato per il nuoto con nipoti nel torrente pieno di batteri
- L'idrossiurea ha sostenuto benefici clinici nei bambini con anemia falciforme
- Alimenti freschi e pronti ricorda i prodotti dopo un'epidemia di listeria
Disclaimer
È stato fatto ogni sforzo per garantire che le informazioni fornite da Drugslib.com siano accurate, aggiornate -datati e completi, ma non viene fornita alcuna garanzia in tal senso. Le informazioni sui farmaci qui contenute potrebbero essere sensibili al fattore tempo. Le informazioni su Drugslib.com sono state compilate per l'uso da parte di operatori sanitari e consumatori negli Stati Uniti e pertanto Drugslib.com non garantisce che l'uso al di fuori degli Stati Uniti sia appropriato, se non diversamente indicato. Le informazioni sui farmaci di Drugslib.com non sostengono farmaci, né diagnosticano pazienti né raccomandano terapie. Le informazioni sui farmaci di Drugslib.com sono una risorsa informativa progettata per assistere gli operatori sanitari autorizzati nella cura dei propri pazienti e/o per servire i consumatori che considerano questo servizio come un supplemento e non come un sostituto dell'esperienza, dell'abilità, della conoscenza e del giudizio dell'assistenza sanitaria professionisti.
L'assenza di un'avvertenza per un determinato farmaco o combinazione di farmaci non deve in alcun modo essere interpretata come indicazione che il farmaco o la combinazione di farmaci sia sicura, efficace o appropriata per un dato paziente. Drugslib.com non si assume alcuna responsabilità per qualsiasi aspetto dell'assistenza sanitaria amministrata con l'aiuto delle informazioni fornite da Drugslib.com. Le informazioni contenute nel presente documento non intendono coprire tutti i possibili usi, indicazioni, precauzioni, avvertenze, interazioni farmacologiche, reazioni allergiche o effetti avversi. Se hai domande sui farmaci che stai assumendo, consulta il tuo medico, infermiere o farmacista.
Parole chiave popolari
- metformin obat apa
- alahan panjang
- glimepiride obat apa
- takikardia adalah
- erau ernie
- pradiabetes
- besar88
- atrofi adalah
- kutu anjing
- trakeostomi
- mayzent pi
- enbrel auto injector not working
- enbrel interactions
- lenvima life expectancy
- leqvio pi
- what is lenvima
- lenvima pi
- empagliflozin-linagliptin
- encourage foundation for enbrel
- qulipta drug interactions