OpenAI geeft een gegevensset van HealthBench vrij om AI in de gezondheidszorg te testen

medisch beoordeeld door Carmen Pope, bpharm. Laatst bijgewerkt op 13 mei 2025.

door I. Edwards HealthDay Reporter

Dinsdag 13 mei 2025 - Openai heeft een grote dataset onthuld om te testen hoe goed kunstmatige intelligentie (AI) modellen beantwoorden vragen over gezondheidszorg.

Experts noemen het een belangrijke stap vooruit, maar ze zeggen ook dat er meer werk nodig is om de veiligheid te waarborgen.

De dataset - HealthBench genaamd - is het eerste belangrijke onafhankelijke gezondheidszorgproject van Openai. Het bevat 5000 "realistische gezondheidsgesprekken", elk met gedetailleerde beoordelingsinstrumenten om AI -antwoorden te evalueren, STAT Nieuws gerapporteerd.

"Onze missie als openai is om ervoor te zorgen dat AGI gunstig is voor de mensheid,"

De dataset is gemaakt met hulp van 262 artsen die in 60 landen hebben gewerkt. Ze gaven meer dan 57.000 unieke criteria om te beoordelen hoe goed AI -modellen gezondheidsvragen beantwoorden.

HealthBench wil een gemeenschappelijk probleem oplossen: verschillende AI -modellen eerlijk vergelijken.

"Wat Openai heeft gedaan, is dat ze dit op een schaalbare manier hebben gegeven van een heel groot, gerenommeerd merk dat mensen in staat stelt dit heel gemakkelijk te gebruiken," raj ratwani , een gezondheidsonderzoeker bij Medstar Health, zei.

De 5.000 voorbeelden in Healthbench werden gemaakt met behulp van gesynthetiseerde gesprekken ontworpen door artsen.

“We wilden de voordelen in evenwicht brengen van het kunnen vrijgeven van de gegevens met, natuurlijk

, de voordelen van het kunnen in staat zijn om de gegevens te kunnen vrijgeven met de privacybeperkingen van het gebruik van realistische gegevens.

De dataset bevat ook een speciale groep van 1.000 harde voorbeelden waarbij AI -modellen worstelden. OpenAI hoopt dat deze groep 'een waardig doelwit biedt voor de komende maandenverbeteringen', heeft Stat News gerapporteerd.

Openai heeft ook zijn eigen modellen getest, evenals modellen van Google, Meta, Anthropic en XAI. Het O3 -model van Openai scoorde het beste, vooral in de communicatiekwaliteit, meldde Stat News.

Maar modellen presteerden slecht in gebieden zoals contextbewustzijn en volledigheid, zeiden experts.

Sommigen waarschuwden voor Openai die zijn eigen modellen beoordelen.

"In gevoelige contexten zoals gezondheidszorg, waar we leven en dood bespreken, is dat niveau van dekking onaanvaardbaar," legde Hao uit.

Anderen merkten op dat AI zelf werd gebruikt om enkele van de antwoorden te beoordelen, wat zou kunnen leiden tot fouten die over het hoofd worden gezien.

Het "kan fouten verbergen die worden gedeeld door zowel model als grader", Girish Nadkarni , hoofd van kunstmatige intelligentie en menselijke gezondheid op de Mount News. Anderen riepen op tot meer beoordelingen om ervoor te zorgen dat modellen goed werken in verschillende landen en tussen verschillende demografieën.

"HealthBench verbetert LLM Healthcare Evaluation maar heeft nog steeds een subgroepanalyse en een bredere menselijke beoordeling nodig voordat het veiligheidsclaims kan ondersteunen," zei Nadkarni.

bronnen

Statnieuws, 12 mei 2025 Disclaimer: <-/sterk> Disclaimer: Algemene trends en hebben geen betrekking op individuen. Individuele factoren kunnen sterk variëren. Zoek altijd gepersonaliseerd medisch advies voor individuele beslissingen in de gezondheidszorg.
Bron: HealthDay

Geplaatst : 2025-05-14 06:00

Lees verder

AHA: Buikvet dat verband houdt met hartfalen loopt een groter risico dan de body mass index

Stijging van de arbeidsinductiecijfers gezien van 2016 tot 2024

Machine Learning-model kan het risico op hepatocellulair carcinoom voorspellen

Uw keuze voor drank beïnvloedt uw risico op overlijden, zegt onderzoek

Waarom jij en je hond soortgelijke reacties op het leven delen

Die stressvolle persoon in je leven kan ervoor zorgen dat je sneller ouder wordt, zo blijkt uit onderzoek

Disclaimer

Er is alles aan gedaan om ervoor te zorgen dat de informatie die wordt verstrekt door Drugslib.com accuraat en up-to-date is -datum en volledig, maar daarvoor wordt geen garantie gegeven. De hierin opgenomen geneesmiddelinformatie kan tijdgevoelig zijn. De informatie van Drugslib.com is samengesteld voor gebruik door zorgverleners en consumenten in de Verenigde Staten en daarom garandeert Drugslib.com niet dat gebruik buiten de Verenigde Staten gepast is, tenzij specifiek anders aangegeven. De geneesmiddeleninformatie van Drugslib.com onderschrijft geen geneesmiddelen, diagnosticeert geen patiënten of beveelt geen therapie aan. De geneesmiddeleninformatie van Drugslib.com is een informatiebron die is ontworpen om gelicentieerde zorgverleners te helpen bij de zorg voor hun patiënten en/of om consumenten te dienen die deze service zien als een aanvulling op en niet als vervanging voor de expertise, vaardigheden, kennis en beoordelingsvermogen van de gezondheidszorg. beoefenaars.

Het ontbreken van een waarschuwing voor een bepaald medicijn of een bepaalde medicijncombinatie mag op geen enkele manier worden geïnterpreteerd als een indicatie dat het medicijn of de medicijncombinatie veilig, effectief of geschikt is voor een bepaalde patiënt. Drugslib.com aanvaardt geen enkele verantwoordelijkheid voor enig aspect van de gezondheidszorg die wordt toegediend met behulp van de informatie die Drugslib.com verstrekt. De informatie in dit document is niet bedoeld om alle mogelijke toepassingen, aanwijzingen, voorzorgsmaatregelen, waarschuwingen, geneesmiddelinteracties, allergische reacties of bijwerkingen te dekken. Als u vragen heeft over de medicijnen die u gebruikt, neem dan contact op met uw arts, verpleegkundige of apotheker.

Populaire zoekwoorden

metformin obat apa

alahan panjang

glimepiride obat apa

takikardia adalah

erau ernie

pradiabetes

besar88

atrofi adalah

kutu anjing

trakeostomi

mayzent pi

enbrel auto injector not working

enbrel interactions

lenvima life expectancy

leqvio pi

what is lenvima

lenvima pi

empagliflozin-linagliptin

encourage foundation for enbrel

qulipta drug interactions