OpenAI geeft een gegevensset van HealthBench vrij om AI in de gezondheidszorg te testen
medisch beoordeeld door Carmen Pope, bpharm. Laatst bijgewerkt op 13 mei 2025.
door I. Edwards HealthDay Reporter
Dinsdag 13 mei 2025 - Openai heeft een grote dataset onthuld om te testen hoe goed kunstmatige intelligentie (AI) modellen beantwoorden vragen over gezondheidszorg.
Experts noemen het een belangrijke stap vooruit, maar ze zeggen ook dat er meer werk nodig is om de veiligheid te waarborgen.
De dataset - HealthBench genaamd - is het eerste belangrijke onafhankelijke gezondheidszorgproject van Openai. Het bevat 5000 "realistische gezondheidsgesprekken", elk met gedetailleerde beoordelingsinstrumenten om AI -antwoorden te evalueren, STAT Nieuws gerapporteerd.
"Onze missie als openai is om ervoor te zorgen dat AGI gunstig is voor de mensheid," De dataset is gemaakt met hulp van 262 artsen die in 60 landen hebben gewerkt. Ze gaven meer dan 57.000 unieke criteria om te beoordelen hoe goed AI -modellen gezondheidsvragen beantwoorden. HealthBench wil een gemeenschappelijk probleem oplossen: verschillende AI -modellen eerlijk vergelijken. "Wat Openai heeft gedaan, is dat ze dit op een schaalbare manier hebben gegeven van een heel groot, gerenommeerd merk dat mensen in staat stelt dit heel gemakkelijk te gebruiken," raj ratwani , een gezondheidsonderzoeker bij Medstar Health, zei. De 5.000 voorbeelden in Healthbench werden gemaakt met behulp van gesynthetiseerde gesprekken ontworpen door artsen. “We wilden de voordelen in evenwicht brengen van het kunnen vrijgeven van de gegevens met, natuurlijk De dataset bevat ook een speciale groep van 1.000 harde voorbeelden waarbij AI -modellen worstelden. OpenAI hoopt dat deze groep 'een waardig doelwit biedt voor de komende maandenverbeteringen', heeft Stat News gerapporteerd. Openai heeft ook zijn eigen modellen getest, evenals modellen van Google, Meta, Anthropic en XAI. Het O3 -model van Openai scoorde het beste, vooral in de communicatiekwaliteit, meldde Stat News. Maar modellen presteerden slecht in gebieden zoals contextbewustzijn en volledigheid, zeiden experts. Sommigen waarschuwden voor Openai die zijn eigen modellen beoordelen. "In gevoelige contexten zoals gezondheidszorg, waar we leven en dood bespreken, is dat niveau van dekking onaanvaardbaar," legde Hao uit. Anderen merkten op dat AI zelf werd gebruikt om enkele van de antwoorden te beoordelen, wat zou kunnen leiden tot fouten die over het hoofd worden gezien. Het "kan fouten verbergen die worden gedeeld door zowel model als grader", Girish Nadkarni , hoofd van kunstmatige intelligentie en menselijke gezondheid op de Mount News. Anderen riepen op tot meer beoordelingen om ervoor te zorgen dat modellen goed werken in verschillende landen en tussen verschillende demografieën. "HealthBench verbetert LLM Healthcare Evaluation maar heeft nog steeds een subgroepanalyse en een bredere menselijke beoordeling nodig voordat het veiligheidsclaims kan ondersteunen," zei Nadkarni. bronnen
Bron: HealthDay
Geplaatst : 2025-05-14 06:00
Lees verder

- FDA -commissaris: geen grote reorganisatie, alleen slimme hervormingen
- HHS, NIH onthullen vaccininitiatief om te beschermen tegen toekomstige pandemieën
- Celtics -ster Jayson Tatum voor seizoen met gescheurde Achilles
- Alternatief voor heupvervanging helpt patiënten om fysiek actief te blijven
- Gemeenschappelijk diabetes medicijn effectief tegen knieartritis pijn
- FDA keurt Zevaskyn (Prademagene zamikeracel) gentherapie goed voor patiënten met recessieve dystrofische epidermolyse bullosa
Disclaimer
Er is alles aan gedaan om ervoor te zorgen dat de informatie die wordt verstrekt door Drugslib.com accuraat en up-to-date is -datum en volledig, maar daarvoor wordt geen garantie gegeven. De hierin opgenomen geneesmiddelinformatie kan tijdgevoelig zijn. De informatie van Drugslib.com is samengesteld voor gebruik door zorgverleners en consumenten in de Verenigde Staten en daarom garandeert Drugslib.com niet dat gebruik buiten de Verenigde Staten gepast is, tenzij specifiek anders aangegeven. De geneesmiddeleninformatie van Drugslib.com onderschrijft geen geneesmiddelen, diagnosticeert geen patiënten of beveelt geen therapie aan. De geneesmiddeleninformatie van Drugslib.com is een informatiebron die is ontworpen om gelicentieerde zorgverleners te helpen bij de zorg voor hun patiënten en/of om consumenten te dienen die deze service zien als een aanvulling op en niet als vervanging voor de expertise, vaardigheden, kennis en beoordelingsvermogen van de gezondheidszorg. beoefenaars.
Het ontbreken van een waarschuwing voor een bepaald medicijn of een bepaalde medicijncombinatie mag op geen enkele manier worden geïnterpreteerd als een indicatie dat het medicijn of de medicijncombinatie veilig, effectief of geschikt is voor een bepaalde patiënt. Drugslib.com aanvaardt geen enkele verantwoordelijkheid voor enig aspect van de gezondheidszorg die wordt toegediend met behulp van de informatie die Drugslib.com verstrekt. De informatie in dit document is niet bedoeld om alle mogelijke toepassingen, aanwijzingen, voorzorgsmaatregelen, waarschuwingen, geneesmiddelinteracties, allergische reacties of bijwerkingen te dekken. Als u vragen heeft over de medicijnen die u gebruikt, neem dan contact op met uw arts, verpleegkundige of apotheker.
Populaire zoekwoorden
- metformin obat apa
- alahan panjang
- glimepiride obat apa
- takikardia adalah
- erau ernie
- pradiabetes
- besar88
- atrofi adalah
- kutu anjing
- trakeostomi
- mayzent pi
- enbrel auto injector not working
- enbrel interactions
- lenvima life expectancy
- leqvio pi
- what is lenvima
- lenvima pi
- empagliflozin-linagliptin
- encourage foundation for enbrel
- qulipta drug interactions