Openai uwalnia zestaw danych HealthBench do testowania sztucznej inteligencji w opiece zdrowotnej

Medicalnie przeglądane przez Carmen Pope, Bpharm. Ostatnia aktualizacja 13 maja 2025 r.

karan singhal , szef san San. Powiedział zespół Health AI firmy z siedzibą w Francisco. AGI jest skrótem dla sztucznej inteligencji ogólnej.

„Jedną częścią tego jest budowanie i wdrażanie technologii” - powiedział Singhal. „Kolejną częścią jest zapewnienie, że pozytywne zastosowania, takie jak opieka zdrowotna, mają miejsce do rozkwitu i wykonujemy właściwą pracę, aby zapewnić, że modele są bezpieczne i niezawodne w tych ustawieniach.”

Zestaw danych została stworzona z pomocą 262 lekarzy, którzy pracowali w 60 krajach. Zapewnili ponad 57 000 unikalnych kryteriów oceny, jak dobrze modele AI odpowiadają na pytania zdrowotne.

HealthBench ma na celu rozwiązanie wspólnego problemu: uczciwe porównywanie różnych modeli AI.

„To, co zrobił Openai, to dostarczyli to w skalowalny sposób od naprawdę dużej, renomowanej marki, która umożliwi ludziom bardzo łatwo używać tego”, Raj Ratwani , badacz zdrowia AI w Medstar Health, Said.

5000 przykładów w HealthBench wykonano przy użyciu zsyntetyzowanych rozmów zaprojektowanych przez lekarzy.

„Chcieliśmy zrównoważyć korzyści płynące z możliwości udostępniania danych, oczywiście, ograniczeń prywatności wynikających z realistycznych danych”, Singhal powiedział Stat News.

Zestaw danych zawiera również specjalną grupę 1000 twardych przykładów, w których zmagały się modele AI. Openai ma nadzieję, że ta grupa „stanowi godny cel ulepszeń modeli w nadchodzących miesiącach”, donosi STAT News.

Openai również przetestowało własne modele, a także modele z Google, Meta, Antropic i XAI. Model O3 Openai uzyskał najlepsze, szczególnie pod względem jakości komunikacji, donosi STAT News.

Ale modele działały słabo w obszarach takich jak świadomość kontekstu i kompletność, powiedzieli eksperci.

Niektórzy ostrzegali przed ocenianiem własnych modeli Openai.

„W wrażliwych kontekstach, takich jak opieka zdrowotna, gdzie dyskutujemy o życiu i śmierci, ten poziom krycia jest niedopuszczalny”, wyjaśnił Hao.

inni zauważyli, że sama sztuczna inteligencja została wykorzystana do oceny niektórych odpowiedzi, które mogłyby spowodować przeoczenie błędów.

może ukryć błędy udostępnione zarówno przez modelkę, jak i równiarkę ”, girish Nadkarni , szef sztucznej inteligencji i zdrowia ludzkiego w ICAHN SZKOŁA MEDICING w Nowym York City, opowiedziano STAT. Inni wezwali do dalszych recenzji, aby zapewnić, że modele działają dobrze w różnych krajach i wśród różnych danych demograficznych.

„HealthBench poprawia ocenę LLM opieki zdrowotnej, ale nadal wymaga analizy podgrup i szerszego przeglądu człowieka, zanim będzie mogła poprzeć roszczenia bezpieczeństwa”, powiedział Nadkarni.

Źródła

  • STAT News, 12 maja 2025
  • : Statistic Dandyna Zapewnij ogólne trendy i nie odnoszą się do osób fizycznych. Poszczególne czynniki mogą się znacznie różnić. Zawsze szukaj spersonalizowanej porady medycznej w zakresie indywidualnych decyzji dotyczących opieki zdrowotnej.

    Źródło: Healthday

    Czytaj więcej

    Zastrzeżenie

    Dołożono wszelkich starań, aby informacje dostarczane przez Drugslib.com były dokładne i aktualne -data i kompletność, ale nie udziela się na to żadnej gwarancji. Informacje o lekach zawarte w niniejszym dokumencie mogą mieć charakter wrażliwy na czas. Informacje na stronie Drugslib.com zostały zebrane do użytku przez pracowników służby zdrowia i konsumentów w Stanach Zjednoczonych, dlatego też Drugslib.com nie gwarantuje, że użycie poza Stanami Zjednoczonymi jest właściwe, chyba że wyraźnie wskazano inaczej. Informacje o lekach na Drugslib.com nie promują leków, nie diagnozują pacjentów ani nie zalecają terapii. Informacje o lekach na Drugslib.com to źródło informacji zaprojektowane, aby pomóc licencjonowanym pracownikom służby zdrowia w opiece nad pacjentami i/lub służyć konsumentom traktującym tę usługę jako uzupełnienie, a nie substytut wiedzy specjalistycznej, umiejętności, wiedzy i oceny personelu medycznego praktycy.

    Brak ostrzeżenia dotyczącego danego leku lub kombinacji leków w żadnym wypadku nie powinien być interpretowany jako wskazanie, że lek lub kombinacja leków jest bezpieczna, skuteczna lub odpowiednia dla danego pacjenta. Drugslib.com nie ponosi żadnej odpowiedzialności za jakikolwiek aspekt opieki zdrowotnej zarządzanej przy pomocy informacji udostępnianych przez Drugslib.com. Informacje zawarte w niniejszym dokumencie nie obejmują wszystkich możliwych zastosowań, wskazówek, środków ostrożności, ostrzeżeń, interakcji leków, reakcji alergicznych lub skutków ubocznych. Jeśli masz pytania dotyczące przyjmowanych leków, skontaktuj się ze swoim lekarzem, pielęgniarką lub farmaceutą.

    Popularne słowa kluczowe