OpenAI lansează setul de date Healthbench pentru a testa AI în asistența medicală

Revizuit medical de Carmen Pope, Bpharm. Ultima actualizare pe 13 mai 2025.

de I. Edwards Healthday Reporter

marți, 13 mai 2025 - Openai a dezvăluit un set de date mare pentru a ajuta la testarea cât de bine modelele de inteligență artificială (AI) răspund la întrebările de îngrijire a sănătății.

Experții o numesc un pas major înainte, dar spun, de asemenea, mai multe lucrări pentru a asigura siguranța.

Setul de date - numit HealthBench - este primul proiect major independent de îngrijire a sănătății. It includes 5,000 “realistic health conversations,” each with detailed grading tools to evaluate AI responses, STAT News reported.

“Our mission as OpenAI is to ensure AGI is beneficial to humanity,” Karan Singhal, head of the San Francisco-based Echipa AI de sănătate a companiei, a spus. AGI este scurt pentru inteligență generală artificială.

„O parte din aceasta este tehnologia construirii și implementării”, a spus Singhal. „O altă parte a acesteia este să ne asigurăm că aplicațiile pozitive precum asistența medicală au un loc unde să înflorească și că facem munca potrivită pentru a ne asigura că modelele sunt sigure și fiabile în aceste setări.”

Setul de date a fost creat cu ajutor de la 262 de medici care au lucrat în 60 de țări. Au oferit mai mult de 57.000 de criterii unice pentru a judeca cât de bine răspund modelele AI la întrebări de sănătate.

Healthbench își propune să rezolve o problemă comună: compararea diferitelor modele AI în mod corect.

„Ceea ce a făcut Openai este că au furnizat acest lucru într -un mod scalabil de la un brand cu adevărat mare, de renume, care va permite oamenilor să folosească acest lucru foarte ușor”, Raj Ratwani , un cercetător AI de sănătate la Medstar Health, a spus.

cele 5.000 de exemple în Healthbench au fost făcute folosind conversații sintetizate concepute de medici.

„Am vrut să echilibrăm beneficiile de a putea elibera datele cu, desigur, constrângerile de confidențialitate de a folosi date realiste”, a spus Singhal pentru Stat News.

Setul de date include, de asemenea, un grup special de 1.000 de exemple dure în care s -au luptat modelele AI. Openai speră că acest grup „oferă o țintă demnă pentru îmbunătățirile modelului pentru lunile următoare”, a raportat Stat News.

OpenAI a testat, de asemenea, propriile modele, precum și modele de la Google, Meta, Antropic și XAI. Modelul O3 al lui OpenAI a obținut cel mai bun, în special în calitatea comunicării, a raportat Stat News.

Dar modelele au fost reduse slab în domenii precum conștientizarea contextului și completitatea, au spus experții.

Unii au avertizat despre clasificarea Openai propriile modele.

"în contexte sensibile precum asistența medicală, unde discutăm despre viață și moarte, acest nivel de opacitate este inacceptabil", a explicat Hao.

alții au remarcat că AI în sine a fost utilizat pentru a clasifica unele dintre răspunsuri, ceea ce ar putea duce la trecerea erorilor.

„poate ascunde erorile împărtășite atât de model, cât și de gradator”, Girish Nadkarni , șeful inteligenței artificiale și sănătății umane la Școala Icahn din Medicină de la Mount Sinai în New York, a spus statul de stat. Pentru mai multe recenzii pentru a asigura modelele să funcționeze bine în diferite țări și între diferite demografii.

“HealthBench improves LLM healthcare evaluation but still needs subgroup analysis and wider human review before it can support safety claims,” Nadkarni said.

Sources

  • STAT News, May 12, 2025
  • Disclaimer: Statistical data in medical articles provide general tendințe și nu se referă la indivizi. Factorii individuali pot varia foarte mult. Căutați întotdeauna sfaturi medicale personalizate pentru deciziile individuale de asistență medicală.

    Sursa: Healthday

    Citeşte mai mult

    Declinare de responsabilitate

    S-au depus toate eforturile pentru a se asigura că informațiile furnizate de Drugslib.com sunt exacte, actualizate -data și completă, dar nu se face nicio garanție în acest sens. Informațiile despre medicamente conținute aici pot fi sensibile la timp. Informațiile Drugslib.com au fost compilate pentru a fi utilizate de către practicienii din domeniul sănătății și consumatorii din Statele Unite și, prin urmare, Drugslib.com nu garantează că utilizările în afara Statelor Unite sunt adecvate, cu excepția cazului în care se indică altfel. Informațiile despre medicamente de la Drugslib.com nu susțin medicamente, nu diagnostichează pacienții și nu recomandă terapie. Informațiile despre medicamente de la Drugslib.com sunt o resursă informațională concepută pentru a ajuta practicienii autorizați din domeniul sănătății în îngrijirea pacienților lor și/sau pentru a servi consumatorilor care văd acest serviciu ca un supliment și nu un substitut pentru expertiza, abilitățile, cunoștințele și raționamentul asistenței medicale. practicieni.

    Lipsa unui avertisment pentru un anumit medicament sau combinație de medicamente nu trebuie în niciun fel interpretată ca indicând faptul că medicamentul sau combinația de medicamente este sigură, eficientă sau adecvată pentru un anumit pacient. Drugslib.com nu își asumă nicio responsabilitate pentru niciun aspect al asistenței medicale administrat cu ajutorul informațiilor furnizate de Drugslib.com. Informațiile conținute aici nu sunt destinate să acopere toate utilizările posibile, instrucțiunile, precauțiile, avertismentele, interacțiunile medicamentoase, reacțiile alergice sau efectele adverse. Dacă aveți întrebări despre medicamentele pe care le luați, consultați medicul, asistenta sau farmacistul.

    Cuvinte cheie populare