Openai melepaskan dataset Healthbench untuk menguji AI dalam perawatan kesehatan

ditinjau secara medis oleh Carmen Pope, Bpharm. Terakhir diperbarui pada 13 Mei 2025.

oleh I. Edwards Healthday Reporter

Selasa, 13 Mei 2025 - Openai telah meluncurkan dataset besar untuk membantu menguji seberapa baik model kecerdasan buatan (AI) menjawab pertanyaan perawatan kesehatan.

Para ahli menyebutnya langkah besar ke depan, tetapi mereka juga mengatakan lebih banyak pekerjaan diperlukan untuk memastikan keamanan.

Dataset - yang disebut HealthBench - adalah proyek perawatan kesehatan independen besar pertama Openai. Ini mencakup 5.000 "percakapan kesehatan yang realistis," masing-masing dengan alat penilaian terperinci untuk mengevaluasi tanggapan AI, Stat News dilaporkan.

"Misi kami sebagai Openai adalah untuk memastikan AGI bermanfaat bagi kemanusiaan,"

Dataset diciptakan dengan bantuan dari 262 dokter yang telah bekerja di 60 negara. Mereka memberikan lebih dari 57.000 kriteria unik untuk menilai seberapa baik model AI menjawab pertanyaan kesehatan.

Healthbench bertujuan untuk memperbaiki masalah umum: membandingkan model AI yang berbeda secara adil.

"Apa yang telah dilakukan Openai adalah mereka telah menyediakan ini dengan cara yang dapat diskalakan dari merek yang sangat besar dan terkemuka yang akan memungkinkan orang untuk menggunakan ini dengan sangat mudah," 5.000 contoh di Healthbench dibuat dengan menggunakan percakapan yang disintesis yang dirancang oleh dokter.

"Kami ingin menyeimbangkan manfaat dari dapat melepaskan data dengan, tentu saja, kendala privasi menggunakan data realistis," kata Singhal kepada Stat News.

Dataset juga mencakup kelompok khusus 1.000 contoh keras di mana model AI berjuang. Openai berharap grup ini "memberikan target yang layak untuk peningkatan model selama berbulan -bulan yang akan datang," Stat News melaporkan.

Openai juga menguji modelnya sendiri serta model dari Google, Meta, Antropik dan XAI. Model O3 Openai mencetak yang terbaik, terutama dalam kualitas komunikasi, Stat News melaporkan.

Tetapi model berkinerja buruk di bidang -bidang seperti kesadaran dan kelengkapan konteks, kata para ahli.

Beberapa memperingatkan tentang Openai menilai modelnya sendiri.

"Dalam konteks sensitif seperti perawatan kesehatan, di mana kita mendiskusikan hidup dan mati, bahwa tingkat opacity tidak dapat diterima," Hao menjelaskan.

Yang lain mencatat bahwa AI sendiri digunakan untuk menilai beberapa tanggapan, yang dapat mengakibatkan kesalahan yang diabaikan.

It “may hide errors shared by both model and grader,” Girish Nadkarni, head of artificial intelligence and human health at the Icahn School of Medicine at Mount Sinai in New York City, told STAT News.

He and others menyerukan lebih banyak ulasan untuk memastikan model bekerja dengan baik di berbagai negara dan di antara berbagai demografi.

“Healthbench Meningkatkan evaluasi perawatan kesehatan LLM tetapi masih membutuhkan analisis subkelompok dan tinjauan manusia yang lebih luas sebelum dapat mendukung klaim keselamatan,” kata Nadkarni.

Sumber

Berita Statistik, 12 Mei 2025

Diposting : 2025-05-14 06:00

Baca selengkapnya

Penafian

Segala upaya telah dilakukan untuk memastikan bahwa informasi yang diberikan oleh Drugslib.com akurat, terkini -tanggal, dan lengkap, namun tidak ada jaminan mengenai hal tersebut. Informasi obat yang terkandung di sini mungkin sensitif terhadap waktu. Informasi Drugslib.com telah dikumpulkan untuk digunakan oleh praktisi kesehatan dan konsumen di Amerika Serikat dan oleh karena itu Drugslib.com tidak menjamin bahwa penggunaan di luar Amerika Serikat adalah tepat, kecuali dinyatakan sebaliknya. Informasi obat Drugslib.com tidak mendukung obat, mendiagnosis pasien, atau merekomendasikan terapi. Informasi obat Drugslib.com adalah sumber informasi yang dirancang untuk membantu praktisi layanan kesehatan berlisensi dalam merawat pasien mereka dan/atau untuk melayani konsumen yang memandang layanan ini sebagai pelengkap, dan bukan pengganti, keahlian, keterampilan, pengetahuan, dan penilaian layanan kesehatan. praktisi.

Tidak adanya peringatan untuk suatu obat atau kombinasi obat sama sekali tidak boleh ditafsirkan sebagai indikasi bahwa obat atau kombinasi obat tersebut aman, efektif, atau sesuai untuk pasien tertentu. Drugslib.com tidak bertanggung jawab atas segala aspek layanan kesehatan yang diberikan dengan bantuan informasi yang disediakan Drugslib.com. Informasi yang terkandung di sini tidak dimaksudkan untuk mencakup semua kemungkinan penggunaan, petunjuk, tindakan pencegahan, peringatan, interaksi obat, reaksi alergi, atau efek samping. Jika Anda memiliki pertanyaan tentang obat yang Anda konsumsi, tanyakan kepada dokter, perawat, atau apoteker Anda.

Openai melepaskan dataset Healthbench untuk menguji AI dalam perawatan kesehatan

Sumber

Baca selengkapnya

Penafian

Kata kunci populer