Openai เปิดตัวชุดข้อมูล HealthBench เพื่อทดสอบ AI ในการดูแลสุขภาพ

ทบทวนทางการแพทย์โดย Carmen Pope, Bpharm อัปเดตล่าสุดเมื่อวันที่ 13 พฤษภาคม 2025.

โดย I. Edwards Healthday Reporter

วันอังคารที่ 13 พฤษภาคม 2025 - Openai ได้เปิดตัวชุดข้อมูลขนาดใหญ่เพื่อช่วยทดสอบว่าโมเดลปัญญาประดิษฐ์ (AI) ตอบคำถามด้านการดูแลสุขภาพได้ดีเพียงใด

ผู้เชี่ยวชาญเรียกมันว่าเป็นก้าวสำคัญ แต่พวกเขายังต้องบอกว่าจำเป็นต้องทำงานมากขึ้นเพื่อความปลอดภัย

ชุดข้อมูล - เรียกว่า HealthBench - เป็นโครงการดูแลสุขภาพอิสระที่สำคัญครั้งแรกของ OpenAI มันมี 5,000“ การสนทนาด้านสุขภาพที่สมจริง” แต่ละคนมีเครื่องมือการให้เกรดโดยละเอียดเพื่อประเมินการตอบสนอง AI, รายงานข่าวสถิติ

“ ภารกิจของเราในฐานะ Openai คือการทำให้มั่นใจว่า Agi เป็นประโยชน์ต่อมนุษยชาติ”

ชุดข้อมูลถูกสร้างขึ้นด้วยความช่วยเหลือจากแพทย์ 262 คนที่ทำงานใน 60 ประเทศ พวกเขาให้เกณฑ์ที่ไม่ซ้ำกันมากกว่า 57,000 เพื่อตัดสินว่าโมเดล AI ตอบคำถามสุขภาพได้ดีเพียงใด

HealthBench มีจุดมุ่งหมายเพื่อแก้ไขปัญหาที่พบบ่อย: การเปรียบเทียบโมเดล AI ที่แตกต่างกันอย่างเป็นธรรม

“ สิ่งที่ OpenAi ทำคือพวกเขาได้ให้สิ่งนี้ในวิธีที่ปรับขนาดได้จากแบรนด์ที่มีชื่อเสียงและมีชื่อเสียงจริงๆ href = "https://www.medstarhealth.org/innovation-and-research/medstar-health-research-institute/principal-investigators/raj-ratwani"> Raj Ratwani นักวิจัยด้านสุขภาพที่ Medstar Health กล่าว

ตัวอย่าง 5,000 ตัวอย่างใน HealthBench ทำโดยใช้บทสนทนาสังเคราะห์ที่ออกแบบโดยแพทย์

“ เราต้องการสร้างสมดุลให้กับประโยชน์ของความสามารถในการเปิดเผยข้อมูลด้วยข้อ จำกัด ด้านความเป็นส่วนตัวของการใช้ข้อมูลที่สมจริง” Singhal กล่าวกับ Stat News

ชุดข้อมูลยังมีกลุ่มตัวอย่างพิเศษ 1,000 ตัวอย่างที่โมเดล AI พยายามดิ้นรน Openai หวังว่ากลุ่มนี้“ ให้เป้าหมายที่คุ้มค่าสำหรับการปรับปรุงแบบจำลองเป็นเวลาหลายเดือน” Stat News รายงาน

OpenAI ยังทดสอบโมเดลของตัวเองเช่นเดียวกับรุ่นจาก Google, Meta, Anthropic และ XAI โมเดล O3 ของ Openai ทำคะแนนได้ดีที่สุดโดยเฉพาะอย่างยิ่งในด้านคุณภาพการสื่อสาร Stat News รายงาน

แต่โมเดลทำงานได้ไม่ดีในด้านต่างๆเช่นการรับรู้บริบทและความสมบูรณ์ผู้เชี่ยวชาญกล่าวว่า

บางคนเตือนเกี่ยวกับการให้คะแนนแบบจำลองของตัวเอง

"ในบริบทที่ละเอียดอ่อนเช่นการดูแลสุขภาพที่เรากำลังพูดถึงชีวิตและความตายระดับความทึบนั้นไม่เป็นที่ยอมรับ" Hao อธิบาย

คนอื่น ๆ สังเกตว่า AI นั้นถูกใช้เพื่อให้การตอบสนองบางอย่างซึ่งอาจส่งผลให้เกิดข้อผิดพลาด

มัน“ อาจซ่อนข้อผิดพลาดที่ใช้ร่วมกันโดยทั้งแบบจำลองและ Grader” Girish Nadkarni สำหรับความคิดเห็นเพิ่มเติมเพื่อให้แน่ใจว่าโมเดลทำงานได้ดีในประเทศต่าง ๆ และในกลุ่มประชากรที่แตกต่างกัน

“ HealthBench ปรับปรุงการประเมินผลการดูแลสุขภาพ LLM แต่ยังต้องการการวิเคราะห์กลุ่มย่อยและการตรวจสอบของมนุษย์ในวงกว้างก่อนที่จะสามารถสนับสนุนการเรียกร้องความปลอดภัย” Nadkarni กล่าว

แหล่งที่มา

  • STAT> การใช้งาน

    ที่มา: Healthday

    อ่านเพิ่มเติม

    ข้อจำกัดความรับผิดชอบ

    มีความพยายามทุกวิถีทางเพื่อให้แน่ใจว่าข้อมูลที่ให้โดย Drugslib.com นั้นถูกต้อง ทันสมัย -วันที่และเสร็จสมบูรณ์ แต่ไม่มีการรับประกันใดๆ เกี่ยวกับผลกระทบดังกล่าว ข้อมูลยาเสพติดที่มีอยู่นี้อาจจะเป็นเวลาที่สำคัญ. ข้อมูล Drugslib.com ได้รับการรวบรวมเพื่อใช้โดยผู้ประกอบวิชาชีพด้านการดูแลสุขภาพและผู้บริโภคในสหรัฐอเมริกา ดังนั้น Drugslib.com จึงไม่รับประกันว่าการใช้นอกสหรัฐอเมริกามีความเหมาะสม เว้นแต่จะระบุไว้เป็นอย่างอื่นโดยเฉพาะ ข้อมูลยาของ Drugslib.com ไม่ได้สนับสนุนยา วินิจฉัยผู้ป่วย หรือแนะนำการบำบัด ข้อมูลยาของ Drugslib.com เป็นแหล่งข้อมูลที่ได้รับการออกแบบมาเพื่อช่วยเหลือผู้ปฏิบัติงานด้านการดูแลสุขภาพที่ได้รับใบอนุญาตในการดูแลผู้ป่วยของตน และ/หรือเพื่อให้บริการลูกค้าที่ดูบริการนี้เป็นส่วนเสริมและไม่ใช่สิ่งทดแทนความเชี่ยวชาญ ทักษะ ความรู้ และการตัดสินด้านการดูแลสุขภาพ ผู้ปฏิบัติงาน

    การไม่มีคำเตือนสำหรับยาหรือยาผสมใด ๆ ไม่ควรตีความเพื่อบ่งชี้ว่ายาหรือยาผสมนั้นปลอดภัย มีประสิทธิผล หรือเหมาะสมสำหรับผู้ป่วยรายใดรายหนึ่ง Drugslib.com ไม่รับผิดชอบต่อแง่มุมใดๆ ของการดูแลสุขภาพที่ดำเนินการโดยได้รับความช่วยเหลือจากข้อมูลที่ Drugslib.com มอบให้ ข้อมูลในที่นี้ไม่ได้มีวัตถุประสงค์เพื่อให้ครอบคลุมถึงการใช้ คำแนะนำ ข้อควรระวัง คำเตือน ปฏิกิริยาระหว่างยา ปฏิกิริยาการแพ้ หรือผลข้างเคียงที่เป็นไปได้ทั้งหมด หากคุณมีคำถามเกี่ยวกับยาที่คุณกำลังใช้ โปรดตรวจสอบกับแพทย์ พยาบาล หรือเภสัชกรของคุณ

    คำหลักยอดนิยม