Το OpenAi απελευθερώνει το σύνολο δεδομένων HealthBench για να δοκιμάσει το AI στην υγειονομική περίθαλψη

που αναθεωρήθηκε από την Carmen Pope, Bpharm. Τελευταία ενημέρωση στις 13 Μαΐου 2025.

Τρίτη, 13 Μαΐου 2025 - Το OpenAI έχει αποκαλύψει ένα μεγάλο σύνολο δεδομένων για να βοηθήσει να δοκιμάσει πόσο καλά τα μοντέλα τεχνητής νοημοσύνης (AI) απαντούν σε ερωτήσεις υγειονομικής περίθαλψης.

Οι εμπειρογνώμονες το αποκαλούν ένα σημαντικό βήμα προς τα εμπρός, αλλά λένε επίσης ότι απαιτείται περισσότερη δουλειά για να εξασφαλιστεί η ασφάλεια.

Το σύνολο δεδομένων - που ονομάζεται HealthBench - είναι το πρώτο σημαντικό ανεξάρτητο πρόγραμμα υγειονομικής περίθαλψης της OpenAI. Περιλαμβάνει 5.000 "ρεαλιστικές συνομιλίες για την υγεία", το καθένα με λεπτομερή εργαλεία ταξινόμησης για την αξιολόγηση των απαντήσεων του AI, ανέφερε ο Stat News. Η ομάδα Health AI της εταιρείας με έδρα το Francisco, δήλωσε. Η AGI είναι στενογραφία για τεχνητή γενική νοημοσύνη.

"Ένα μέρος αυτού είναι η οικοδόμηση και η ανάπτυξη τεχνολογίας", δήλωσε ο Singhal. "Ένα άλλο μέρος είναι να διασφαλιστεί ότι οι θετικές εφαρμογές όπως η υγειονομική περίθαλψη έχουν μια θέση για να ανθίσουν και ότι κάνουμε το σωστό έργο για να διασφαλίσουμε ότι τα μοντέλα είναι ασφαλή και αξιόπιστα σε αυτές τις ρυθμίσεις."

Το σύνολο δεδομένων δημιουργήθηκε με βοήθεια από 262 γιατρούς που εργάστηκαν σε 60 χώρες. Παρείχαν περισσότερα από 57.000 μοναδικά κριτήρια για να κρίνουν πόσο καλά τα μοντέλα AI απαντούν σε ερωτήσεις υγείας.

HealthBench στοχεύει να διορθώσει ένα κοινό πρόβλημα: συγκρίνοντας τα διαφορετικά μοντέλα AI δίκαια. href = "https://www.medstarhealth.org/innovation-and-research/medstar-health-research-institute/principal-investigators/raj-ratwani"> raj ratwani

Τα 5.000 παραδείγματα στο HealthBench έγιναν χρησιμοποιώντας συνθετικές συνομιλίες που σχεδιάστηκαν από τους γιατρούς.

Το σύνολο δεδομένων περιλαμβάνει επίσης μια ειδική ομάδα 1.000 σκληρών παραδειγμάτων όπου τα μοντέλα AI αγωνίστηκαν. Η Openai ελπίζει ότι αυτή η ομάδα "παρέχει έναν αξιόλογο στόχο για βελτιώσεις μοντέλων για τους επόμενους μήνες", ανέφερε η STAT News. Το μοντέλο O3 της OpenAI σημείωσε το καλύτερο, ειδικά στην ποιότητα της επικοινωνίας, ανέφερε ο Stat News.

Αλλά τα μοντέλα εκτελούσαν άσχημα σε περιοχές όπως η ευαισθητοποίηση και η πληρότητα του περιβάλλοντος, δήλωσαν οι ειδικοί.

"Σε ευαίσθητα πλαίσια όπως η υγειονομική περίθαλψη, όπου συζητάμε για τη ζωή και το θάνατο, αυτό το επίπεδο αδιαφάνειας είναι απαράδεκτο", εξήγησε ο Hao.

"Μπορεί να κρύψει σφάλματα που μοιράζονται τόσο από το μοντέλο όσο και από τον γκρέιντερ", girish nadkarni , επικεφαλής της τεχνητής νοημοσύνης και της ανθρώπινης υγείας στο σχολείο του Icahn στο Mount Sinai στη Νέα Υόρκη. Για περισσότερες αναθεωρήσεις για να εξασφαλιστεί ότι τα μοντέλα λειτουργούν καλά σε διαφορετικές χώρες και μεταξύ διαφορετικών δημογραφικών στοιχείων.

"Το HealthBench βελτιώνει την αξιολόγηση της υγειονομικής περίθαλψης LLM, αλλά εξακολουθεί να χρειάζεται ανάλυση υποομάδων και ευρύτερη ανθρώπινη ανασκόπηση πριν να υποστηρίξει τους ισχυρισμούς ασφαλείας", δήλωσε ο Nadkarni. Παρέχετε γενικές τάσεις και δεν αφορούν τα άτομα. Οι μεμονωμένοι παράγοντες μπορούν να διαφέρουν σε μεγάλο βαθμό. Αναζητήστε πάντα εξατομικευμένες ιατρικές συμβουλές για μεμονωμένες αποφάσεις υγειονομικής περίθαλψης.

Πηγή: Healthday

Διαβάστε περισσότερα

Αποποίηση ευθυνών

Έχει καταβληθεί κάθε δυνατή προσπάθεια για να διασφαλιστεί ότι οι πληροφορίες που παρέχονται από το Drugslib.com είναι ακριβείς, μέχρι -ημερομηνία και πλήρης, αλλά δεν παρέχεται καμία εγγύηση για το σκοπό αυτό. Οι πληροφορίες φαρμάκων που περιέχονται εδώ μπορεί να είναι ευαίσθητες στο χρόνο. Οι πληροφορίες του Drugslib.com έχουν συγκεντρωθεί για χρήση από επαγγελματίες υγείας και καταναλωτές στις Ηνωμένες Πολιτείες και επομένως το Drugslib.com δεν εγγυάται ότι οι χρήσεις εκτός των Ηνωμένων Πολιτειών είναι κατάλληλες, εκτός εάν ρητά αναφέρεται διαφορετικά. Οι πληροφορίες φαρμάκων του Drugslib.com δεν υποστηρίζουν φάρμακα, δεν κάνουν διάγνωση ασθενών ή συνιστούν θεραπεία. Οι πληροφορίες για τα φάρμακα του Drugslib.com είναι ένας ενημερωτικός πόρος που έχει σχεδιαστεί για να βοηθά τους αδειοδοτημένους επαγγελματίες υγείας στη φροντίδα των ασθενών τους ή/και να εξυπηρετούν τους καταναλωτές που βλέπουν αυτήν την υπηρεσία ως συμπλήρωμα και όχι ως υποκατάστατο της τεχνογνωσίας, των δεξιοτήτων, της γνώσης και της κρίσης της υγειονομικής περίθαλψης επαγγελματίες.

Η απουσία προειδοποίησης για ένα δεδομένο φάρμακο ή συνδυασμό φαρμάκων σε καμία περίπτωση δεν πρέπει να ερμηνεύεται ως ένδειξη ότι το φάρμακο ή ο συνδυασμός φαρμάκων είναι ασφαλής, αποτελεσματικός ή κατάλληλος για οποιονδήποτε δεδομένο ασθενή. Το Drugslib.com δεν αναλαμβάνει καμία ευθύνη για οποιαδήποτε πτυχή της υγειονομικής περίθαλψης που παρέχεται με τη βοήθεια των πληροφοριών που παρέχει το Drugslib.com. Οι πληροφορίες που περιέχονται στο παρόν δεν προορίζονται να καλύψουν όλες τις πιθανές χρήσεις, οδηγίες, προφυλάξεις, προειδοποιήσεις, αλληλεπιδράσεις με φάρμακα, αλλεργικές αντιδράσεις ή ανεπιθύμητες ενέργειες. Εάν έχετε ερωτήσεις σχετικά με τα φάρμακα που παίρνετε, συμβουλευτείτε το γιατρό, τη νοσοκόμα ή τον φαρμακοποιό σας.

Δημοφιλείς λέξεις -κλειδιά