I ricercatori valutano le prestazioni di ChatGPT nel riepilogare gli abstract medici

In un recente studio pubblicato su The Annals of Family Medicine, i ricercatori hanno valutato l’efficacia di Chat Generative Pretrained Transformer (ChatGPT) nel riassumere abstract medici per assistere i medici. Lo studio mirava a determinare la qualità, l'accuratezza e i bias nei riepiloghi generati da ChatGPT, fornendo informazioni sul suo potenziale come strumento per digerire grandi quantità di letteratura medica in mezzo ai vincoli di tempo affrontati dagli operatori sanitari.

Valutazioni elevate per qualità e precisione

Lo studio ha utilizzato ChatGPT per condensare 140 abstract medici da 14 riviste diverse, riducendo il contenuto in media del 70%. Nonostante alcune inesattezze e allucinazioni rilevate in una piccola parte dei riassunti, i medici li hanno valutati molto bene per qualità e accuratezza. I risultati suggeriscono che ChatGPT ha il potenziale per aiutare i medici a rivedere in modo efficiente la letteratura medica, offrendo riassunti concisi e accurati in mezzo all’enorme volume di informazioni.

I ricercatori hanno selezionato 10 articoli da ciascuna delle 14 riviste che coprono vari argomenti e strutture mediche. Hanno incaricato ChatGPT di riassumere questi articoli e di valutare i riepiloghi generati per qualità, accuratezza, parzialità e pertinenza in dieci campi medici. Lo studio ha rilevato che ChatGPT ha condensato con successo abstract medici in media del 70%, ottenendo valutazioni elevate da parte dei revisori medici per qualità e accuratezza.

Implicazioni per l'assistenza sanitaria

Nonostante le valutazioni elevate, lo studio ha individuato gravi inesattezze e allucinazioni in un numero limitato di riassunti. Questi errori andavano dall’omissione di dati critici a interpretazioni errate dei disegni degli studi, che potrebbero potenzialmente alterare l’interpretazione dei risultati della ricerca. Tuttavia, le prestazioni di ChatGPT nel riassumere gli abstract medici sono state ritenute affidabili, con una distorsione minima osservata.

Sebbene ChatGPT abbia dimostrato un forte allineamento con le valutazioni umane a livello di rivista, le sue prestazioni nell’individuare la pertinenza dei singoli articoli per specifiche specialità mediche sono state meno impressionanti. Questa discrepanza ha evidenziato una limitazione nella capacità di ChatGPT di identificare accuratamente la rilevanza di singoli articoli nel contesto più ampio delle specialità mediche.

Lo studio fornisce preziose informazioni sul potenziale dell’intelligenza artificiale, in particolare di ChatGPT, nell’aiutare i medici a rivedere in modo efficiente la letteratura medica. Sebbene ChatGPT si mostri promettente nel riassumere abstract medici con elevata qualità e accuratezza, sono necessarie ulteriori ricerche per affrontare i limiti e migliorare le sue prestazioni in contesti medici specifici.

La ricerca futura potrebbe concentrarsi sul perfezionamento della capacità di ChatGPT di riconoscere la rilevanza di singoli articoli per specifiche specialità mediche. Inoltre, gli sforzi per mitigare le imprecisioni e le allucinazioni nei riepiloghi generati potrebbero migliorare ulteriormente l’utilità degli strumenti di intelligenza artificiale in ambito sanitario.

Fonte: https://www.cryptopolitan.com/chatgpt-in-summarizing-medical-abstracts/