ChatGPT V4 supera la barra, i SAT e può identificare gli exploit nei contratti ETH

GPT-4, l'ultima versione del chatbot di Intelligenza Artificiale (AI), ChatGPT, può superare i test delle scuole superiori e gli esami di giurisprudenza con punteggi nel 90° percentile e ha nuove capacità di elaborazione che non erano possibili con la versione precedente.

I dati dei punteggi dei test di GPT-4 sono stati condivisi il 14 marzo dal suo creatore OpenAI, rivelando che può anche convertire input di immagini, audio e video in testo oltre a gestire "istruzioni molto più sfumate" in modo più creativo e affidabile.

"Supera un esame di abilitazione simulato con un punteggio intorno al 10% dei migliori partecipanti al test", ha aggiunto OpenAI. "Al contrario, il punteggio di GPT-3.5 era intorno al 10% inferiore."

Le cifre mostrano che GPT-4 ha ottenuto un punteggio di 163 nell'88° percentile dell'esame LSAT, il test che gli studenti universitari devono superare negli Stati Uniti per essere ammessi alla facoltà di giurisprudenza.

Risultati degli esami di GPT-4 e GPT-3.5 su una serie di recenti esami negli Stati Uniti. Fonte: OpenAI

Il punteggio di GPT4 lo metterebbe in una buona posizione per essere ammesso in una delle 20 migliori scuole di giurisprudenza ed è solo di pochi punti inferiore ai punteggi riportati necessari per l'accettazione in scuole prestigiose come Harvard, Stanford, Princeton o Yale.

La versione precedente di ChatGPT ha ottenuto solo 149 punti su LSAT, collocandola nell'ultimo 40%.

GPT-4 ha anche ottenuto un punteggio di 298 su 400 nell'esame Uniform Bar, un test svolto da studenti di giurisprudenza neolaureati che consente loro di esercitare la professione di avvocato in qualsiasi giurisdizione degli Stati Uniti.

I punteggi UBE dovevano essere ammessi alla pratica legale in ogni giurisdizione degli Stati Uniti. Fonte: Convegno Nazionale Giudici Avvocati

La vecchia versione di ChatGPT ha faticato in questo test, finendo nell'ultimo 10% con un punteggio di 213 su 400.

Per quanto riguarda gli esami SAT Evidence-Based Reading & Writing e SAT Math sostenuti dagli studenti delle scuole superiori statunitensi per misurare la loro preparazione al college, GPT-4 ha ottenuto rispettivamente il 93° e l'89° percentile.

GPT-4 eccelleva anche nelle scienze "dure", registrando punteggi percentili ben al di sopra della media in Biologia AP (85-100%), Chimica (71-88%) e Fisica 2 (66-84%).

Risultati degli esami di GPT-4 e GPT-3.5 su una serie di recenti esami statunitensi. Fonte: OpenAI.

Tuttavia il suo punteggio AP Calculus era abbastanza nella media, classificandosi tra il 43° e il 59° percentile.

Un'altra area in cui mancava GPT-4 era negli esami di letteratura inglese, con punteggi compresi tra l'8° e il 44° percentile in due test separati.

OpenAI ha affermato che GPT-4 e GPT-3.5 hanno sostenuto questi test dagli esami pratici 2022-2023 e che "nessuna formazione specifica" è stata seguita dagli strumenti di elaborazione linguistica:

“Non abbiamo fatto una formazione specifica per questi esami. Una minoranza dei problemi negli esami è stata riscontrata dal modello durante l'allenamento, ma riteniamo che i risultati siano rappresentativi.

I risultati hanno suscitato timore anche nella comunità di Twitter.

Correlato: In che modo ChatGPT influenzerà lo spazio Web3? Le risposte del settore

Nick Almond, il fondatore di FactoryDAO detto i suoi 14,300 follower su Twitter il 14 marzo che GPT4 "spaventerà le persone" e farà "collassare" il sistema educativo globale.

L'ex direttore di Coinbase, Conor Grogan, ha affermato di aver inserito un contratto intelligente Ethereum live in GPT-4 e ha immediatamente indicato diverse "vulnerabilità di sicurezza" e ha delineato come il codice può essere sfruttato:

Precedenti audit sui contratti intelligenti su ChatGPT hanno rilevato che la sua prima versione era anche in grado di individuare bug del codice in misura ragionevole.

Rowan Cheung, il fondatore della newsletter AI "The Rundown", ha condiviso un video di GPT che trascrive in codice un sito Web falso disegnato a mano su un pezzo di carta.