ChatGPT V4 supera la barra, i SAT e può identificare gli exploit nei contratti ETH

GPT-4, l'ultima versione del chatbot di Intelligenza Artificiale (AI), ChatGPT, può superare i test delle scuole superiori e gli esami di giurisprudenza con punteggi nel 90° percentile e ha nuove capacità di elaborazione che non erano possibili con la versione precedente.

I dati dei punteggi dei test di GPT-4 sono stati condivisi il 14 marzo dal suo creatore OpenAI, rivelando che può anche convertire input di immagini, audio e video in testo oltre a gestire "istruzioni molto più sfumate" in modo più creativo e affidabile.

"Supera un esame di abilitazione simulato con un punteggio intorno al 10% dei migliori partecipanti al test", ha aggiunto OpenAI. "Al contrario, il punteggio di GPT-3.5 era intorno al 10% inferiore."

Le cifre mostrano che GPT-4 ha ottenuto un punteggio di 163 nell'88° percentile dell'esame LSAT, il test che gli studenti universitari devono superare negli Stati Uniti per essere ammessi alla facoltà di giurisprudenza.

*Risultati degli esami di GPT-4 e GPT-3.5 su una serie di recenti esami negli Stati Uniti. Fonte:* *OpenAI*

Il punteggio di GPT4 lo metterebbe in una buona posizione per essere ammesso in una delle 20 migliori scuole di giurisprudenza ed è solo di pochi punti inferiore ai punteggi riportati necessari per l'accettazione in scuole prestigiose come Harvard, Stanford, Princeton o Yale.

La versione precedente di ChatGPT ha ottenuto solo 149 punti su LSAT, collocandola nell'ultimo 40%.

GPT-4 ha anche ottenuto un punteggio di 298 su 400 nell'esame Uniform Bar, un test svolto da studenti di giurisprudenza neolaureati che consente loro di esercitare la professione di avvocato in qualsiasi giurisdizione degli Stati Uniti.

*I punteggi UBE dovevano essere ammessi alla pratica legale in ogni giurisdizione degli Stati Uniti. Fonte:* *Convegno Nazionale Giudici Avvocati*

La vecchia versione di ChatGPT ha faticato in questo test, finendo nell'ultimo 10% con un punteggio di 213 su 400.

Per quanto riguarda gli esami SAT Evidence-Based Reading & Writing e SAT Math sostenuti dagli studenti delle scuole superiori statunitensi per misurare la loro preparazione al college, GPT-4 ha ottenuto rispettivamente il 93° e l'89° percentile.

GPT-4 eccelleva anche nelle scienze "dure", registrando punteggi percentili ben al di sopra della media in Biologia AP (85-100%), Chimica (71-88%) e Fisica 2 (66-84%).

*Risultati degli esami di GPT-4 e GPT-3.5 su una serie di recenti esami statunitensi.* *Fonte: OpenAI.*

Tuttavia il suo punteggio AP Calculus era abbastanza nella media, classificandosi tra il 43° e il 59° percentile.

Un'altra area in cui mancava GPT-4 era negli esami di letteratura inglese, con punteggi compresi tra l'8° e il 44° percentile in due test separati.

OpenAI ha affermato che GPT-4 e GPT-3.5 hanno sostenuto questi test dagli esami pratici 2022-2023 e che "nessuna formazione specifica" è stata seguita dagli strumenti di elaborazione linguistica:

“Non abbiamo fatto una formazione specifica per questi esami. Una minoranza dei problemi negli esami è stata riscontrata dal modello durante l'allenamento, ma riteniamo che i risultati siano rappresentativi.

I risultati hanno suscitato timore anche nella comunità di Twitter.

Correlato: In che modo ChatGPT influenzerà lo spazio Web3? Le risposte del settore

Nick Almond, il fondatore di FactoryDAO detto i suoi 14,300 follower su Twitter il 14 marzo che GPT4 "spaventerà le persone" e farà "collassare" il sistema educativo globale.

La teoria della valutazione è stata una parte importante della mia vita per diversi anni. Continuavo a parlare di questo giorno che sarebbe arrivato molti anni fa. All'epoca suonavo letteralmente come il pazzo residente.
Ma... davvero questo significa che tutto ciò che non è una valutazione sorvegliata è finita da questo punto in poi.
— drnick ️² (@DrNickA) 14 Marzo 2023

L'ex direttore di Coinbase, Conor Grogan, ha affermato di aver inserito un contratto intelligente Ethereum live in GPT-4 e ha immediatamente indicato diverse "vulnerabilità di sicurezza" e ha delineato come il codice può essere sfruttato:

Ho scaricato un contratto Ethereum live in GPT-4.
In un istante, ha evidenziato una serie di vulnerabilità di sicurezza e ha indicato le aree di superficie in cui il contratto potrebbe essere sfruttato. Ha quindi verificato un modo specifico in cui avrei potuto sfruttare il contratto pic.twitter.com/its5puakUW
— Conor (@jconorgrogan) 14 Marzo 2023

Precedenti audit sui contratti intelligenti su ChatGPT hanno rilevato che la sua prima versione era anche in grado di individuare bug del codice in misura ragionevole.

Rowan Cheung, il fondatore della newsletter AI "The Rundown", ha condiviso un video di GPT che trascrive in codice un sito Web falso disegnato a mano su un pezzo di carta.

Ho appena visto GPT-4 trasformare uno schizzo disegnato a mano in un sito web funzionale.
Questo è folle. pic.twitter.com/P5nSjrk7Wn
— Rowan Cheung (@rowancheung) 14 Marzo 2023