Il modello linguistico più recente di OpenAI, o1-Preview, ha dimostrato prestazioni eccezionali ottenendo un punteggio di 97 su 100 nel Test di Abilità Scolastica del Collegio (CSAT) per la lingua coreana.
Questo risultato colloca il modello nel top 4% dei partecipanti al test, evidenziando le sue avanzate capacità di comprensione linguistica e ragionamento logico.
La valutazione è stata condotta da MarkerAI, un’organizzazione di ricerca sull’intelligenza artificiale, che ha testato cinque modelli linguistici di grandi dimensioni (LLM) su un decennio di esami CSAT di lingua coreana, dal 2015 al 2024. L’assessment si è concentrato su diverse competenze, tra cui:
- Comprensione linguistica
- Identificazione dei contenuti principali
- Ragionamento logico
- Pensiero critico
- Pensiero creativo
- Interpretazione multimediale
La valutazione ha utilizzato lo stesso sistema di punteggio e classificazione del CSAT reale, permettendo un confronto diretto tra le prestazioni umane e quelle degli LLM.
Tra i modelli testati, o1-Preview ha ottenuto il punteggio più alto, commettendo un solo errore nella domanda 8 della sezione non letteraria, una domanda che ha registrato il tasso di risposta errata più elevato tra i candidati del 2025. Questo risultato sottolinea la competenza del modello nella comprensione linguistica e nell’analisi logica.
Il successo di o1-Preview in questa rigorosa valutazione suggerisce che gli LLM stanno raggiungendo, e in alcuni casi superando, le prestazioni umane in compiti linguistici complessi. Questo progresso indica il potenziale di tali modelli di servire come strumenti sofisticati accessibili a un ampio pubblico, migliorando varie applicazioni che richiedono un’elaborazione avanzata del linguaggio.