Le aziende tecnologiche stanno implementando modelli di linguaggio di grandi dimensioni (LLM) con risultati impressionanti, ma misurare le loro reali capacità sta diventando sempre più difficile. Secondo un rapporto tecnico di OpenAI, il modello GPT-4 si è comportato in modo impressionante nei test standardizzati come gli esami di abilitazione, i test di matematica SAT e gli esami di lettura e scrittura. Tuttavia, i test progettati per gli esseri umani potrebbero non essere un buon punto di riferimento per misurare le capacità degli LLM.
Ci sono problemi con il test degli LLM sugli esami di licenza professionale, come la “contaminazione dei dati di addestramento”. Ciò accade quando un modello addestrato viene testato sui dati con cui è stato addestrato, e con troppa formazione, il modello potrebbe memorizzare i suoi esempi di formazione ed eseguire molto bene su di essi, dando l’impressione di aver appreso il compito. Ma fallirà su nuovi esempi. Gli LLM sono addestrati su tutto il testo su Internet, quindi anche se i dati esatti del test non sono nel corpus di addestramento, ci sarà qualcosa di molto simile. Questo può portare a conclusioni errate dai risultati dei test.
Gli esseri umani costruiscono gradualmente le loro abilità e conoscenze a strati attraverso anni di esperienza, studio e formazione. Gli esami progettati per gli esseri umani presuppongono che il candidato possieda già queste abilità e conoscenze preparatorie e pertanto non le testano a fondo. D’altra parte, i modelli linguistici hanno dimostrato di poter abbreviare la strada verso le risposte senza la necessità di acquisire competenze preliminari.
Tuttavia, questi modelli commettono errori non umani, difficili da prevedere, e “dobbiamo stare molto attenti quando supponiamo che possano generalizzare in modi che possono fare gli umani”. Un LLM che supera gli esami attraverso la memorizzazione e il ragionamento superficiale potrebbe essere utile per alcune applicazioni, ma non può fare la gamma di cose che un professionista può fare. Ciò è particolarmente vero per gli esami di avvocato, che enfatizzano eccessivamente la conoscenza della materia e sottovalutano le abilità del mondo reale che sono difficili da misurare in un modo standardizzato e amministrato dal computer.
Per capire le reali capacità degli LLM, è necessario studiare professionisti che utilizzano LLM per svolgere il proprio lavoro. Per ora, gli LLM hanno molte più probabilità di aumentare i professionisti piuttosto che sostituirli.
Inoltre, un altro problema con il test degli LLM è la mancanza di abilità e conoscenze fondamentali necessarie per comprendere un particolare argomento. Questo non viene testato su test progettati per gli esseri umani perché si può benissimo presumere che le persone lo sappiano. Questo può essere evidente in esami come quelli di matematica dove i LLM possono fallire in problemi matematici molto elementari posti in linguaggio naturale.
Anche la natura del corpus di addestramento degli LLM può essere problematica per la loro valutazione. Poiché gli LLM sono addestrati su una vasta quantità di testo preso dal web, può essere difficile separare i dati di addestramento e i dati di test. Questo può portare a una memorizzazione eccessiva da parte del modello dei dati di addestramento, producendo risultati falsamente positivi nei test.
In definitiva, gli LLM possono essere molto utili in molte applicazioni e possono superare gli esseri umani in alcune sfere, ma la loro valutazione richiede una maggiore attenzione e una valutazione basata su risultati nel mondo reale. Studiare professionisti che utilizzano LLM per svolgere il proprio lavoro può fornire una visione più completa delle capacità e dei limiti di questi modelli di intelligenza artificiale per le attività del mondo reale.