Due modelli AI emergono come protagonisti: DeepSeek-R1 e o1 di OpenAI. Sebbene entrambi abbiano dimostrato eccellenti capacità in test standardizzati, la vera prova del loro valore risiede nelle prestazioni su compiti pratici e quotidiani. Un’analisi approfondita condotta da VentureBeat ha messo a confronto questi due modelli in scenari reali, rivelando punti di forza e aree di miglioramento per ciascuno.
Per valutare le capacità pratiche dei modelli, è stato ideato un compito specifico: calcolare il rendimento di un portafoglio in cui un investitore ha allocato $140 mensili nei “Magnificent Seven” (Alphabet, Amazon, Apple, Meta, Microsoft, Nvidia, Tesla) dal gennaio al dicembre 2024. L’obiettivo era determinare il valore totale del portafoglio alla data corrente. Questo richiedeva ai modelli di:
- Recuperare i prezzi delle azioni dei sette titoli all’inizio di ogni mese nel 2024.
- Distribuire equamente l’investimento mensile di $140, ossia $20 per ciascuna azione.
- Calcolare il numero di azioni acquistate mensilmente e il valore complessivo del portafoglio basato sui prezzi attuali delle azioni.
Entrambi i modelli hanno mostrato difficoltà nell’eseguire correttamente il compito:
- o1 di OpenAI: Ha fornito un elenco dei prezzi delle azioni per gennaio 2024 e gennaio 2025, accompagnato da una formula per il calcolo del valore del portafoglio. Tuttavia, non è riuscito a eseguire correttamente i calcoli, suggerendo erroneamente che non vi fosse alcun rendimento sull’investimento.
- DeepSeek-R1: Ha commesso l’errore di considerare l’investimento solo nel gennaio 2024, calcolando il rendimento fino a gennaio 2025, invece di considerare investimenti mensili lungo tutto l’anno.
Un aspetto distintivo emerso è stato il livello di trasparenza nel processo di ragionamento dei modelli:
- o1: Ha fornito informazioni limitate sul proprio processo decisionale, rendendo difficile comprendere dove e perché si siano verificati errori.
- DeepSeek-R1: Ha offerto una traccia dettagliata del proprio ragionamento, evidenziando che la difficoltà principale risiedeva nel recupero dei dati necessari. In particolare, la capacità di R1 di “pensare ad alta voce” ha permesso di identificare che il problema derivava dalla mancanza di dati specifici sui prezzi mensili delle azioni, piuttosto che da un errore intrinseco nel modello stesso.
Sebbene entrambi i modelli abbiano mostrato limitazioni nell’affrontare compiti pratici complessi, la trasparenza di DeepSeek-R1 nel suo processo di ragionamento rappresenta un vantaggio significativo. Questa caratteristica non solo facilita l’identificazione e la correzione degli errori, ma aumenta anche la fiducia degli utenti nelle risposte fornite. D’altra parte, o1 di OpenAI, pur eccellendo in alcuni compiti di ragionamento, potrebbe beneficiare di una maggiore trasparenza nel suo processo decisionale.