Nel panorama attuale dell’intelligenza artificiale, la trasparenza e l’etica nell’addestramento dei modelli linguistici di grandi dimensioni (LLM) sono diventate questioni di primaria importanza. Mentre molte aziende tecnologiche mantengono riservatezza sui dati utilizzati per addestrare i loro modelli, IBM ha adottato un approccio differente con il rilascio del suo ultimo LLM, Granite 3.0.
Granite 3.0 rappresenta un passo significativo nell’impegno di IBM verso la trasparenza. Pochi giorni dopo il lancio, Armand Ruiz, Vicepresidente del Product-AI Platform di IBM, ha reso pubblici i dataset utilizzati per l’addestramento del modello. Questa pratica di divulgazione dettagliata dei dati di addestramento è stata una costante nelle recenti iniziative di IBM, distinguendola da altri leader del settore.
Secondo Ruiz, “Questa è vera trasparenza. Nessun altro fornitore di LLM condivide informazioni così dettagliate sui propri dataset di addestramento”. Questo livello di apertura è stato riconosciuto anche da istituzioni accademiche. Un rapporto del Foundation Model Transparency Index di Stanford ha assegnato ai modelli Granite di IBM un punteggio del 100% in termini di trasparenza e apertura.
Oltre alla trasparenza, IBM ha dimostrato un forte impegno verso la sostenibilità. I modelli linguistici Granite 3.0 sono stati addestrati su Blue Vela, un’infrastruttura di supercalcolo alimentata interamente da energie rinnovabili. Questo sottolinea l’attenzione di IBM nel ridurre l’impatto ambientale delle sue operazioni di intelligenza artificiale.
Dal punto di vista finanziario, l’approccio di IBM all’IA generativa ha portato a risultati notevoli. Arvind Krishna, CEO di IBM, ha dichiarato che il business legato all’IA generativa ha superato i 3 miliardi di dollari, con un incremento di oltre 1 miliardo di dollari rispetto al trimestre precedente.
In contrasto, altre grandi aziende tecnologiche come Apple, OpenAI e Google mantengono riservatezza sui dati utilizzati per addestrare i loro modelli linguistici. Spesso, queste aziende affermano di utilizzare dati “pubblicamente disponibili” senza fornire dettagli specifici. Questo approccio ha sollevato preoccupazioni riguardo alla trasparenza e all’uso etico dei dati.