Immagine AI

Nell’alveo della ricerca sull’intelligenza artificiale, la collaborazione tra l’Università della Pennsylvania e l’Allen Institute for Artificial Intelligence ha dato vita a un progetto il cui potenziale promette di cambiare le regole del gioco: CoSyn (Code-Guided Synthesis). Con un approccio radicalmente diverso rispetto alle metodologie tradizionali, CoSyn permette ai modelli di AI di leggere e comprendere immagini complesse — dai grafici scientifici ai diagrammi medici, fino ai documenti finanziari — senza dover dipendere da enormi raccolte di dati etichettati manualmente.

Finora, l’addestramento di sistemi visivi in grado di interpretare immagini ricche di testo ha richiesto annotazioni patienti e costose: ogni grafico o tabella doveva essere etichettato meticolosamente, con un dispendio in termini di tempo e risorse che spesso rallentava i progressi. Le alternative, come il mining di immagini e didascalie da fonti online, si scontravano con problemi di superficialità dei dati e questioni legate ai diritti d’autore. CoSyn rovescia questo paradigma: al posto di raccogliere milioni di immagini reali, sfrutta i modelli linguistici — quelli già in grado di generare codice Python, HTML o LaTeX — per produrre, via script, dataset sintetici di alta qualità.

Immaginate un modello di linguaggio che scrive un breve script LaTeX in grado di generare un diagramma a torta, con porzioni colorate e etichette precise. Oppure un frammento di Python che traccia un grafico a linee con più serie di dati e un titolo personalizzato. Ogni immagine così prodotta diventa un mattone nel dataset di addestramento di CoSyn, completo di annotazioni e metadati accurati perché generati direttamente dal codice. Questo approccio garantisce coerenza, varietà e, soprattutto, nessun timore di violazioni di copyright.

I risultati, ottenuti grazie ai benchmark focalizzati sulla comprensione di immagini testuali, sono impressionanti. Un modello open-source di appena sette miliardi di parametri, addestrato sui dataset sintetici creati da CoSyn, ha raggiunto un’accuratezza dell’80,9%, superando di quattro punti percentuali il suo predecessore diretto, Llama 3.2 a 11 miliardi di parametri, e addirittura staccando modelli proprietari come GPT-4V e Gemini 1.5 Flash in sette test chiave. Ancora più sorprendente è il fatto che il medesimo modello, in configurazione “zero-shot” — cioè senza alcun esempio proveniente dai set di valutazione — abbia comunque competuto alla pari con molte soluzioni sia open che closed source, attestando la solidità e la trasferibilità delle capacità apprese tramite dati sintetici.

Le applicazioni pratiche di CoSyn sono già in fase di esplorazione: un’impresa nel settore delle infrastrutture, per esempio, sta sperimentando un modello di visione-linguaggio addestrato con CoSyn per il controllo qualità nell’installazione di cavi. I tecnici in cantiere scattano foto dei passaggi – fissaggio dei morsetti, termoretrazione dei manicotti, test di continuità – e l’AI verifica automaticamente che ogni fase sia eseguita secondo le specifiche. Le sfide in ambito medico, finanziario e scientifico sono analoghe: un sistema capace di “leggere” un’istantanea di un ECG o di un bilancio aziendale potrebbe assistere il personale specialistico, velocizzandone il lavoro e riducendo gli errori umani.

Ma il vero valore aggiunto di CoSyn è la sua filosofia open-source: tutti i codici di generazione, i pesi dei modelli e persino i dataset sintetici sono liberamente accessibili. Questo abbassa drasticamente le barriere di ingresso per università, startup e singoli ricercatori, incentivando la collaborazione e la condivisione. Non c’è più bisogno di investire milioni in collezioni proprietarie di immagini: chiunque può riprodurre, adattare e migliorare CoSyn, alimentando un circolo virtuoso di innovazione.

Naturalmente, la generazione di dati sintetici non è priva di insidie. I modelli da cui parte il codice possono veicolare bias o limitazioni, e assicurare una sufficiente diversità di scenari resta una sfida aperta. Tuttavia, i promotori di CoSyn confidano che, combinando dati reali e sintetici, si potrà raggiungere un equilibrio ottimale: i primi garantiscono rappresentatività, i secondi offrono scala e precisione.

In un’epoca in cui la capacità di un’AI di “capire” il mondo visivo coincide con il suo potenziale di impatto, CoSyn dimostra che l’ingegno umano può ancora riscrivere le regole dell’addestramento. Il futuro della visione computazionale potrebbe non essere più fatto di insiemi sterminati di foto etichettate, bensì di linee di codice capaci di generare infinite varianti di grafici, tabelle e diagrammi: una rivoluzione silenziosa, ma destinata a lasciare il segno.

Di Fantasy