Dopo la diffusione su larga scala dei sistemi di generazione testuale e di immagini, il prossimo passo tecnologico riguarda la produzione automatica di video a partire da descrizioni in linguaggio naturale. In questo contesto OpenAI starebbe valutando un piano per integrare il proprio modello di generazione video, denominato Sora, direttamente all’interno di ChatGPT. L’iniziativa rappresenterebbe un cambiamento significativo nell’architettura della piattaforma, trasformando il chatbot da strumento principalmente conversazionale a ambiente multimodale capace di generare contenuti audiovisivi complessi.
Sora è un modello di intelligenza artificiale progettato per creare brevi sequenze video a partire da prompt testuali forniti dagli utenti. Il sistema è in grado di generare scene che includono persone, animali, ambientazioni urbane o naturali e interazioni tra diversi elementi visivi. L’obiettivo del modello è ricostruire dinamicamente una sequenza di fotogrammi coerente con la descrizione fornita, simulando movimenti, prospettiva e continuità narrativa nel tempo. OpenAI ha presentato per la prima volta Sora nel febbraio 2024 come dimostrazione tecnologica delle capacità emergenti dei modelli generativi video. Successivamente il sistema è stato reso disponibile come servizio web separato nel dicembre dello stesso anno, accompagnato da una piattaforma dedicata alla creazione e alla condivisione di contenuti generati con l’intelligenza artificiale.
Nel corso del tempo l’azienda ha continuato a sviluppare nuove versioni del modello, culminate nella presentazione di Sora 2, una versione migliorata progettata per aumentare la qualità visiva, la coerenza delle scene e la capacità di interpretare prompt complessi. Parallelamente è stata introdotta anche un’applicazione mobile dedicata che consente agli utenti di generare video e condividerli direttamente all’interno di una comunità online. Questa strategia ha inizialmente generato un notevole interesse tra gli utenti, tanto che l’app Sora ha raggiunto il primo posto nella classifica dei download sull’App Store di Apple al momento del lancio. Tuttavia, come spesso accade nel caso di applicazioni sperimentali basate su nuove tecnologie, l’entusiasmo iniziale si è progressivamente ridotto e il numero di download e l’utilizzo dell’applicazione sono diminuiti nei mesi successivi.
Secondo diverse analisi del settore, l’eventuale integrazione di Sora in ChatGPT potrebbe essere motivata principalmente dall’obiettivo di ampliare il coinvolgimento degli utenti del chatbot. ChatGPT rappresenta oggi una delle piattaforme AI più diffuse al mondo, con circa 920 milioni di utenti attivi settimanali. Nonostante questa base estremamente ampia, il servizio non ha ancora raggiunto il traguardo simbolico del miliardo di utenti che l’azienda aveva ipotizzato nel corso dell’anno precedente. L’introduzione di funzionalità di generazione video direttamente all’interno dell’interfaccia conversazionale potrebbe contribuire ad aumentare il tempo di utilizzo della piattaforma e a favorire la diffusione virale dei contenuti prodotti dagli utenti.
La strategia si inserisce anche in un contesto competitivo sempre più intenso nel settore dell’intelligenza artificiale generativa. Negli ultimi anni diverse aziende tecnologiche stanno integrando strumenti di generazione di immagini, video e audio direttamente nei loro ecosistemi digitali. In particolare, la competizione con Google viene spesso citata come uno dei fattori che spingono OpenAI ad ampliare le capacità multimodali di ChatGPT. L’applicazione Gemini di Google, ad esempio, integra già modelli avanzati di generazione di immagini e altre funzionalità creative basate su intelligenza artificiale.
Dal punto di vista tecnologico, l’integrazione di un modello di generazione video all’interno di un chatbot rappresenta una sfida molto più complessa rispetto alla generazione di testo o immagini. I modelli linguistici tradizionali producono sequenze di token testuali relativamente leggere dal punto di vista computazionale. I modelli di generazione di immagini richiedono invece una maggiore quantità di calcolo per produrre rappresentazioni visive ad alta risoluzione. La generazione video introduce un ulteriore livello di complessità, poiché richiede la creazione di centinaia o migliaia di fotogrammi coerenti tra loro, simulando dinamiche fisiche, movimenti della camera e continuità temporale.
Per generare una sequenza video credibile, il modello deve non solo creare singole immagini ma anche garantire che gli oggetti presenti nella scena mantengano una coerenza visiva tra un fotogramma e l’altro. Questo implica l’utilizzo di architetture neurali avanzate e di enormi quantità di potenza di calcolo durante la fase di inferenza, cioè il momento in cui il modello produce il contenuto richiesto dall’utente.
Di conseguenza, l’integrazione di Sora in ChatGPT potrebbe avere implicazioni significative per i costi operativi dell’azienda. La generazione di video richiede infatti una quantità di risorse computazionali molto superiore rispetto alla generazione di testo o immagini. Ogni richiesta video comporta l’esecuzione di modelli complessi su infrastrutture GPU o acceleratori AI ad alte prestazioni, con un consumo elevato di energia e di capacità di calcolo nei data center.
Le previsioni interne indicano che OpenAI potrebbe spendere oltre 225 miliardi di dollari in costi di inferenza entro il 2030 per sostenere il funzionamento dei suoi servizi AI, inclusi prodotti come ChatGPT. Questa cifra riflette l’enorme investimento necessario per mantenere operativi sistemi che devono gestire centinaia di milioni di richieste da parte degli utenti in tempo reale. L’aggiunta di una funzione di generazione video potrebbe aumentare ulteriormente questi costi, soprattutto se venisse resa disponibile su larga scala.
Per questo motivo molti analisti ritengono improbabile che la generazione video venga offerta gratuitamente a tutti gli utenti del chatbot. Una possibilità è che la funzionalità venga riservata agli abbonati ai piani premium o che venga introdotto un sistema di limitazioni sul numero di video generabili. Un’altra ipotesi è che la generazione video venga offerta in forma ridotta, ad esempio con clip di durata limitata o con qualità visiva inferiore rispetto alla versione completa del modello.
Nel frattempo OpenAI sembra intenzionata a mantenere attiva la piattaforma separata dedicata a Sora, almeno nel breve periodo. Non è ancora chiaro se questa applicazione continuerà a esistere nel lungo termine o se verrà progressivamente integrata nell’ecosistema di ChatGPT. In molti casi, le aziende tecnologiche utilizzano piattaforme separate per sperimentare nuove tecnologie prima di integrarle nei prodotti principali.
