Nell’Intelligenza Artificiale Generativa, dove i modelli text-to-video di OpenAI e Google dettano il ritmo con clip mozzafiato ma brevissime, emerge dall’ombra una nuova startup con una promessa rivoluzionaria. CraftStory, fondata dagli esperti che hanno creato e sviluppato la libreria di visione artificiale più utilizzata al mondo, OpenCV, ha lanciato il suo Modello 2.0, un sistema in grado di generare video realistici incentrati sull’essere umano della durata di cinque minuti, compiendo un balzo in avanti significativo rispetto al limite massimo di 25 secondi di Sora o alle clip di 10 secondi della maggior parte dei concorrenti.

Lanciata con un finanziamento iniziale di due milioni di dollari, proveniente quasi interamente da Andrew Filev, ex CEO di Wrike, CraftStory non sta semplicemente inseguendo i giganti: sta aggirando uno dei limiti più stringenti che affliggono il nascente settore dell’IA video, ovvero la durata e la coerenza temporale su sequenze estese. Questo progresso non è destinato soltanto a stupire il pubblico, ma a sbloccare un notevole valore commerciale per le aziende. Nei mercati della formazione, del marketing e delle dimostrazioni di prodotto, dove le clip brevi, per quanto raffinate, si sono dimostrate inadeguate, un video di cinque minuti coerente può finalmente colmare il divario, trasformando la produzione di contenuti aziendali.

Il cuore della rivoluzione di CraftStory risiede in un’architettura di diffusione completamente ripensata, che l’azienda definisce “parallelizzata”. I modelli tradizionali di generazione video, nel tentativo di allungare la durata, operano su volumi tridimensionali in cui il tempo costituisce il terzo asse. Per sequenze più lunghe, questi modelli richiedono reti proporzionalmente più grandi, maggiori dati di training e risorse di calcolo esponenzialmente superiori. Questo approccio sequenziale finisce per accumulare artefatti e incoerenze man mano che il video progredisce.

CraftStory, al contrario, esegue simultaneamente più algoritmi di diffusione più piccoli per l’intera durata del video, collegandoli con vincoli bidirezionali. Come spiega il CEO Victor Erukhimov, “anche la parte finale del video può influenzare la parte iniziale”. Questo permette al sistema di non propagare gli errori generati nelle prime fasi e di elaborare i cinque minuti completi in un unico processo interconnesso, anziché procedere segmenti di otto secondi in segmenti, come fanno i concorrenti. Questa profonda innovazione architetturale ha permesso di superare le barriere di durata che hanno finora limitato la concorrenza.

Un altro elemento distintivo che riflette l’eredità di OpenCV di Erukhimov è l’attenzione maniacale per la qualità dei dati, piuttosto che per la loro quantità. La startup ha basato il suo Modello 2.0 su filmati proprietari commissionati a studi cinematografici, che hanno ripreso attori utilizzando sistemi ad alta frequenza di fotogrammi. Questi video catturano dettagli nitidi e movimenti chiari, anche in elementi rapidi come le dita, evitando la sfocatura tipica delle clip standard di YouTube. Erukhimov è categorico: “non servono molti dati né un budget elevato per la formazione per creare video di alta qualità… Bastano solo dati di alta qualità”.

Il Modello 2.0 funziona, per ora, come un sistema video-video: l’utente fornisce un’immagine statica da animare e un “video di guida” contenente una persona di cui l’IA replica i movimenti. L’azienda fornisce video di guida preimpostati, girati con professionisti che ricevono una quota sui ricavi, oppure gli utenti possono caricare i propri filmati. Il sistema è in grado di generare clip a bassa risoluzione di 30 secondi in circa 15 minuti, implementando anche una sofisticata sincronizzazione labiale e algoritmi di allineamento dei gesti per far corrispondere il linguaggio del corpo al tono emotivo della traccia audio.

Con soli 2 milioni di dollari di finanziamento, CraftStory si scontra con rivali che hanno raccolto miliardi. Tuttavia, il CEO Erukhimov e l’investitore Andrew Filev respingono l’idea che un capitale ingente sia un prerequisito per il successo nell’IA, sostenendo che l’informatica da sola non è l’unica via. La loro strategia è puntare sulle persone e sulle competenze verticali in un settore dove la profonda conoscenza della visione artificiale – il campo in cui Erukhimov, uno dei primi a contribuire a OpenCV, ha dedicato la sua carriera – è un vantaggio critico.

Come afferma Filev: “Ciò che a volte sfugge è che il video generato dall’intelligenza artificiale non riguarda solo la parte generativa. Riguarda la comprensione del movimento, delle dinamiche facciali, della coerenza temporale e del modo in cui gli esseri umani si muovono realmente”. È esattamente questo know-how nel padroneggiare i movimenti umani che posiziona CraftStory come un player unico. Mentre i grandi laboratori sono in una “corsa agli armamenti” per modelli di base video di uso generale, CraftStory sta costruendo uno “studio di produzione e la catena di montaggio” specializzata su un formato specifico: video di lunga durata, coinvolgenti e incentrati sull’uomo.

Questa scelta strategica, decisamente orientata al B2B (Business-to-Business), mira a soddisfare le esigenze di aziende software che necessitano di video di formazione, tutorial sui prodotti e demo complesse, tutti contenuti che richiedono intrinsecamente sequenze più lunghe e coerenza assoluta. L’azienda offre un valore centrato su costi e velocità, promettendo che un piccolo imprenditore potrebbe creare in pochi minuti contenuti che in precedenza sarebbero costati decine di migliaia di dollari e mesi di lavoro. Il futuro di CraftStory prevede già un modello text-to-video e il supporto per scenari con telecamere in movimento, ma la sua scommessa principale rimane la specializzazione: laddove i giganti forniscono i motori, CraftStory sta costruendo gli strumenti di produzione.

Il Modello 2.0 è già disponibile, e l’ottimismo di Erukhimov è palpabile: “I video generati dall’intelligenza artificiale diventeranno presto il mezzo principale con cui le aziende comunicano le loro storie”. Resta da vedere se la competenza tecnica mirata e un capitale limitato saranno sufficienti per ritagliarsi una fetta di mercato significativa contro la potenza di fuoco dei colossi, ma una cosa è certa: la battaglia per il futuro del video AI si sta giocando sulla durata.

Di Fantasy