NVIDIA ha annunciato il lancio di Fugatto, un modello di intelligenza artificiale generativa progettato per trasformare il panorama della creazione audio. Fugatto, acronimo di “Foundational Generative Audio Transformer Opus”, è in grado di generare audio che combina musica, voci e suoni, basandosi su descrizioni testuali fornite dall’utente.
Fugatto si distingue per la sua capacità di creare frammenti musicali a partire da semplici prompt testuali, modificare la presenza di strumenti in una traccia esistente e alterare l’accento o l’emozione in una voce registrata. Una delle caratteristiche più sorprendenti è la possibilità di generare suoni inediti, come far “abbaiare” una tromba o far “miagolare” un sassofono, offrendo agli utenti una gamma creativa senza precedenti.
NVIDIA sottolinea che Fugatto è il primo modello di intelligenza artificiale generativa a mostrare “proprietà emergenti”, ovvero capacità che derivano dall’interazione tra le proprietà di addestramento. Durante l’inferenza, il modello utilizza una tecnica chiamata ComposableART per combinare istruzioni che durante l’addestramento erano state presentate separatamente. Ad esempio, è possibile richiedere una combinazione di prompt per ottenere un testo parlato con un’emozione triste e un accento francese.
Fugatto è stato progettato per soddisfare le esigenze di una vasta gamma di professionisti, tra cui produttori audio, sviluppatori di videogiochi, strumenti per l’apprendimento delle lingue e agenzie pubblicitarie. Attualmente, NVIDIA ha rilasciato una demo su GitHub e un documento tecnico dettagliato, offrendo agli sviluppatori e ai ricercatori l’opportunità di esplorare le capacità del modello.
Fugatto è stato addestrato su 2,5 miliardi di parametri utilizzando i sistemi NVIDIA DGX, equipaggiati con 32 GPU NVIDIA H100. Questa potente infrastruttura ha permesso al modello di raggiungere prestazioni elevate nella generazione e trasformazione dell’audio.
Con l’introduzione di Fugatto, NVIDIA entra in competizione con strumenti esistenti come ElevenLabs e SunoAI. Tuttavia, Fugatto si distingue per la sua capacità unica di generare suoni al di fuori del suo database di addestramento, offrendo una flessibilità creativa che altri strumenti attualmente non possono eguagliare.