Google Cloud ha annunciato un’offerta che mira a cambiare il modo in cui le imprese – specialmente quelle che pianificano di addestrare modelli di grandi dimensioni da zero – gestiscono la propria infrastruttura di calcolo. Google Cloud propone un servizio che integra un ambiente gestito con il sistema di orchestrazione dei job Slurm, pensato per l’addestramento di modelli su larga scala e destinato a rivaleggiare con provider specializzati come CoreWeave e con piattaforme cloud tradizionali quali Amazon Web Services (AWS) e Microsoft Azure.
La proposta si chiama Vertex AI Training e si rivolge in particolare a quelle organizzazioni che non si limitano a «rifinire» modelli già esistenti, ma vogliono costruirli da zero o personalizzarli in profondità. Secondo Google Cloud, la nuova offerta fornisce non solo l’accesso a ampia capacità di calcolo – GPU, TPU e infrastruttura di storage e rete – ma include anche il “contorno” necessario: un ambiente orchestrato, checkpoint automatici, ripartenza dei job in caso di errore, e schedulazione gestita per decine, centinaia o addirittura migliaia di chip.
Questo approccio segna un’evoluzione nell’offerta infrastrutturale per l’IA aziendale. In passato le aziende che volevano “fare da sé” – cioè non limitarsi al fine-tuning di modelli esistenti – dovevano spesso gestire da sé la complessità della rete, dello storage, del deploy dei nodi, dei task schedulati, della tolleranza agli errori. Google Cloud, con la funzione “Managed Slurm” all’interno di Cluster Director, si propone come fornitore che semplifica l’intero processo: gli utenti non devono più assemblare ogni componente, ma possono “arrivare e partire” con un cluster pre-ottimizzato per l’addestramento distribuito.
Dal punto di vista competitivo, questo annuncio evidenzia come Google Cloud punti a erodere quote non solo da AWS e Azure, ma anche da provider specializzati in GPU/cluster per IA come CoreWeave. CoreWeave, ad esempio, è nota per offrire accesso on-demand a GPU di fascia elevata e infrastrutture ottimizzate per l’IA. Con Vertex AI Training, Google Cloud entra dunque nel “gioco grosso” dell’IA che non è solo servizio “chatbot” o “modello su API”, ma addestramento di modelli proprietari, personalizzati e su larga scala.
Per le aziende, come quella della persona che ama esplorare l’IA (come Fantasy), questo può significare un cambio di paradigma. L’opzione di un provider che gestisce l’insieme (calcolo, orchestrazione, storage, rete) significa che si possono dedicare più risorse alla parte “modello”, “dati”, “workflow”, anziché all’infrastruttura. Tuttavia, questo tipo di offerta porta con sé anche una serie di considerazioni: la competenza interna per definire modelli da zero, la governance dei dati (privacy, etica, bias), i costi (non solo orarie GPU ma anche orchestrazione, rete, storage), e la maturità delle organizzazioni nel gestire modelli “in-house”.
In particolare, Google Cloud afferma che il servizio non è pensato per semplici “finetuning” o “retrieval augmented generation” (RAG) di modelli esistenti, ma per addestrare modelli “da peso zero” — con inizializzazione casuale e training completo — un’operazione molto più complessa e costosa. Questo chiarisce che l’offerta non è per tutti: per le startup o i progetti più leggeri, potrebbe risultare eccessiva oppure poco scalabile a breve termine.
L’annuncio di Google Cloud coglie alcuni trend chiave del mercato IA: la domanda crescente da parte delle imprese non solo per “usare un modello”, ma per “essere padrone del modello”; la necessità di infrastrutture che permettano di riuscire a farlo senza diventare esse stesse operatori di data-centers; l’importanza delle GPU, del networking, del tunneling tra storage e calcolo, della schedulazione e della resilienza. Se Google Cloud riuscirà a offrire tutto questo in modo affidabile, scalabile e trasparente, potrebbe davvero ridefinire il “centro” dell’ecosistema enterprise IA.
