Google Cloud Run ha lanciato una nuova funzionalità che potrebbe cambiare il modo in cui le organizzazioni gestiscono l’inferenza AI. La piattaforma serverless di Google ora supporta le GPU Nvidia L4, consentendo l’esecuzione di inferenza AI senza la necessità di istanze di server permanenti.

Tradizionalmente, le organizzazioni dovevano scegliere tra eseguire inferenza AI su server cloud a lungo termine o utilizzare hardware locale. Con l’introduzione del supporto per GPU Nvidia L4, Google Cloud Run offre ora un’opzione più flessibile e scalabile. I servizi serverless, come Cloud Run, funzionano solo quando sono necessari, permettendo agli utenti di pagare solo per l’effettivo utilizzo delle risorse.

Il nuovo supporto GPU per Cloud Run è attualmente in fase di anteprima. Le GPU Nvidia L4 possono essere utilizzate con diversi framework per l’inferenza AI, come Nvidia NIM, VLLM, Pytorch e Ollama.

Cloud Run è già apprezzato dagli sviluppatori per la sua capacità di semplificare la distribuzione e gestione dei container. Con l’aggiunta del supporto GPU, gli sviluppatori possono ora:

  • Eseguire inferenza in tempo reale con modelli di AI leggeri e veloci, come Gemma 2B/7B e Llama3 (8B), per creare chatbot e strumenti di riepilogo documenti.
  • Creare modelli di intelligenza artificiale generativa personalizzati, come applicazioni di generazione di immagini per marchi specifici.
  • Accelerare servizi ad alta intensità di calcolo, come il riconoscimento delle immagini e il rendering 3D, con la possibilità di scalare a zero quando non sono in uso.

Google Cloud assicura che le prestazioni delle istanze Cloud Run con GPU Nvidia sono elevate. I tempi di avvio a freddo variano tra 11 e 35 secondi per diversi modelli, dimostrando che la piattaforma è reattiva.

Ogni istanza di Cloud Run può essere dotata di una GPU Nvidia L4, con fino a 24 GB di vRAM, adatta per molte attività di inferenza AI. Google Cloud afferma che non ci sono limiti sui modelli AI che possono essere eseguiti, anche se per ottenere le migliori prestazioni si consiglia di utilizzare modelli con fino a 13 miliardi di parametri.

Per quanto riguarda i costi, il vantaggio principale del serverless è l’uso più efficiente dell’hardware, che potrebbe ridurre le spese. Tuttavia, se questa opzione risulta effettivamente più economica rispetto ai server di lunga durata dipende dal caso d’uso specifico e dal modello di traffico previsto. Google Cloud aggiornerà presto il suo calcolatore dei prezzi per riflettere le nuove tariffe GPU, permettendo ai clienti di confrontare i costi tra diverse piattaforme.

Di Fantasy