Immagine AI

Quando si parla di intelligenza artificiale in ambito enterprise, gran parte dell’attenzione storica è stata rivolta alla fase di addestramento dei modelli — quella che richiede enormi risorse computazionali, dataset massivi e architetture complesse. Ma c’è un momento altrettanto critico, spesso meno celebrato: l’inferenza, ossia l’esecuzione del modello per generare risposte, porre domande, rispondere a input, agire come agente. È proprio qui che la nuova versione Red Hat AI 3 intende fare la differenza, trasformando la promessa dell’AI agentica in realtà operativa per le aziende di medie e grandi dimensioni.

Red Hat ha costruito AI 3 come una piattaforma ibrida, cloud-nativa e aperta, pensata per gestire le complessità reali che molte organizzazioni incontrano quando provano a spostare i progetti AI “da laboratorio” a operativi. L’idea è semplice ma ambiziosa: offrire una base unificata che copra diversi ambienti — data center, cloud, ambienti “sovrani” (sovereign AI), edge — e supportare modelli su qualunque hardware, indipendentemente se GPU NVIDIA, AMD, o altre soluzioni acceleratrici.

Il punto focale di questa evoluzione è llm-d, un motore di inferenza distribuita che entra in scena tramite OpenShift AI 3 e diventa generalmente disponibile. llm-d porta intelligenza nella distribuzione del carico di inferenza, usando scheduling smart, serving disaggregato e una gestione flessibile del modello che tiene conto delle variabili caratteristiche delle richieste di AI (latenza, variabilità, load spike). Con llm-d, modelli di grandi dimensioni non vengono confinati a una singola macchina monolitica, ma orchestrati su nodi multipli in modo che ogni richiesta riceva risorse adeguate.

Il valore pratico di llm-d emerge proprio nella natura difficile del carico di lavoro AI: le richieste non sono uniformi, le dimensioni del prompt variano, i modelli possono richiamare cache interne (key-value cache) e richiedere mantenimento di stato. Red Hat AI 3 mira a essere “consapevole dell’inferenza” (“inference-aware”), ovvero a capire quando e come allocare risorse con efficienza, piuttosto che trattare ogni chiamata come identica.

Ma Red Hat non si ferma all’infrastruttura grezza. Un’altra dimensione importante è quella della collaborazione fra team: AI 3 introduce Model-as-a-Service (MaaS), che permette alle aree IT di fungere da provider interni di modelli, distribuendo endpoint interni per applicazioni AI con gestione centralizzata. Accanto a questo, c’è l’AI Hub, un catalogo curato di modelli validati, ambienti di governance, tracciamento del ciclo di vita dei modelli; e la Gen AI Studio, uno spazio interattivo per prototipazione, tuning, sperimentazione, valutazione e monitoraggio.

Fra le novità introdotte vi sono modelli open source ottimizzati inclusi in AI 3, come gpt-oss, DeepSeek-R1, Whisper (per trascrizioni vocali) e Voxtral Mini (per agenti vocali) — modelli pensati per accelerare lo sviluppo di applicazioni conversazionali, multi-modali o RAG (retrieval-augmented generation).

Red Hat AI 3 non cerca soltanto di supportare le richieste di inferenza: punta a impiantare le basi per un’AI agentica scalabile. Per farlo, introduce un Unified API layer basato su Llama Stack, così da garantire compatibilità con interfacce di modelli OpenAI e standard emergenti. A complemento, c’è l’adozione iniziale del Model Context Protocol (MCP), che facilita l’interazione fra modelli e strumenti esterni: per esempio, un agente che chiama API esterne, accede a database, esegue comandi, ecc.

Nel panorama competitivo, Red Hat mette la sua forza nell’open source, nella portabilità e nella governance. In molti ambienti aziendali, il problema non è “fare IA”, ma “gestire l’IA in sicurezza, a costi sostenibili, su infrastrutture esistenti”. AI 3 risponde direttamente a questa esigenza, non promettendo magie, ma offrendo strumenti integrati per orchestrare modelli, infrastrutture e team.

Di Fantasy