Nel fermento dell’intelligenza artificiale enterprise, dove i modelli generici a parametri astronomici dominano la scena, Fastino ha deciso di tracciare un percorso completamente diverso: i Task‑Specific Language Models (TLMs). Questi modelli, plasmati per affrontare compiti ben definiti, promettono prestazioni superiori alle soluzioni generaliste, riducendo nel contempo drasticamente i costi e i tempi di elaborazione. L’annuncio è arrivato insieme a un finanziamento seed di 17,5 milioni di dollari guidato da Khosla Ventures, portando il totale raccolto dall’azienda a 25 milioni dopo il round pre‑seed di 7 milioni completato a novembre 2024.
Dietro l’idea delle TLMs c’è l’esperienza diretta dei fondatori Ash Lewis e George Hurn‑Maloney, che in una loro precedente startup hanno constatato come l’uso di LLM generici, pur potenti, fosse insostenibile a livello di costi non appena le chiamate API aumentavano di volume. Invece di inseguire la scala dei parametri, Fastino ha puntato su modelli ottimizzati da zero per svolgere compiti specifici: sintetizzare testi lunghi, chiamare funzioni con latenza ridotta, trasformare testo in JSON, redigere informazioni sensibili (PII), etichettare contenuti e persino censurare linguaggio offensivo o estrarre dati strutturati da documenti complessi.
La vera rivoluzione delle TLMs sta nella loro efficienza. Allenati su GPU da gaming commodity per meno di 100 000 $, senza mai toccare costose infrastrutture H100, questi modelli risultano fino a 99 volte più veloci dei tradizionali LLM e possono girare su CPU o GPU di fascia bassa. L’approccio non solo taglia i costi di inference e training, ma introduce anche garanzie di latenza e consumi prevedibili, fattori critici per applicazioni in tempo reale e implementazioni su larga scala.
Sul fronte economico, Fastino rompe con il paradigma “pay‑per‑token” offrendo un abbonamento mensile flat senza sorprese e un piano gratuito che include fino a 10 000 chiamate API al mese, tutte eseguite su CPU per limitare l’impatto ambientale e l’uso di risorse cloud eccessive .
Questa struttura di pricing nasce dalla volontà di rendere l’AI evoluta accessibile anche a startup e piccole imprese, eliminando le barriere finanziarie che spesso affliggono i progetti di machine learning in produzione.
La palette di impieghi reali delle TLMs è ampia e va dalla finanza alla sanità, dal supporto clienti all’e‑commerce. Già oggi, grandi aziende stanno integrando i modelli Fastino per automatizzare l’estrazione di dati da documenti, migliorare i flussi di lavoro agent‑based e potenziare i sistemi di ricerca interna. Come sottolinea Jon Chu di Khosla Ventures, “Fastino consente di ottenere prestazioni superiori alle soluzioni frontier su task specifici, impacchettate in modelli leggeri e portabili, aprendo scenari finora impraticabili con i modelli monolitici”.
Guardando al futuro, Fastino sta potenziando il proprio team di ricerca per estendere la famiglia delle TLMs a nuovi casi d’uso e per affinare ulteriormente l’architettura proprietaria. L’obiettivo è consegnare agli sviluppatori un set di strumenti sempre più ricco, capace di fondere performance di livello “frontier” con costi e complessità di esercizio di un progetto open‑source locale.
Con il supporto di investitori di primo piano — tra cui Insight Partners, M12 (il fondo di Microsoft), Valor Equity Partners, Dropbox Ventures e autorevoli business angel come Scott Johnston e Lukas Biewald — Fastino si propone di incarnare la nuova frontiera dell’AI enterprise: non più “taglia unica” generalista, ma modelli su misura, intelligenti, efficienti e accessibili.