Un mondo in cui un ristretto gruppo di utenti — spesso chiamati “balene dell’inferenza” — riesce a sfruttare servizi di intelligenza artificiale al punto da far collassare il modello economico di startup innovative? È quello che sta accadendo oggi nel settore delle piattaforme di coding assistito dall’IA: sviluppatori che pagano una tariffa mensile fissa, ma consumano quantità spropositate di risorse computazionali, portando a costi insostenibili per le aziende.

Secondo un recente articolo di Business Insider, alcune startup come Anthropic (con il suo servizio Claude Code) e Vibe Coding, stanno affrontando notevoli difficoltà finanziarie a causa di un numero limitato di utenti che monopolizzano l’intero sistema. Queste balene dell’inferenza utilizzano migliaia di dollari di risorse ogni mese, pur pagando un abbonamento fisso di soli 200 $ al mese.
Uno sviluppatore in cima alla Cos’e di Claude Code — dominando la classifica Claude Code Leaderboard — ha generato quasi 11 miliardi di token, equivalenti a 35.000 $ in costi API, pur contribuendo appena con il piano base da 200 $ al mese.

Questo tipo di utilizzo prolungato e intenso colpisce la redditività delle startup, che si ritrovano con ricavi fissi ma costi variabili enormi. Come ha osservato Eric Simons, CEO della startup Bolt (ex StackBlitz): “Se rivendi solo l’inferenza IA, il tuo modello di business è molto fragile”.

Per contrastare il fenomeno, Anthropic ha annunciato l’introduzione di limiti settimanali sui piani a 200 $, a partire dal 28 agosto. Chi supera i limiti dovrà acquistare capacità aggiuntiva. L’azienda mira così a proteggere la stabilità del servizio per la comunità nel suo complesso, evitando abusi come condivisione di account o rivendita dell’accesso.

Una delle figure più rappresentative è lo sviluppatore svedese Albert Örwall, che utilizzava Claude Code per alimentare il suo flusso di lavoro personale e progetti automatizzati. Le sue attività consumavano fino a 500 $ di risorse al giorno, ben oltre il costo mensile del suo abbonamento. Pur conscio dell’insostenibilità, Örwall ha affermato che non intende superare i 200 $ al mese.

Anche piattaforme come Cursor stanno adattando i propri modelli: abbandonati i piani illimitati, sono passate a tariffe a livelli basati sull’uso effettivo, soprattutto per richieste “fast”, ovvero quelle più costose in termini di risorse.

Per anni si è dato per scontato che i costi di inferenza scendessero con il tempo, grazie all’innovazione hardware e modelli più efficienti. Ma oggi la realtà è diversa: i modelli più avanzati sono più potenti e più costosi. La domanda si concentra inevitabilmente su di essi, e nessuno vuole utilizzare versioni economiche ma meno performanti.

Come sottolinea Ethan Ding (CEO di TextQL): “Siamo creature cognitivamente avida: vogliamo il cervello migliore disponibile.” E anche quando il prezzo per token cala, l’adozione di flussi di lavoro complessi porta comunque a un utilizzo massiccio di risorse — rendendo obsolete le vecchie strutture di abbonamento illimitato.

Di Fantasy