L’ingegneria del software, specialmente nelle aziende che operano su scala globale con infrastrutture di delivery in tempo reale, è costantemente assediata dalla sfida della risoluzione degli incidenti. Quando un sistema critico, come una piattaforma pubblicitaria ad alta frequenza o un motore logistico, subisce un down o un rallentamento, ogni minuto di inattività si traduce direttamente in perdite economiche e danni reputazionali. È in questo contesto ad altissima pressione che DoorDash, il colosso del delivery di cibo e merci, ha trovato un alleato cruciale nell’Intelligenza Artificiale Deductiva, riuscendo a risparmiare cumulativamente oltre 1.000 ore di lavoro ai suoi ingegneri in un solo anno, automatizzando il processo più stressante e dispendioso: l’analisi della causa radice degli errori.
Il problema centrale affrontato dal team di ingegneria di DoorDash, in particolare quello che gestisce la sua Ads Platform, risiedeva nella latenza critica e nella complessità dell’infrastruttura. La piattaforma pubblicitaria, che gestisce aste in tempo reale e deve consegnare annunci in meno di un decimo di secondo (meno di 100 millisecondi), non può permettersi investigazioni manuali lunghe o ambigue. Ogni allerta operativa, ogni picco anomalo nelle metriche, innescava in precedenza una caccia al tesoro tra dozzine di servizi interconnessi, log criptici, trace di sistema e infinite metriche di performance. Questo processo manuale, tipicamente eseguito dagli ingegneri di reperibilità (on-call), non solo rallentava drasticamente il tempo medio di mitigazione (MTTM), ma imponeva un carico cognitivo insostenibile sui professionisti chiamati a operare sotto pressione nelle ore più disparate.
Per superare questa barriera, DoorDash ha integrato la piattaforma di Deductive AI, un sistema progettato per agire come un vero e proprio Agente di Affidabilità del Sito (SRE) basato su IA. L’essenza di questa tecnologia risiede nella sua capacità di ragionamento deduttivo e agentivo, che imita il flusso di lavoro di un ingegnere esperto e di alto livello. Quando scatta un allarme, l’agente di Deductive AI non si limita a notificare il problema, ma avvia immediatamente una complessa investigazione automatizzata.
Il sistema procede correlando in modo trasversale e simultaneo una vasta gamma di dati: il codice recentemente modificato (change metadata), i log generati dal sistema, le metriche di performance e le trace di esecuzione. A partire da questi segnali, l’IA genera ipotesi sulla potenziale causa radice e le testa rapidamente contro l’evidenza reale del sistema. Quello che per un umano richiedeva ore di navigazione tra dashboard e repository sparsi, viene condensato dall’agente in un flusso di lavoro intelligente e guidato dai dati che culmina, nel giro di pochi minuti, nell’identificazione del problema e in insight chiari e utilizzabili.
L’impatto di questa automazione non si misura solo nella pura velocità di risoluzione. Riducendo il tempo speso in analisi manuale, a volte del 90%, l’adozione di Deductive AI ha trasformato l’esperienza del triage degli allarmi. Il risparmio di mille ore di ingegneria rappresenta il valore cumulativo di tutte quelle ore non più sprecate in indagini stressanti e spesso inconcludenti, permettendo ai team di reindirizzare la loro preziosa energia verso attività di sviluppo e innovazione, anziché di semplice manutenzione correttiva. DoorDash ha così compiuto un passo decisivo verso il suo obiettivo di raggiungere una finestra di risoluzione degli incidenti di dieci minuti entro il 2026, posizionando l’IA Deductiva non come un semplice strumento, ma come un’estensione critica del team SRE, essenziale per mantenere l’affidabilità e la performance di un’infrastruttura logistica in continua evoluzione.