Nel vasto e in continua espansione sviluppo del Machine Learning (ML), la vera sfida per le grandi aziende non risiede più soltanto nella creazione di modelli innovativi, ma nella gestione efficiente e nella riproducibilità degli esperimenti su larga scala. Il processo di sviluppo del Machine Learning è notoriamente afflitto da inefficienze, che spesso costringono i data scientist a sprecare tempo prezioso e risorse di calcolo nella ripetizione di passaggi già eseguiti. Riconoscendo questo problema, Shopify, colosso dell’e-commerce, ha sviluppato internamente una piattaforma di sperimentazione chiamata Tangle, che non solo ha risolto questo problema a livello aziendale, ma è stata recentemente resa disponibile come progetto open-source, portando con sé la straordinaria credenziale di aver già fatto risparmiare all’azienda oltre un anno di tempo di calcolo (compute time).
Il problema fondamentale affrontato da Tangle affonda le radici nella natura stessa del lavoro con il Machine Learning. Le fasi iniziali di un progetto di ML, che includono la preparazione dei dati, l’ingegneria delle feature e l’esecuzione di complessi processi di pre-processing, sono intensamente dispendiose in termini di risorse. Prima dell’introduzione di Tangle, gli ingegneri di Shopify si trovavano spesso a dover ricostruire set di dati identici o a rieseguire lunghi passaggi di pre-elaborazione solo per riprodurre un risultato precedente o per modificare una singola variabile.
Questa ridondanza era particolarmente acuta per team come quello di Ricerca e Scoperta di Shopify, che gestiscono milioni di prodotti e miliardi di query. In un contesto così vasto, il costo del tempo perso e dello spreco di potenza di calcolo diventa insostenibile. Le analisi interne hanno rivelato che gran parte del tempo di sviluppo, in alcuni casi fino all’80%, era dedicato all’ingegneria dei dati e non al vero cuore del lavoro, l’algoritmica. Questa inefficienza non solo rallentava il ciclo di innovazione, ma aumentava esponenzialmente i costi operativi.
Tangle è stato concepito per trasformare questo processo caotico in un flusso di lavoro determinista e snello. La piattaforma funziona come un ambiente di sperimentazione globale che impone la riproducibilità automatica di ogni esperimento. La magia di Tangle risiede nel suo meccanismo di gestione degli artefact e delle dipendenze: ogni passaggio del pipeline di ML viene eseguito in isolamento all’interno di container, garantendo un comportamento coerente.
La funzionalità cruciale è il riuso automatico degli artefact, ovvero l’implementazione di un meccanismo di caching intelligente. Se un data scientist esegue un passaggio costoso di pre-elaborazione e un collega tenta di eseguire lo stesso passaggio o un’iterazione successiva che dipende da quel risultato intermedio, Tangle riconosce che il risultato è già stato calcolato e salvato nella cache. In questo modo, il sistema evita di rieseguire il calcolo da zero, riciclando invece l’output precedentemente generato. È questa capacità di condividere la computazione tra i membri del team senza necessità di coordinamento manuale che ha portato ai massivi risparmi di tempo di calcolo, quantificati internamente da Shopify in più di un anno di tempo CPU.
La decisione di rendere Tangle open-source estende questi benefici all’intera comunità di sviluppatori e specialisti ML, promuovendo le migliori pratiche nel campo dell’MLOps. Shopify ha reso disponibile uno strumento che opera con successo alla sua scala di commercio, fornendo una soluzione per chiunque si trovi ad affrontare problemi di ridondanza e gestione del lineage in progetti di Machine Learning. La piattaforma è stata progettata per essere neutrale rispetto all’ambiente e al linguaggio, supportando flussi di lavoro basati su file in Python, JavaScript, Rust o qualsiasi altro ambiente, sia in configurazioni cloud che on-premise.
L’interfaccia di Tangle include anche un editor visuale che mostra lo stato di esecuzione in tempo reale e memorizza la completa lineage di ogni esperimento. La lineage è la documentazione completa di ogni passaggio, dato di input e risultato, rendendo ogni esperimento non solo riproducibile, ma anche completamente tracciabile. Rilasciando Tangle, Shopify non solo condivide la propria innovazione, ma contribuisce attivamente a ridurre lo spreco di risorse di calcolo a livello globale, spostando il focus dei data scientist dall’infrastruttura di gestione all’accelerazione dell’innovazione algoritmica.
