Molte persone non hanno accesso a computer potenti in grado di eseguire localmente i modelli di linguaggio di grandi dimensioni (LLM), che richiedono notevole potenza computazionale e memoria. Le GPU avanzate come le H100, necessarie per addestrare ed eseguire efficientemente questi modelli su larga scala, sono troppo costose per la maggior parte delle startup. Modelli come Llama 3.1 405B sembrano irraggiungibili per la maggior parte delle persone.
Arjun Reddy, co-fondatore di Nidum.AI, spiega che una soluzione semplice è utilizzare connessioni peer-to-peer per aggregare le GPU e distribuirne l’uso su un singolo cluster. La tecnologia peer-to-peer (P2P) è già sicura, come dimostrato dal suo uso nelle blockchain. Introdotta nel 1999 da Napster per decentralizzare la musica, la tecnologia P2P permette agli utenti di scaricare e condividere file musicali dai loro computer.
Reddy descrive come funziona la tecnologia P2P per i modelli di intelligenza artificiale. Si parte con la messa a punto di un modello esistente per esigenze specifiche, che viene poi suddiviso in centinaia di piccole parti e distribuito nella rete P2P. La crittografia protegge i dati durante questo processo.
Per dimostrare la flessibilità della tecnologia P2P, Reddy organizzerà un evento di intelligenza artificiale decentralizzata, dove centinaia di computer Apple saranno utilizzati per eseguire Llama 3.1 attraverso la rete P2P. L’obiettivo è dimostrare l’importanza delle reti decentralizzate per l’esecuzione dei modelli di linguaggio di grandi dimensioni.
Le reti P2P, note per sistemi di condivisione di file come BitTorrent, distribuiscono le attività su più nodi, ognuno dei quali contribuisce con una parte del carico di lavoro complessivo. Applicando questo concetto all’intelligenza artificiale, una rete P2P può distribuire l’addestramento di un LLM su numerose GPU di livello consumer, consentendo a individui e piccole organizzazioni di partecipare allo sviluppo dell’IA.
Uno studio recente ha esplorato l’apprendimento peer-to-peer multi-task utilizzando un modello Transformer, dimostrando che la formazione collaborativa in una rete P2P può gestire efficacemente diverse attività di elaborazione del linguaggio naturale (PNL).
Tuttavia, ci sono sfide significative. La larghezza di banda e la latenza necessarie per una formazione efficiente possono essere proibitive su reti consumer. Inoltre, la sincronizzazione richiesta per algoritmi di ottimizzazione come la discesa del gradiente aggiunge complessità. La formazione di LLM comporta il trasferimento di grandi quantità di dati tra i nodi, che può essere difficile su reti non dedicate.
Progetti come Petali e Hivemind stanno esplorando modi per consentire l’inferenza distribuita e la formazione di LLM in modo decentralizzato. Petali mira a facilitare l’inferenza distribuita di grandi modelli consentendo agli utenti di contribuire con le loro risorse computazionali in cambio dell’accesso alle capacità collettive di IA della rete.
L’apprendimento federato è un’altra soluzione promettente. In questo approccio, più nodi addestrano un modello sui loro dati locali e condividono periodicamente gli aggiornamenti con un server centrale, che li aggrega per migliorare il modello globale. Questo metodo preserva la privacy dei dati e riduce la necessità di trasferimenti di dati su larga scala, rappresentando una soluzione pratica per l’intelligenza artificiale decentralizzata, soprattutto in applicazioni sensibili come l’apprendimento automatico in campo medico.