E’ stato recentemente rivelato che un PC Pentium 2, rilasciato 26 anni fa, è stato utilizzato per eseguire un modello linguistico di grandi dimensioni (LLM) e generare testo. Questo esperimento fa parte di un progetto che mira a dimostrare che chiunque può utilizzare un LLM senza la necessità di una costosa GPU.

Secondo quanto riportato, EXO ha acquistato un PC su eBay per 118,88 sterline (circa 220.000 won). Per trasferire i file al PC, è stato utilizzato un server FTP sul portatile, che consentiva di caricare i dati tramite la porta Ethernet.

La parte più difficile dell’esperimento è stata compilare il codice più recente su Windows 98. Dopo diversi tentativi, è stato trovato un IDE e un compilatore che funzionano direttamente su Windows 98, nonostante fossero vecchi di 26 anni.

In particolare, per eseguire il modello è stato utilizzato “llama2.c”, creato da Andrey Kapasi, ex fondatore di OpenAI. Si tratta di un codice C di 700 righe che può eseguire inferenze su modelli con l’architettura “Llama 2”.

Il PC ha prodotto risposte alla velocità impressionante di 35,9 token al secondo su Windows 98, utilizzando un modello LLM con 260K parametri e architettura Llama.

Quando la dimensione del modello è stata aumentata a 15M, la velocità è scesa a 1 token al secondo, e nel caso del nuovo modello “Llama 3.2″, la velocità è stata di 0,0093 token al secondo, un ritmo molto lento, paragonabile a un'”era glaciale”.

EXO è una startup specializzata in “cluster informatici multi-dispositivo open source”, fondata da un team di ricercatori e ingegneri dell’Università di Oxford. L’obiettivo dell’azienda è “addestrare modelli all’avanguardia e costruire un’infrastruttura aperta che consenta a chiunque, ovunque, di utilizzarli”.

Lo scorso novembre, EXO ha attirato l’attenzione per aver connesso nuovi Mac Mini e Mac Pro per eseguire modelli come “Llama-3.1 405B”, “Nemotron 70B” di NVIDIA e “Q1 2.5 Coder-32B”.

In particolare, EXO ha dimostrato che un modello con 7B parametri può essere eseguito con solo 1,38 GB di spazio di archiviazione, utilizzando un’architettura di trasformazione chiamata Bitnet. Bitnet è stato progettato per gestire modelli con fino a 100B parametri, con una velocità compresa tra 5 e 7 token al secondo, utilizzando solo la CPU e senza la necessità di una GPU costosa.

Di Fantasy