Apple ha recentemente presentato LazyLLM, una nuova tecnica progettata per migliorare l’efficienza dei modelli linguistici di grandi dimensioni (LLM). Questa innovazione mira ad accelerare la generazione di risposte senza compromettere l’accuratezza. Il documento di ricerca che descrive LazyLLM spiega come questa tecnica calcola selettivamente i valori chiave per i token importanti, rinviando il calcolo dei token meno rilevanti a passaggi successivi. Questo approccio rende il processo di inferenza più efficiente, specialmente in scenari con contesti lunghi.
LazyLLM è stato sviluppato da Qichen Fu, Thomas Merth, Sachin Mehta e Mahyar Najibi di Apple, insieme a Mohammad Rastegari, ora in Meta. La tecnica permette al modello di riconsiderare i token precedentemente esclusi, rendendo il processo più flessibile e adattabile. Questo riduce il carico di calcolo nella fase di pre-elaborazione, aprendo la strada a sistemi di IA più reattivi e agili.
Apple ha inoltre rilasciato un nuovo modello LLM open-source, il DCLM-Baseline 7B, con 7 miliardi di parametri. Addestrato su 2,5 trilioni di token, questo modello utilizza principalmente dati in inglese e ha una finestra di contesto di 2048 token. Il DCLM-Baseline 7B è concesso in licenza sotto Apple Sample Code ed è disponibile su piattaforme come Hugging Face e Transformers. Questo modello, addestrato con PyTorch e OpenLM, si confronta con i modelli di dataset chiusi come Mistral in termini di prestazioni.
Questa mossa segue l’introduzione di Apple Intelligence al WWDC 2024, volta a migliorare le capacità di Siri con l’IA generativa. L’obiettivo di Apple è rendere i suoi sistemi di IA più efficienti e capaci, mantenendo al contempo un alto livello di precisione e flessibilità.