“Cos’è che fa brillare Phi-3 sopra Llama 2 7B di Meta e altri modelli?” spiega Harkirat Behl, uno dei creatori del modello, ora alla guida dello sviluppo di Phi-3, l’ultimo modello open source di Microsoft.
Phi-3-Mini, un modello linguistico con 3,8 miliardi di parametri, addestrato su un vasto set di dati di 3,3 trilioni di token, eccelle in prestazioni, superando modelli recenti come Mixtral 8x7B e GPT-3.5. Anche il recentemente lanciato Llama 3 8B di Meta viene superato sui benchmark MMLU.
Nonostante le sue prestazioni, Phi-3-Mini può essere eseguito su un telefono cellulare, grazie alle sue dimensioni compatte che consentono la quantizzazione a 4 bit, occupando circa 1,8 GB di memoria. Microsoft ha testato con successo il modello su un iPhone 14 con chip A16 Bionic, ottenendo oltre 12 token al secondo.
Microsoft ha anche introdotto i modelli Phi-3-Small e Phi-3-Medium, entrambi potenti. Phi-3-Small, con 7 miliardi di parametri, supera il Llama 3 8B di Meta su MMLU con un punteggio di 75,3.
Tuttavia, Phi-3-Mini attira critiche per la sua limitazione all’inglese, non ideale per altri linguaggi e sviluppatori di IA in India. L’innovazione dietro Phi-3-Mini risiede nel suo set di dati di addestramento, una versione estesa del predecessore Phi-2, comprendente dati web e sintetici altamente filtrati, ottimizzato per robustezza, sicurezza e formato della chat.
L’uso di dati sintetici per l’addestramento potrebbe sollevare domande sull’utilizzo di output GPT-4. Microsoft suggerisce che la piccola dimensione dei dati addestrati è efficace e che non è necessario un grande set di dati per creare modelli intelligenti.
Phi-3-Mini è ideale per dispositivi e periferiche, rendendolo adatto per l’evoluzione verso dispositivi IA. Anche Apple sperimenta con IA avanzata, e Phi-3 potrebbe dare a Microsoft un vantaggio competitivo.
Il successo di modelli più piccoli potrebbe influenzare il rilascio di GPT-5 da parte di OpenAI, poiché le aziende abbracciano sempre più modelli open source. Microsoft considera Phi-3 anche ideale per casi d’uso RAG.
Behl sostiene che l’addestramento su dati sintetici riduca le dimensioni del modello e introduca molte funzionalità, diversamente da GPT-3 addestrato su testi pubblici di Internet.