I ricercatori Apple hanno sviluppato nuovi metodi per addestrare modelli linguistici di grandi dimensioni su testo e immagini, il che potrebbe rappresentare un progresso significativo per l’intelligenza artificiale e i futuri prodotti Apple. Questo è stato descritto in un documento di ricerca intitolato “MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training”, pubblicato su arxiv.org questa settimana. Secondo i ricercatori, combinare attentamente diversi tipi di dati di addestramento e architetture di modelli è fondamentale per ottenere prestazioni all’avanguardia su diversi benchmark di intelligenza artificiale.
I ricercatori spiegano che l’uso combinato di didascalie di immagini, testo di immagini interlacciato e dati di testo puro è cruciale per ottenere risultati di punta in diverse attività, come la didascalia delle immagini, la risposta visiva a domande e l’inferenza del linguaggio naturale. Addestrando i modelli su un set di dati diversificato che comprende informazioni visive e linguistiche, i modelli MM1 hanno mostrato eccellenza in queste attività.
Inoltre, i ricercatori hanno scoperto che la scelta del codificatore di immagini e la risoluzione delle immagini di input influenzano notevolmente le prestazioni del modello. Questo suggerisce che continuare a migliorare le componenti visive di questi modelli sarà cruciale per ottenere ulteriori vantaggi.
Il più grande modello MM1, con 30 miliardi di parametri, ha dimostrato forti capacità di apprendimento nel contesto, consentendo di eseguire ragionamenti su più immagini di input utilizzando la guida della “catena di pensiero” in pochi passaggi. Questo suggerisce il potenziale dei grandi modelli multimodali per affrontare problemi complessi e aperti che richiedono una comprensione approfondita del linguaggio.
La ricerca MM1 arriva mentre Apple intensifica i suoi investimenti nell’intelligenza artificiale per competere con rivali come Google, Microsoft e Amazon. Secondo Bloomberg, l’azienda sta per spendere 1 miliardo di dollari all’anno nello sviluppo di intelligenza artificiale. Apple sta lavorando su un ampio framework linguistico chiamato “Ajax” e su un chatbot noto internamente come “Apple GPT”, con l’obiettivo di integrare queste tecnologie in vari prodotti e servizi, come Siri, Messaggi e Apple Music.
Il CEO Tim Cook ha sottolineato l’importanza dell’intelligenza artificiale durante una recente conferenza sugli utili, affermando che Apple considera questa tecnologia fondamentale per i suoi prodotti futuri. Anche se tradizionalmente Apple è stata più un seguace che un innovatore in termini di tecnologie emergenti, la ricerca MM1 dimostra che l’azienda ha il potenziale per rimanere all’avanguardia.
La Worldwide Developers Conference di Apple a giugno sarà un’occasione per presentare nuove funzionalità basate sull’intelligenza artificiale e strumenti per sviluppatori. Nel frattempo, piccoli progressi nell’intelligenza artificiale, come lo strumento di animazione Keyframer, dimostrano che Apple sta facendo progressi costanti dietro le quinte.
Cook ha annunciato che entro la fine dell’anno condivideranno i dettagli del loro lavoro nell’intelligenza artificiale, incluso l’impegno per padroneggiare l’intelligenza multimodale su larga scala. Questo suggerisce che l’era di un’intelligenza artificiale pervasivamente utile e simile a quella umana potrebbe essere più vicina di quanto si pensi, e Apple vuole giocare un ruolo chiave in questo sviluppo.