Midjourney, nota principalmente come una delle principali piattaforme di generazione di immagini tramite intelligenza artificiale, ha recentemente ampliato i suoi orizzonti collaborando con esperti di apprendimento automatico della New York University (NYU) per esplorare nuove metodologie volte a migliorare la creatività dei modelli linguistici di grande scala (LLM). Questa collaborazione ha portato alla pubblicazione di un documento di ricerca che introduce due tecniche innovative: la Diversified Direct Preference Optimization (DDPO) e la Diversified Odds Ratio Preference Optimization (DORPO).

I modelli linguistici di grande scala, come Llama di Meta e il modello omonimo di Mistral, sono stati progettati per generare testi coerenti e pertinenti in risposta a vari prompt. Tuttavia, una delle sfide principali è la tendenza di questi modelli a produrre output omogenei e prevedibili, soprattutto in contesti che richiedono creatività, come la scrittura narrativa o la poesia. In scenari dove esistono molteplici risposte valide a un singolo prompt, la capacità di generare una varietà di output creativi diventa cruciale.

Per affrontare questa sfida, i ricercatori di Midjourney e NYU hanno sviluppato due metodologie:​

  • Diversified Direct Preference Optimization (DDPO): Questa tecnica mira a diversificare le preferenze dirette durante l’ottimizzazione del modello, incoraggiando la generazione di output più vari e creativi senza compromettere la coerenza e la leggibilità del testo.​
  • Diversified Odds Ratio Preference Optimization (DORPO): Simile alla DDPO, questa metodologia utilizza un rapporto di probabilità diversificato per ottimizzare le preferenze del modello, promuovendo una gamma più ampia di risposte creative.​

Entrambe le tecniche sono state progettate per ampliare lo spettro degli output possibili, mantenendo al contempo la qualità e la pertinenza del testo generato.

L’introduzione di queste nuove metodologie ha implicazioni significative per il futuro dell’intelligenza artificiale generativa. In primo luogo, dimostra che vi è ancora un ampio margine di miglioramento nei modelli linguistici esistenti, soprattutto per quanto riguarda la creatività e la diversità degli output. Inoltre, suggerisce che Midjourney potrebbe espandere il proprio focus oltre la generazione di immagini, esplorando il potenziale dei modelli linguistici nel contesto della creatività testuale.

Queste innovazioni potrebbero essere particolarmente utili per team aziendali, sviluppatori di prodotti e creatori di contenuti che desiderano migliorare la qualità e la varietà dei testi generati dall’IA. In un’epoca in cui l’attenzione si sta spostando verso modelli multimodali e di ragionamento, la ricerca di Midjourney e NYU sottolinea l’importanza di continuare a perfezionare i modelli testuali tradizionali basati su Transformer.

Di Fantasy