Nous Research presenta Nous Hermes 2 Vision

Nous Research Introduce Nous Hermes 2 Vision AI Model

Nous Research, un rinomato gruppo di ricerca privata noto per i suoi contributi open source nel campo dei Large Language Models (LLM), ha recentemente lanciato un nuovo modello di intelligenza artificiale visiva, Nous Hermes 2 Vision. Questo modello, ora disponibile su Hugging Face, si basa sul precedente modello OpenHermes-2.5-Mistral-7B dell’azienda. Offre funzionalità avanzate di visione, come la capacità di elaborare suggerimenti visivi e di estrarre testi da contenuti visivi.

Problemi Iniziali e Ridenominazione del Modello

Non appena il modello è stato lanciato, si è scoperto che soffriva di allucinazioni più frequenti del previsto, portando a problemi significativi. Di conseguenza, il progetto è stato ridenominato in Hermes 2 Vision Alpha, e l’azienda prevede di rilasciare una versione più stabile e affidabile.

Caratteristiche del Nous Hermes 2 Vision Alpha

Il modello prende il nome da Hermes, il messaggero degli dei nella mitologia greca, e mira a navigare attraverso le complessità del linguaggio umano con una precisione quasi divina. Utilizza dati visivi forniti dall’utente, combinandoli con l’apprendimento per generare risposte dettagliate in linguaggio naturale. Un esempio fornito dal cofondatore Teknium mostra la capacità del modello di analizzare l’immagine di un hamburger e valutarne la salubrità.

Nous Hermes 2 Vision Distingue da ChatGPT

Il modello Nous si distingue da ChatGPT, che si basa su GPT-4V, per due miglioramenti principali. Primo, invece di affidarsi a pesanti codificatori di visione, sfrutta SigLIP-400M, rendendolo più leggero e migliorando le prestazioni nelle attività di linguaggio visivo. Secondo, è stato addestrato su un set di dati personalizzato che include chiamate di funzioni, permettendo agli utenti di estrarre testi da immagini utilizzando un tag <fn_call>.

Prestazioni e Sviluppi Futuri

Nonostante le sue caratteristiche innovative, l’uso iniziale del modello ha evidenziato diverse imperfezioni. Subito dopo il rilascio, il cofondatore ha riconosciuto problemi come allucinazioni eccessive e l’invio di spam da token EOS, portando alla decisione di rilasciare una versione alpha. Quan Nguyen, il ricercatore principale di Nous, ha riconosciuto questi problemi e ha promesso un aggiornamento entro la fine del mese per affrontarli.

Risposta e Piani Futuri di Nous Research

Nonostante le domande inviate da VentureBeat siano rimaste senza risposta, Nguyen ha osservato che la funzionalità di chiamata delle funzioni funziona bene se l’utente definisce uno schema appropriato. Inoltre, ha menzionato l’intenzione di lanciare un modello dedicato per la chiamata di funzioni, basato sul feedback degli utenti.

Contributi Open Source di Nous Research

Fino ad ora, Nous Research ha rilasciato 41 modelli open source con varie architetture e funzionalità, come parte delle sue serie Hermes, YaRN, Capybara, Puffin e Obsidian, rafforzando il suo impegno nel campo dell’intelligenza artificiale open source.

Nous Research presenta Nous Hermes 2 Vision

Diihal

Di ihal

Articoli correlati

EXAONE 4.5, il nuovo modello multimodale open-weight di LG per testo e immagini

La Seoul National University presenta l’AI multimodale Dynin-Omni che integra testo, immagini, video e audio in un’unica architettura

Text-to-Speech, oltre la voce sintetica: come l’AI impara a parlare con emozioni e respiri umani

Ultimi Post

Anthropic cambia i prezzi di Claude: le aziende pagheranno in base a quanto usano l’AI

Microsoft MAI-Image-2-Efficient: AI per immagini più veloce e 40% più economica per le imprese

Gemini Robotics-ER 1.6, il nuovo modello AI di Google che permette alle macchine di capire l’ambiente e correggere i propri errori

Anthropic prepara il lancio di Claude Opus 4.7 e introduce strumenti di design automatico basati su AI