Getty Images lancia un Dataset visivo pulito per l’addestramento LLM

Getty Images ha annunciato il lancio di un nuovo dataset visivo aperto per l’addestramento dei modelli di intelligenza artificiale, disponibile su Hugging Face. Questo set di dati, descritto come il “più pulito” in circolazione, è progettato per offrire agli sviluppatori immagini di alta qualità, pronte per l’uso e commercialmente sicure.

Getty Images si propone come un partner affidabile per l’addestramento dei modelli AI, offrendo un dataset che si distingue per la sua affidabilità e sicurezza legale. Gli sviluppatori aziendali possono integrare questo set di dati nelle loro pipeline di formazione senza temere problemi di qualità o legali in futuro.

Il dataset include 3.750 immagini suddivise in 15 categorie, tra cui:

Astratto e sfondi
Ambienti costruiti
Affari
Concetti
Istruzione
Assistenza sanitaria
Icone
Industria
Natura
Illustrazioni
Viaggi

Le immagini sono estratte dalla libreria di Getty e sono pronte all’uso senza la necessità di ulteriori pulizie. Sono ad alta risoluzione, con metadati completi e privi di contenuti indesiderati come immagini NSFW e materiali protetti da copyright.

Andrea Gagliano, responsabile della scienza dei dati e AI/ML di Getty Images, ha spiegato che il dataset offre una “tranquillità di utilizzo” grazie alla sua qualità e alla responsabilità nella provenienza dei dati. Questo set di dati mira a ridurre i problemi comuni associati ai dati di bassa qualità e a facilitare il lavoro degli sviluppatori.

Nonostante il dataset sia aperto all’uso, ci sono alcune restrizioni per garantire un utilizzo responsabile:

È vietata la ridistribuzione del set di dati.
Non è possibile sviluppare modelli o software che ricreino o riproducano elementi del dataset.
È vietato utilizzare il dataset per creare prodotti concorrenti a Getty Images o identificatori biometrici.
Non è consentito violare leggi o regolamenti applicabili con l’uso del dataset.

Getty Images spera che questo dataset aiuti gli sviluppatori a comprendere la qualità dei contenuti offerti e a dimostrare che è possibile utilizzare dati concessi in licenza per creare modelli di AI di alta qualità. L’azienda è disponibile a fornire dataset più ampi su richiesta e garantisce che i fornitori originali dei contenuti riceveranno una remunerazione annuale.

Getty Images lancia un Dataset visivo pulito per l’addestramento LLM

DiFantasy

Di Fantasy

Articoli correlati

Claude Cowork: Anthropic lancia la piattaforma AI collaborativa per le aziende

ChatGPT Pro da 100 dollari: OpenAI introduce un livello intermedio con limiti Codex cinque volte superiori

Caso Mythos: la capacità di calcolo diventa il fattore decisivo nella competizione tra OpenAI e Anthropic

Ultimi Post

Claude Cowork: Anthropic lancia la piattaforma AI collaborativa per le aziende

ChatGPT Pro da 100 dollari: OpenAI introduce un livello intermedio con limiti Codex cinque volte superiori

Caso Mythos: la capacità di calcolo diventa il fattore decisivo nella competizione tra OpenAI e Anthropic

OpenAI prepara un servizio AI per la cybersicurezza con accesso limitato ai partner