Getty Images ha annunciato il lancio di un nuovo dataset visivo aperto per l’addestramento dei modelli di intelligenza artificiale, disponibile su Hugging Face. Questo set di dati, descritto come il “più pulito” in circolazione, è progettato per offrire agli sviluppatori immagini di alta qualità, pronte per l’uso e commercialmente sicure.
Getty Images si propone come un partner affidabile per l’addestramento dei modelli AI, offrendo un dataset che si distingue per la sua affidabilità e sicurezza legale. Gli sviluppatori aziendali possono integrare questo set di dati nelle loro pipeline di formazione senza temere problemi di qualità o legali in futuro.
Il dataset include 3.750 immagini suddivise in 15 categorie, tra cui:
- Astratto e sfondi
- Ambienti costruiti
- Affari
- Concetti
- Istruzione
- Assistenza sanitaria
- Icone
- Industria
- Natura
- Illustrazioni
- Viaggi
Le immagini sono estratte dalla libreria di Getty e sono pronte all’uso senza la necessità di ulteriori pulizie. Sono ad alta risoluzione, con metadati completi e privi di contenuti indesiderati come immagini NSFW e materiali protetti da copyright.
Andrea Gagliano, responsabile della scienza dei dati e AI/ML di Getty Images, ha spiegato che il dataset offre una “tranquillità di utilizzo” grazie alla sua qualità e alla responsabilità nella provenienza dei dati. Questo set di dati mira a ridurre i problemi comuni associati ai dati di bassa qualità e a facilitare il lavoro degli sviluppatori.
Nonostante il dataset sia aperto all’uso, ci sono alcune restrizioni per garantire un utilizzo responsabile:
- È vietata la ridistribuzione del set di dati.
- Non è possibile sviluppare modelli o software che ricreino o riproducano elementi del dataset.
- È vietato utilizzare il dataset per creare prodotti concorrenti a Getty Images o identificatori biometrici.
- Non è consentito violare leggi o regolamenti applicabili con l’uso del dataset.
Getty Images spera che questo dataset aiuti gli sviluppatori a comprendere la qualità dei contenuti offerti e a dimostrare che è possibile utilizzare dati concessi in licenza per creare modelli di AI di alta qualità. L’azienda è disponibile a fornire dataset più ampi su richiesta e garantisce che i fornitori originali dei contenuti riceveranno una remunerazione annuale.