Andrew Ng ha lanciato un nuovo corso chiamato “Preelaborazione di dati non strutturati per applicazioni LLM”, in collaborazione con la startup Unstructured di San Francisco. Unstructured si occupa di catturare dati non strutturati da qualsiasi fonte e convertirli in file JSON, rendendoli compatibili con l’intelligenza artificiale per le aziende che desiderano integrare l’IA nelle loro attività.
Il corso è tenuto da Matt Robinson, responsabile del prodotto presso Unstructured, ed è gratuito per un periodo limitato. Richiede circa un’ora per completarlo. Durante il corso imparerai a estrarre e standardizzare i contenuti da diversi tipi di documenti, come PDF, PowerPoint, file Word e HTML, così come da tabelle e immagini, trasformandoli in un formato JSON comune. Questo espanderà la varietà di informazioni disponibili per le tue applicazioni basate su LLM. Arricchire i tuoi contenuti con metadati migliorerà i risultati della generazione aumentata (RAG) e renderà le funzionalità di ricerca più precise.
Il corso copre anche le tecniche per l’analisi delle immagini dei documenti, compreso il rilevamento del layout e i trasformatori di visione e tabella. Imparerai come applicare queste metodologie per preelaborare PDF, immagini e tabelle. È adatto a chiunque sia interessato a elaborare in modo efficace diversi tipi e formati di dati per creare sistemi LLM RAG ad alte prestazioni.