La startup Delphi, fondata appena due anni fa a San Francisco, crea avatar conversazionali ultrarealistici, chiamati Digital Minds, capaci di parlare, rispondere e interagire come te, grazie ai tuoi testi, registrazioni, post sui social, lezioni e materiali vari. Fino a un po’ di tempo fa questo mondo sembrava perfetto, finché la crescita esponenziale dei dati non ha rischiato di affogarli. Ogni nuovo contenuto caricato – podcast, PDF, social post – rendeva l’esperienza più lenta, la risposta meno fluida, e il sistema sempre più complesso da gestire.
All’inizio, Delphi ha provato a gestire l’archiviazione delle conoscenze con soluzioni open source per vector store. Ma ben presto quegli indici sono cresciuti senza controllo, rallentando le ricerche e minacciando la tenuta dell’intero sistema in occasioni critiche — come eventi live o aggiornamenti di massa.
La svolta è arrivata grazie a Pinecone, un database vettoriale completamente gestito, dotato di compliance SOC 2, crittografia e namespace isolati. Ogni Digital Mind ha così ottenuto un suo spazio dedicato: privacy, velocità e gestione separata — con ricerche che ritornano risultati in meno di 100 millisecondi al 95° percentile, ben sotto l’obiettivo massimo di un secondo.
Il CTO Samuel Spelsberg racconta che questa soluzione ha liberato il team tecnico da giorni spesi a ottimizzare indici e shard logici, permettendo di concentrarsi su funzionalità e performance reali del prodotto.
Delphi utilizza un sistema di tipo Retrieval-Augmented Generation (RAG): i contenuti caricati vengono processati, segmentati e trasformati in embedding (con OpenAI, Anthropic o sistemi proprietari). Questi embedding vengono memorizzati in Pinecone con il namespace appropriato. Al momento della richiesta, Pinecone restituisce in millisecondi i vettori più pertinenti, che poi vengono inviati a un LLM per formulare la risposta, creando conversazioni naturali senza stressare infrastrutture e budget.
Pinecone ha introdotto un modello “object-storage-first”: memorizza i dati esternamente e li carica in memoria solo quando servono. Questo approccio risponde perfettamente al comportamento “a intermittenza” dei Digital Minds — attivati per interagire in momenti specifici, non continuamente.
Inoltre, Pinecone adatta automaticamente l’algoritmo di indicizzazione in funzione della mole di dati nel namespace: alcuni Digital Minds hanno pochi migliaia di vettori, altri milioni, e il sistema si auto-ottimizza, garantendo performance costanti senza che l’utente debba fare niente .
Delphi oggi gestisce oltre 100 milioni di vettori sparsi su più di 12.000 namespace, mantenendo una performance stabile di circa 20 query al secondo a livello globale, senza alcun crash o rallentamento — anche durante flussi di interazioni intense o picchi improvvisi.
Il sogno ora è chiaro: ospitare milioni di Digital Minds, cioè almeno 5 milioni di namespace gestiti simultaneamente in un unico indice. Un traguardo che Delphi considera raggiungibile grazie all’affidabilità e alla scalabilità dimostrata finora.
Nonostante si parli sempre di contesti sempre più ampi nei modelli linguistici, Spelsberg e Pinecone concordano: il RAG rimarrà fondamentale. Recuperare informazioni rilevanti ad hoc è più efficiente, economico e preciso che inserire tutto indiscriminatamente nel prompt — un concetto noto come “context engineering”.
Nel 2023 Delphi veniva vista come startup curiosa: capace di clonare storicamente personaggi famosi grazie a intelligenze artificiali affascinanti. Oggi, con Pinecone al fianco, i Digital Minds hanno assunto una veste matura: strumenti affidabili per formazione, coaching e condivisione di competenze, dove accuratezza, privacy e velocità sono centrali.
Tra le novità in arrivo, ci sono modalità come “interview mode”, in cui il Digital Mind pone domande al creatore per colmare le lacune informative. Nel frattempo, Pinecone continua ad arricchire il suo servizio con indicizzazione adattiva e filtri efficienti per memorie complesse.