Immagine AI

Ecco uno scenario dove, nel cuore di un’azienda, un avatar dall’aspetto quasi reale ti guarda negli occhi e ti aiuta — non con risposte generiche, ma osservando esattamente ciò che tu stai facendo sullo schermo. È questa l’idea — audace e al contempo pragmatica — che sta dietro a eSelf, una startup che mira a portare l’interazione uomo-macchina a un passo ulteriore, integrando la “visione” diretta dei contenuti condivisi dallo schermo nel dialogo fra utente e intelligenza artificiale.

L’aspetto più sorprendente? Secondo i suoi fondatori, bastano “tre righe di JavaScript” per integrare il sistema in un software aziendale, e in appena cinque minuti un avatar interattivo è pronto per offrire assistenza, spiegazioni o formazione. È come se un tutor virtuale potesse accedere immediatamente all’interfaccia con cui stai lavorando e guidarti passo dopo passo, mostrando dove cliccare, cosa correggere, come orientarti.

La funzione chiave introdotta da eSelf si chiama Share Screen Analysis, e rappresenta un’evoluzione significativa rispetto ai sistemi tradizionali di assistenza automatica. Mentre molte IA oggi rispondono a domande testuali o analizzano immagini isolate, qui l’obiettivo è che l’avatar “veda” ciò che l’utente mostra sul proprio monitor in tempo reale. In questo modo, l’avatar non risponde solo in base a ciò che l’utente descrive, ma reagisce all’effettiva situazione visiva, interpretabile sul momento.

Durante la sua intervista su VentureBeat, il CEO Alan Bekker mostrò un demo: l’avatar guida un utente all’interno di un’interfaccia CRM, aiutandolo passo dopo passo. Quando l’utente si blocca o chiede “cosa faccio ora?”, l’avatar riconosce ciò che appare sullo schermo, ne interpreta il contesto e offre spiegazioni immediate. Un altro esempio mostrato riguarda un avatar “insegnante di matematica” che, di fronte a un’equazione quadratica che compare sullo schermo, ne scompone i passaggi e spiega come risolverla, interagendo direttamente con il contenuto visivo condiviso.

Un elemento cruciale di questa architettura è la tutela della privacy: l’avatar è progettato per non ripetere o trasmettere dati personali che compaiano sullo schermo, come numeri di carte, codici o informazioni sensibili. In questo modo, la capacità di “vedere” non diventa un rischio di esposizione automatica, bensì uno strumento utile e controllato.

Dietro l’idea c’è un mix di componenti: l’avatar si appoggia a modelli linguistici generici (come quelli di OpenAI o Google) per la conversazione, ma utilizza anche modelli proprietari sviluppati da eSelf per il riconoscimento video, l’analisi visuale e la generazione di espressioni facciali e movimenti coerenti. In altre parole, c’è la parte “parlante” che risponde con testo o voce, e la parte “visiva” che interpreta ciò che appare sullo schermo. Bekker definisce il sistema come “agnostico rispetto all’LLM” — ossia, l’azienda può scegliere quale modello linguistico utilizzare in backend, adattandosi alle esigenze del cliente.

Una prospettiva interessante che è già allo studio è quella di consentire non solo la visualizzazione dello schermo, ma un vero e proprio controllo attivo. In futuro, l’avatar potrebbe non solo “vedere” cosa stai facendo, ma intervenire direttamente sul desktop, cliccare, navigare, correggere — sempre sotto il tuo consenso e supervisione.

Questa tecnologia non è pensata esclusivamente per contesti aziendali o di assistenza tecnica, ma ha un più ampio potenziale educativo e formativo. Infatti, eSelf ha avviato una collaborazione con il Centro per la Tecnologia Educativa (CET) in Israele, per sperimentare avatar capaci di supportare migliaia di studenti nel loro percorso d’apprendimento. Il progetto pilota coinvolge diecimila studenti, con l’obiettivo di ampliare progressivamente le materie e le modalità d’uso.

Nelle aziende, il vantaggio è chiaro: un sistema di supporto IT sempre disponibile, capace di rispondere a domande contestuali, senza tempi di attesa, e con competenze linguistiche multiple. Durante la demo, ad esempio, l’avatar è passato istantaneamente da inglese a spagnolo, da italiano a giapponese, adattandosi alla lingua dell’utente. In questo modo, l’azienda non deve necessariamente attendere che un operatore umano parli la lingua giusta — l’avatar può intervenire direttamente.

Il modello commerciale di eSelf è un classico SaaS, con tariffe scalabili in funzione dell’uso. Nella versione gratuita, si possono fare fino a cinque video-chiamate. Con livelli “Starter”, “Pro” o “Growth”, si accede a funzionalità aggiuntive come avatar personalizzati o maggiore numero di chiamate. In modalità “Enterprise” invece, l’offerta è tailor-made, con integrazioni su misura, chiamate illimitate e personalizzazioni proprie. È significativo che la funzione Share Screen Analysis sia inclusa in tutti i piani, senza essere un extra a pagamento.

Per l’azienda che voglia adottarlo, il costo per entrare in funzione è contenuto: l’integrazione richiede l’inserimento di poche righe di codice, una configurazione minima e qualche elemento di addestramento (come FAQ o documentazione interna). In teoria, un avatar di supporto interattivo è operativo in pochi minuti.

Quando Bekker parla delle ambizioni future di eSelf, sostiene che l’obiettivo non è competere con prodotti generici come ChatGPT, ma offrire soluzioni “end to end” pronte all’uso per le aziende. Molti clienti preferiscono non costruire da zero un sistema di avatar interattivi, ma acquistare qualcosa che funzioni subito, con il minimo sforzo tecnico. In questo senso, eSelf intende essere il partner che mette in campo tecnologia sofisticata, ma con un’interfaccia facile da integrare.

E anche se giganti come OpenAI o Google volessero entrare in questo spazio, l’idea di Bekker è che la competizione non sarà con l’API che forniscono, ma con chi costruisce soluzioni concrete sull’API. La sua visione è di restare focalizzati su una nicchia specifica — avatar che “vedono lo schermo” — e su come rendere quella interazione sicura, utile e immediata.

Se guardiamo all’intelligenza artificiale oggi, molte interfacce conversazionali restano astratte: tu digiti una domanda, l’IA risponde. Ma con eSelf entriamo in una dimensione ibrida: l’avatar non solo parla, ma vede e reagisce al contesto visivo dell’utente. È un ponte fra visione e linguaggio, fra gesto e parola.

Questo tipo di interazione potrebbe trasformare il modo in cui fruiamo l’assistenza tecnica, l’e-learning, la formazione interna, l’onboarding di nuovi software. Pensalo come una guida virtuale alla portata di tutti: non serve essere esperti, non serve aspettare un operatore, non serve fare lunghe spiegazioni — mostri qualcosa, l’avatar lo vede, e ti aiuta lì dove sei.

Naturalmente, restano sfide: assicurare che l’avatar interpreti correttamente ciò che “vede”, evitare fraintendimenti visivi, garantire la sicurezza delle informazioni, adattarsi a situazioni impreviste. Tuttavia, l’idea di base è forte: portare l’intelligenza artificiale dentro lo schermo, non solo dietro le quinte.

Di Fantasy