Soket AI Labs, startup indiana con sede a Gurugram, ha recentemente presentato la sua Realtime Speech API, progettata per rivoluzionare le interazioni basate sull’intelligenza artificiale attraverso un’elaborazione vocale avanzata e un’integrazione fluida.
La Realtime Speech API offre una latenza ultra-bassa, inferiore a 500 millisecondi, garantendo risposte quasi istantanee per interazioni in tempo reale. Supporta capacità multilingue, superando le barriere linguistiche e includendo funzionalità avanzate come:
- Tool calling: integrazione con strumenti esterni per eseguire azioni specifiche.
- Supporto per Retrieval-Augmented Generation (RAG): miglioramento delle risposte AI attraverso l’accesso a informazioni aggiornate.
- Creazione e clonazione di voci personalizzate: possibilità di generare voci uniche per applicazioni specifiche.
- Gestione delle interruzioni vocali dinamiche: per conversazioni più naturali e fluide.
Gli sviluppatori possono integrare l’API rapidamente, in un periodo compreso tra 1 e 4 settimane, utilizzando gli SDK disponibili per Python e JavaScript. Il servizio è offerto a un prezzo competitivo di $0,012 al minuto, rappresentando un’alternativa economica rispetto a leader del settore come OpenAI.
Soket AI Labs sottolinea la versatilità della piattaforma, evidenziando applicazioni in settori come:
- Bancario e finanziario (BFSI): miglioramento del servizio clienti attraverso interazioni vocali efficienti.
- Sanitario: facilitazione delle comunicazioni tra pazienti e professionisti medici.
- Telecomunicazioni: ottimizzazione dei servizi di assistenza clienti tramite riconoscimento vocale avanzato.
Inoltre, l’API offre modelli affinabili e opzioni vocali personalizzabili per soddisfare esigenze aziendali specifiche.
L’azienda prevede di lanciare a breve il programma “Voice Innovators Beta”, invitando gli utenti a esplorare e contribuire al futuro della tecnologia vocale. In un post su LinkedIn, Abhishek Upperwal, fondatore e CEO di Soket AI Labs, ha sottolineato l’importanza di sviluppare un’intelligenza vocale generale, affermando: “La voce è una delle interfacce più importanti per l’IA oggi e i modelli linguistici sono al centro dell’intelligenza”.
A maggio, Soket AI Labs ha lanciato Pragna-1B, il primo modello open source multilingue dell’India, progettato per riflettere la diversità linguistica del paese. Upperwal ha dichiarato che lo sviluppo del modello ha richiesto sei mesi, coinvolgendo numerosi esperimenti con diversi modelli e l’elaborazione di 150 miliardi di token.
Fondata nel 2019, Soket AI Labs inizialmente si concentrava sulla creazione di una piattaforma di scambio dati decentralizzata per città intelligenti. Tuttavia, dopo la visita in India di Sam Altman, CEO di OpenAI, il team è stato motivato a sviluppare i migliori modelli di intelligenza artificiale nel paese.
Oltre a Soket AI Labs, altre startup come Sarvam AI e CoRover.ai stanno investendo significativamente nello sviluppo di modelli di riconoscimento vocale. Durante l’evento Cypher 2024, Vivek Raghavan, responsabile di Sarvam AI, ha presentato le capacità dei loro modelli AI, impressionando i partecipanti con le avanzate funzionalità vocali.