Cohear, nel segmento del riconoscimento vocale automatico, rilascia Transcribe. Questo modello, reso disponibile in modalità open source, si propone come una soluzione tecnica avanzata per la gestione di carichi di lavoro complessi quali la verbalizzazione di assemblee, l’analisi dei flussi vocali e l’automazione dei servizi di assistenza clienti. Con una configurazione basata su 2 miliardi di parametri, Transcribe è stato ottimizzato per operare efficacemente anche su infrastrutture hardware standard, garantendo un equilibrio tra potenza computazionale e accessibilità economica per le organizzazioni che necessitano di integrare capacità di trascrizione nei propri flussi di lavoro senza ricorrere a cluster di calcolo proibitivi.
L’aspetto più rilevante di Transcribe risiede nella sua struttura ibrida denominata Conformer. Questa architettura combina le reti neurali convoluzionali con la tecnologia Transformer, permettendo al modello di catturare simultaneamente sia le micro-caratteristiche del segnale audio, come le variazioni fonetiche locali, sia il contesto semantico globale della conversazione. Questa sinergia tecnica si traduce in una precisione superiore, evidente nei risultati ottenuti sulla Open ASR Leaderboard di Hugging Face, dove il modello ha fatto registrare un tasso di errore di parola (Word Error Rate) del 5,42%. Tale valore posiziona la soluzione di Cohear al di sopra di standard di mercato consolidati come Whisper di OpenAI o le soluzioni di Eleven Labs, confermando l’efficacia della strategia di ottimizzazione adottata.
Oltre alla precisione, la velocità di elaborazione rappresenta un pilastro fondamentale per l’adozione di Transcribe in contesti produttivi su larga scala. Il sistema è in grado di processare fino a 525 minuti di materiale audio in un singolo minuto di tempo macchina, un parametro che lo rende adatto alla gestione di volumi massivi di dati tipici dei grandi centri di contatto o delle multinazionali. Per garantire l’affidabilità su registrazioni di lunga durata, il modello implementa una tecnica di segmentazione e ricombinazione dei dati vocali; il flusso audio viene suddiviso in più parti elaborate in parallelo e successivamente riassemblate in un testo coerente, eliminando il rischio di perdite di contesto o degradazione della qualità che spesso affligge i modelli meno sofisticati durante sessioni prolungate.
Il supporto multilingue è un altro elemento di distinzione tecnica, con una copertura nativa che include quattordici lingue tra cui inglese, giapponese, cinese e coreano. La flessibilità di Transcribe non si limita alla comprensione linguistica, ma si estende alle modalità di distribuzione. Cohear ha infatti previsto l’integrazione del modello all’interno della propria piattaforma North e la disponibilità gratuita tramite API per sviluppatori e imprese, oltre al supporto sulla piattaforma di inferenza Model Vault. Questa strategia di rilascio, unita a valutazioni umane che indicano un vantaggio del 61% in termini di coerenza e usabilità rispetto ai concorrenti, delinea un approccio che mira a trasformare il riconoscimento vocale da una funzionalità isolata a una componente infrastrutturale integrata nel cuore delle operazioni aziendali.
