NVIDIA sbarca nella voice technology

L’annuncio è di quelli esplosivi.

NVIDIA ha diffuso in open source il NVIDIA NeMo toolkit, disponibile NGC hub

Il produttore di schede video aggiunge il supporto per la sintesi vocale sempre più umana, e distribuisce le prime librerie per gli sviluppatori.

Non ci si limita a generare audio, ma anche altre forme di analisi della voce, includendo anche il natural language processing, automated speech recognition, keyword detection, audio enhancement.

Lo sviluppo di soluzioni che ascoltano non si limita al parlato, ma arriva al contesto e rileva le diverse modalità di comunicare usando toni e tempi inusuali, con tutti gli aspetti “naturali e umani” tipici della conversazione, supportandoli.

E’ noto quanto sia difficile prevedere e gestire le richieste contraddittorie o correttive dell’utente che parla al dispositivo. Già oggi ci sono tecniche che possono ovviare, tuttavia più questi aspetti saranno risolti da strumenti generali, tanto meno gli sviluppatori dovranno gestire ogni aspetto.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *