Riconoscimento del parlatore

Per riconoscimento del parlante (dall'inglese speaker recognition) si intende il processo di validazione dell'identità che un utente dichiara, utilizzando le caratteristiche estratte dalla sua voce.

Storia

Il riconoscimento del parlante ha una storia lunga quattro decenni e utilizza le caratteristiche acustiche del parlato che si è scoperto caratterizzare al meglio i diversi individui (cioè che differiscono maggiormente al variare dell'individuo). Queste caratteristiche riflettono sia quelle dell'anatomia (come la dimensione e la forma del collo e della bocca) che quelle comportamentali (come l'altezza della voce o la cadenza del parlato). La speaker verification ha guadagnato il titolo di misurazione biometrica al riconoscimento del parlante. Ente pioniere in Italia per questa disciplina è stato lo CSELT di Torino, che nel 1983 applicò il primo brevetto internazionale in Europa e uno dei primi a livello internazionale^[1].

Differenza da termini simili

C'è una differenza fra riconoscimento del parlante (riconoscere chi sta parlando) e riconoscimento vocale (riconoscere cosa viene detto). Questi due concetti (e le corrispondenti locuzioni) sono confusi frequentemente. C'è anche una differenza fra l'atto di autenticare un utente (a cui ci si riferisce spesso col termine "autenticazione del parlante", "verifica del parlante" o, più spesso, con i termini inglesi speaker verification e speaker authentication) e quello di identificare l'utente (a cui ci si riferisce solitamente col termine "identificazione del parlante" o con l'inglese speaker identification). C'è spesso confusione anche con il processo di speaker diarisation (riconoscimento di quando interviene il medesimo parlante).

Verifica/Identificazione

Ci sono due principali applicazione delle tecnologie e delle tecniche di riconoscimento del parlante:

Se un parlante afferma di possedere una certa identità e la voce è utilizzata per validare questa affermazione, il processo è detto di verifica o di autenticazione.
Viceversa l'identificazione è il processo di determinare l'identità di un parlante sconosciuto.

In altre parole la verifica del parlante è un confronto 1:1, dove la voce di un parlante è confrontata con un'unica impronta vocale (o "modello del parlante"), mentre l'identificazione è un confronto 1:N dove la voce è confrontata con N modelli distinti.

Dal punto di vista della sicurezza, l'identificazione è diversa dalla verifica. Per esempio presentare il passaporto all'imbarco di un aeroporto è un processo di verifica - il personale confronta la faccia dell'individuo con la fotografia nel documento. Viceversa il poliziotto che confronta l'identikit di un malvivente con un database di criminali precedentemente archiviato è un processo di identificazione.

La verifica del parlante può essere impiegata per l'accesso a sistemi sicuri in aggiunta ad altre tecniche di accesso. Questi sistemi generalmente operano con la consapevolezza dell'utente e richiedono la loro cooperazione. I sistemi di identificazione del parlante sono realizzati solitamente senza prevedere la cooperazione del parlante.

Nelle applicazioni forensi è comune effettuare prima il processo di identificazione, per creare una lista di migliori candidati e quindi una serie di processi di verifica per determinare il risultato finale.

Fasi

Ogni sistema di riconoscimento del parlante ha due fasi: una fase di raccolta dati (enrollment) e una fase di verifica.

Durante la fase di raccolta dati la voce del parlante viene registrata e da essa vengono estratte un certo numero di caratteristiche per formare un'impronta vocale, o modello. Nella fase di verifica un campione vocale (utterance) è confrontato con l'impronta vocale precedentemente creata. Per i sistemi di identificazione, i campioni vengono confrontati con varie impronte vocali, per trovare i risultati più simili, mentre nei sistemi di verifica i campioni sono confrontati con una sola impronta vocale. Per questo motivo la verifica è solitamente più veloce dell'identificazione.

Varianti del riconoscimento del parlante

I sistemi di riconoscimento del parlante si suddividono in due categorie: dipendenti dal messaggio (o text-dependent) e indipendenti dal messaggio (text-independent), a seconda che il messaggio pronunciato durante la fase di raccolta dati debba coincidere o meno con quello pronunciato durante la fase di verifica.

Nei sistemi dipendenti dal messaggio il messaggio può essere comune a tutti i parlatori (per esempio una parola d'ordine comune) o univoco. In aggiunta è possibile usare delle informazioni segrete condivise (o shared-secrets, come ad esempio parole d'ordine o PIN) o delle informazioni basate sulla conoscenza, al fine di creare scenari di autenticazione a più fattori.

Nei sistemi di identificazione si utilizzano più spesso sistemi indipendenti dal messaggio, poiché non richiedono la collaborazione del parlante. In questo caso il messaggio pronunciato nella fase di identificazione è diverso da quello utilizzato in fase di raccolta ed entrambe le fasi possono avvenire senza la consapevolezza del parlante, come nel caso di alcune applicazioni forensi.

Poiché le tecnologie indipendenti dal messaggio non possono confrontare direttamente quello che viene detto nelle due fasi di raccolta e verifica, le applicazioni di verifica che ne fanno uso spesso impiegano anche sistemi di riconoscimento vocale per determinare cosa viene detto in fase di autenticazione.

Tecnologie

Le varie tecnologie utilizzate per processare e immagazzinare le impronte vocali includono la stima della frequenza, i modelli di Markov nascosti (HMM), i modelli di misture gaussiane (GMM), gli algoritmi di pattern matching, le reti neurali, le matrici di rappresentazione, la quantizzazione vettoriale, e gli alberi di decisione. Alcuni sistemi utilizzano anche tecniche "anti-parlante", come i cohort model o i modelli ambientali.

Il livello dei rumori d'ambiente può essere tale da impedire la registrazione dei campioni sia nella fase di raccolta che in quella di verifica. Algoritmi di riduzione del rumore possono essere utilizzati per migliorare l'accuratezza, ma l'applicazione scorretta di tali algoritmi può avere l'effetto contrario. La qualità dei risultati è influenzata dalle condizioni di registrazione e generalmente degrada quando le condizioni nella fase di verifica non coincidono con quelle della fase di raccolta. In questo contesto le condizioni includono le condizioni ambientali (rumore, musica in sottofondo, ecc.), il comportamento dell'utente (differente cadenza, stato d'animo, ecc.), ma anche le condizioni del canale trasmissivo (cambio del microfono utilizzato, ecc.). Anche il normale cambiamento della voce dovuto all'età può inficiare il buon funzionamento del sistema, pertanto alcuni sistemi aggiornano i modelli dei parlatori dopo ogni verifica completata con successo. Gli effetti sulla sicurezza imposti dall'adattamento automatico sono ancora oggetto di dibattito.

Le rilevazioni biometriche sono ritenute non invasive: generalmente si utilizzano i microfoni e le tecnologie di trasmissione della voce esistenti (come i normali apparati telefonici di rete fissa o mobile).

L'identificazione del parlante per l'applicazione forense, generalmente fa uso non solo di misure elettroniche, ma anche di specifiche capacità di ascolto di esperti, necessarie affinché l'identificazione possa ritenersi accurata.^[2]

Note

^ Cavazza, Michele, and Alberto Ciaramella. "Device for speaker's verification." U.S. Patent No. 4,752,958. 21 Jun. 1988.
^ Audio & Video Forensics - Video Production Primeau^{[collegamento interrotto]}

Bibliografia

Elisabeth Zetterholm, Voice Imitation. A Phonetic Study of Perceptual Illusions and Acoustic Success. Phd thesis, Lund University. (2003)
Federico A., Paoloni A., "Riconoscimento del parlante", in Media Duemila 250 (2007), pp. 47–55.

Voci correlate

Riconoscimento vocale

Collegamenti esterni

National Institute of Standards and Technology (PDF), su itl.nist.gov. URL consultato il 19 settembre 2010 (archiviato dall'url originale il 15 aprile 2006).

Controllo di autorità	LCCN (EN) sh85144234 · J9U (EN, HE) 987007543990405171

Portale Neuroscienze: accedi alle voci di Wikipedia che trattano di neuroscienze

[1] Cavazza, Michele, and Alberto Ciaramella. "Device for speaker's verification." U.S. Patent No. 4,752,958. 21 Jun. 1988.

[2] Audio & Video Forensics - Video Production Primeau^{[collegamento interrotto]}

[1]

[2]