Riconoscimento Vocale: risultati significativi in due casi limite
Pubblicato nella newsletter Leonardo Ausili Settembre 2004 (http://www.leonardoausili.it)
Introduzione
Il riconoscimento vocale (RV) offre oggi straordinarie opportunità di
autonomia in molte situazioni di disabilità motoria grave. Attraverso il
riconoscimento vocale è infatti possibile utilizzare il personal computer non
solo per scrivere, navigare su Internet o inviare posta elettronica e messaggi
SMS ma anche, tramite opportuni dispositivi elettronici, per controllare
l'ambiente circostante: accendere/spegnere luci, telefonare, attivare un
ventilatore, cambiare i canali del televisore, ascoltare CD
, alzare/abbassare una tapparella motorizzata ecc. Il riconoscimento
vocale permette infatti di utilizzare la voce per dare tutti i comandi e gli
input che normalmente vengono inseriti attraverso la tastiera e il mouse.
Il livello di precisione raggiunto oggi dal RV garantisce significative
possibilità di utilizzo anche in presenza di alterazioni della voce: se le
difficoltà di fonazione non sono eccessive è infatti possibile raggiungere
buoni risultati attraverso l'allenamento e l'utilizzo continuo (il RV è un
programma ad apprendimento progressivo in grado di migliorare nel tempo la
comprensione del parlato tollerando difetti di pronuncia ed adattandosi alla
tonalità, all'accento e al vocabolario caratteristici dell'utilizzatore).
Un programma di RV standard non è invece direttamente utilizzabile se la
voce è fortemente alterata; tuttavia attraverso software specificamente
sviluppati e uno speciale training è possibile
raggiungere risultati significativi nella scrittura, ed ottimi nel controllo
ambientale. Nel corso degli ultimi due anni un gruppo di lavoro a Brescia ha
utilizzato il riconoscimento vocale in due situazioni limite.
Il primo caso riguarda un adulto tetraplegico che ha subito un intervento di
tracheotomia in conseguenza del quale la voce si è ridotta ad un bisbiglio
appena udibile. Il secondo caso è relativo ad un adulto tetraplegico le cui
capacità di fonazione sono fortemente limitate da una spasticità elevata che
rende il parlato continuo praticamente incomprensibile: la persona riesce
soltanto a pronunciare alcune vocali, alcune consonanti e comporre brevi parole;
particolarmente difficoltoso risulta invece pronunciare intere frasi.
Caso 1 - Fabrizio
Nel primo caso il bassissimo livello della voce rendeva apparentemente
impossibile l'utilizzo del riconoscimento vocale. Un primo problema è stato
risolto utilizzando un microfono direzionale di alta qualità opportunamente
amplificato. Un altro problema riguardava l'addestramento del nuovo utente.
Quando si utilizza per la prima volta un programma di RV, è infatti necessario
effettuare un addestramento iniziale che serve al programma stesso per adeguare
il livello del microfono e per "sintonizzarsi" sulla specifica voce
del nuovo utilizzatore; tale addestramento consiste nella lettura di un testo di
riferimento fornito con il programma. Questo training
iniziale del software si è rivelato un ostacolo: nonostante vari tentativi, più
volte ripetuti, il sistema non riconosceva una sola parola di quanto veniva
letto (la voce risultava infatti troppo diversa rispetto al modello generico su
cui il software basa il processo di adattamento iniziale). Si é quindi ricorsi
ad un espediente: far leggere ad un'altra persona, con voce normale ma
bassissima, le prime frasi del testo di riferimento. Avviato il riconoscimento,
il vero utilizzatore é subentrato nella lettura e dopo alcuni aggiustamenti e
ripetizioni, è stato possibile terminare con successo questa fase iniziale di
addestramento.
Date le condizioni della voce è stato poi necessario sviluppare particolari
programmi applicativi che richiedessero al RV di individuare singoli comandi,
parole o gruppi di parole nell'ambito di un elenco limitato di termini (non era
cioè possibile utilizzare il RV in modalità standard servendosi dell'intero
dizionario in dotazione). Una speciale "tastiera
virtuale" ha consentito, sin dai primi giorni, di scrivere
utilizzando una sorta di "spelling"
basato su nomi di città: per digitare "CIAO" era necessario
pronunciare, in sequenza, le parole "Catania-Imperia-Ancona-Otranto"
(" c-i-a-o" ). Altre parole sono state poi utilizzate per inserire la
punteggiatura, per andare a capo, per cancellare, per usare i comandi Windows
"copia & incolla" e per lavorare sul
testo. Uno speciale software commerciale di completamento e predizione di parola
(*) ha poi consentito di aumentare in modo significativo la velocità di
scrittura.
Specifici menù basati su sequenze prestabilite di parole hanno poi reso
possibile controllare con la voce, in modo perfettamente affidabile, il
telefono, il televisore e vari altri dispositivi. Il controllo avviene
pronunciando sequenze quali "accendi (pausa) luce"
, "accendi (pausa) televisore" , "chiama
(pausa) Mario Rossi (pausa) adesso" (i.e. per chiamare al telefono
il Sig. Mario Rossi). Per impartire un comando è necessario pronunciare
seguendo la corretta sequenza le parole che lo compongono, rispettando
rigorosamente la successione dei termini ed il tempo massimo: è quindi molto
improbabile che suoni o rumori di disturbo possano venire interpretati come una
sequenza valida di comando, soprattutto se si utilizzano sequenze di tre/quattro
parole.
Nei mesi seguenti il continuo utilizzo del sistema ha reso possibile anche la
dettatura diretta di testi con una precisione superiore al 90%, rendendo
addirittura superfluo l'uso del software di predizione e completamento di
parola.
Caso 2 - Dino
Nel secondo caso trattato, il livello di alterazione della voce ha reso
particolarmente difficoltosa la messa a punto della "tastiera di
parole" personalizzata. La quasi impossibilità di pronunciare parole più
lunghe di cinque/sei lettere, l'impossibilità di pronunciare in modo chiaro
diverse consonanti e la scarsa comprensibilità fonetica generale hanno limitato
a circa 25 le parole risultate utilizzabili. Più precisamente sono state
definite 25 parole-suono (non necessariamente con un significato) o gruppi di
parole assonanti (alias fonetici): "aio"
per la lettera "A" (alias fonetici "aglio"
e "caio" ), "bello"
per la lettera "B" (alias fonetico "dello"
), "cella" per la lettera "C"
(alias fonetico "della" ) ecc. In alcuni
casi si sono dovuti utilizzare anche tre equivalenti fonetici per una stessa
parola-suono (è il caso ad esempio della lettera "N",
"nuca", che prevede gli alias fonetici
"duca" , "Luca"
e "nucleo").
Poiché la pronuncia è spesso preceduta o seguita da rumori prodotti
involontariamente, è stato necessario sviluppare un modulo software aggiuntivo
per estendere la capacità di comprensione del riconoscimento vocale,
individuando la parola chiave valida nella sequenza di input acquisita (es.:
"bello" nella sequenza "tutto
bello vero" , dove "tutto" e
"vero" sono suoni involontari o più
precisamente l'interpretazione data dal riconoscitore vocale a tali suoni
involontari).
Ventuno fra le parole-suono disponibili sono utilizzate per le lettere
dell'alfabeto italiano, una parola è utilizzata per la cancellazione dei
caratteri errati, mentre le rimanenti permettono di accedere a dei sotto-menù
che ridefiniscono il significato delle ventuno parole-base. La parola-suono
"Boris" richiama il sotto-menù
principale che trasforma la parola-suono "aio"
in "a capo" (tasto "Invio"),
la parola-suono "bello" nel segno di
punteggiatura "virgola" mentre ad esempio
"okay" (lettera "O"),
diventa il carattere spazio. Un altro sotto-menù trasforma "aio"
nella cifra "1", "bello"
nella cifra "2", "cella"
nella cifra "3" e così via fino alla
parola-suono "lui" che corrisponde alla
cifra zero. Ulteriori sotto-menù consentono di scrivere le vocali accentate
italiane e i caratteri "JKWXY". Sempre
attraverso sotto-menù le ventuno parole-base diventano comandi per spostare il
cursore, selezionare il testo, effettuare operazioni di "copia"
, "taglia", "incolla"
, "annulla", "salva
su disco" , "leggi da disco"
ecc.
Per limitare gli errori è stato anche inserito un filtro ortografico che
durante la scrittura disattiva i caratteri non selezionabili (es.: lettere
"BDFGMNPTVZ" dopo un carattere "C").
Il filtro può essere disattivato per scrivere sigle o parole straniere.
La velocità di scrittura attuale risulta essere di oltre quindici caratteri
al minuto, risultato che potrebbe migliorare in modo significativo con
l'esercizio e l'adozione di un programma di predizione/completamento di parola.
Per la definizione delle parole-suono è stato sviluppato uno speciale
programma che consente di provare gruppi di termini, di attivare e disattivare
vari filtri e di verificare riconoscibilità, distinguibilità ed affidabilità
delle parole in esame.
Per quanto riguarda il controllo ambientale, le sequenze di comando quali "accendi
(pausa) luce" sono sostituite da sequenze quali "aio
(pausa) lui" con pari risultato.
Nel corso di questi due anni sono stati sviluppati software e
programmi di utilità specificamente pensati per l'uso tramite comando vocale;
tra questi:
Alcune di queste applicazioni possono rivelarsi utili anche per persone che
abbiano una voce perfettamente normale, poiché consentono di aumentare la
velocità di esecuzione dei comandi aumentando, grazie ai vari filtri adottati,
la precisione e l'affidabilità degli stessi.
Tutto il sistema è controllato da un pulsante manuale che può essere
azionato con un movimento del capo (è anche possibile utilizzare un sensore che
sfrutti qualsiasi altro movimento disponibile, come ad esempio la mobilità
anche minima delle dita di una mano): azionando il sensore di comando viene
richiamato il menù-base dal quale si accede ai sotto-menù relativi alle varie
applicazioni (tastiera virtuale, utilità cursore, controllo ambientale,
collegamento ad Internet, giochi ecc.). Una pressione prolungata del sensore
permette di attivare/disattivare il microfono del riconoscimento vocale.
Alcune funzioni sono accessibili anche con il solo sensore: tramite un menù
vocalizzato per mezzo di messaggi preregistrati è possibile accendere/spegnere
la luce o il televisore, cambiare i canali o telefonare. Servendosi di
trasmettitori e ricevitori a radio frequenze, questa seconda modalità è
utilizzabile anche al di fuori della stanza che ospita il computer e i vari
dispositivi elettronici (per esempio, da un cortile antistante l'abitazione).
Conclusioni
Le esperienze descritte hanno dato risultati estremamente positivi
nell'utilizzo di programmi di riconoscimento vocale. Entrambi i soggetti stanno
attualmente utilizzando il programma Dragon Naturally Speaking versione parlato
continuo. Sebbene sia stato necessario sviluppare programmi appositi e
personalizzati per ottimizzare (o addirittura nel secondo caso rendere
possibile) il riconoscimento della voce, le potenzialità della tecnologia
reperibile sul mercato ed il costante impegno delle persone che si sono
adoperate mettendo le loro conoscenze informatiche a supporto di questi
progetti, hanno reso possibile per Fabrizio ed Andrea il recupero di un grado di
autonomia non sperato.
|
(*)
|
Un software di completamento parola propone dei
termini sulla base delle prime lettere digitate: scrivendo ad esempio "ca"
vengono suggerite parole come "caro" , "cara"
, "casa" ecc.; data la parola "sabato" il suggeritore
propone termini quali "scorso" , "prossimo" ,
"mattina" ecc. |
Enrico Bertanza - Settembre 2004