I neuroingegneri della Columbia university hanno creato il vocoder, un sistema che traduce il pensiero in un linguaggio comprensibile e riconoscibile. Monitorando l’attività cerebrale di qualcuno, la tecnologia messa a punto sarebbe in grado di ricostruire le parole che una persona ascolta con una chiarezza senza precedenti.
Questa scoperta, che sfrutta la potenza dei sintetizzatori vocali e dell’intelligenza artificiale, potrebbe portare a nuovi modi per i computer di comunicare direttamente con il cervello. Inoltre, pone le basi per aiutare le persone che non possono parlare, come quelli che vivono con la sclerosi laterale amiotrofica (SLA) o che si riprendono da un ictus, a riconquistare la capacità di comunicare con il mondo esterno.
I risultati di questo studio sono stati pubblicati in Scientific reports.
“La nostra voce ci aiuta a comunicare con i nostri amici, la famiglia e il mondo che ci circonda, ed è per questo che perdere la capacità di parlare a causa di lesioni o malattie è così devastante“, ha detto Nima Mesgarani, Ph.D., autore e un ricercatore principale presso la Mortimer B. Zuckerman Mind Brain Behaviour Institute della Columbia University.
“Con questa tecnologia abbiamo un possibile modo per ripristinare questa capacità. Abbiamo dimostrato che, con la giusta tecnologia, i pensieri di queste persone potrebbero essere decodificati e compresi da qualsiasi ascoltatore“.
Decenni di ricerche hanno dimostrato che quando le persone parlano, o addirittura immaginano, nel loro cervello compaiono modelli di attività rivelatori. Un distinto (ma riconoscibile) schema di segnali emerge anche quando ascoltiamo qualcuno che parla o immaginiamo di ascoltare. Gli esperti, cercando di registrare e decodificare questi modelli, vedono un futuro in cui i pensieri potrebbero essere tradotti in un discorso verbale volontario.
Storia del vocoder
Ma realizzare questa impresa è stato difficile. I primi tentativi di decodificare i segnali cerebrali del Dr. Mesgarani e altri si sono concentrati su semplici modelli di computer che analizzavano gli spettrogrammi, che sono rappresentazioni visive delle frequenze del suono.
Poiché, però, questo approccio non è riuscito a produrre qualcosa che assomiglia a un linguaggio intelligibile, la squadra del dott. Mesgarani si è invece rivolta a un vocoder, un algoritmo informatico in grado di sintetizzare il parlato dopo essere stato addestrato attraverso registrazioni di persone che parlano.
“Questa è la stessa tecnologia utilizzata da Amazon Echo e Apple Siri per dare risposte verbali alle nostre domande“, ha detto il dottor Mesgarani, che è anche professore associato di ingegneria elettrica presso la Fu Foundation School of Engineering e Applied Science della Columbia.
Per insegnare al vocoder ad interpretare l’attività cerebrale, il Dr. Mesgarani ha collaborato con Ashesh Dinesh Mehta, MD, Ph.D., neurochirurgo presso il Northwell Health Physician Partners Neuroscience Institute e coautore del nuovo lavoro. Il dott. Mehta cura pazienti con epilessia, alcuni dei quali devono essere sottoposti a regolari interventi chirurgici.
“Lavorando con il Dr. Mehta, abbiamo chiesto ai pazienti con epilessia già sottoposti a chirurgia cerebrale di ascoltare le frasi pronunciate da persone diverse, mentre misuravamo i loro modelli di attività cerebrale“, ha spiegato il dott. Mesgarani. “Questi modelli neurali hanno allenato il vocoder“.
Successivamente, i ricercatori hanno chiesto a quegli stessi pazienti di ascoltare degli altoparlanti che recitavano cifre da 0 a 9, mentre venivano registrati i loro segnali cerebrali conseguenti che sono stati poi dai in pasto al vocoder. I suoni prodotti di conseguenza dal vocoder in risposta a quei segnali è stato analizzato e ripulito dalle reti neurali, un tipo di intelligenza artificiale che imita la struttura dei neuroni nel cervello biologico.
Il risultato finale è stato una voce dal suono robotico che recitava una sequenza di numeri. Per testare l’accuratezza della registrazione, il Dr. Mesgarani e il suo team hanno incaricato alcuni soggetti di ascoltare la registrazione e riferire ciò che sentivano.
“Abbiamo scoperto che i soggetti coinvolti potevano capire e ripetere i suoni circa il 75% delle volte, che è ben al di sopra e al di là di ogni precedente tentativo“, ha detto il dott. Mesgarani. Il miglioramento dell’intelligibilità è stato particolarmente evidente confrontando le nuove registrazioni con i precedenti tentativi basati su spettrogrammi. “Il vocoder sensibile e le potenti reti neurali rappresentavano i suoni che i pazienti avevano originariamente ascoltato con sorprendente accuratezza.”
Ora il dottor Mesgarani e il suo team hanno in programma di testare parole e frasi più complicate e vogliono eseguire gli stessi test sui segnali cerebrali emessi quando una persona parla o immagina di parlare. In definitiva, sperano che il loro sistema possa essere parte di un impianto, simile a quelli indossati da alcuni pazienti affetti da epilessia, che traduca i pensieri di chi li indossa direttamente in parole.
“In questo scenario, se chi lo indossa pensa qualcosa tipo ho bisogno di un bicchiere d’acqua, il nostro sistema potrebbe prendere i segnali cerebrali generati da quel pensiero e trasformarli in un discorso verbale sintetizzato“, ha concluso il dott. Mesgarani. “Questo sarebbe un punto di svolta: darebbe a chiunque abbia perso la capacità di parlare, sia per infortunio che per malattia, la rinnovata possibilità di connettersi al mondo che li circonda“.
Il titolo dello studio è: “Verso la ricostruzione del discorso intelligibile dalla corteccia uditiva umana“.