Alexa potrà parlare con la voce di un tuo caro defunto

In un futuro molto prossimo, il famoso assistente vocale di Amazon, Alexa, potrebbe parlare molto diversamente che con la voce impersonale cui siamo abituati. In effetti, la voce dell'assistente digitale basato su cloud potrebbe rimbalzare sulle pareti della tua camera nella voce della nonna defunta, del coniuge, del migliore amico o persino di Elvis Presley

0
208
Alexa potrà parlare con la voce di un tuo caro defunto e, probabilmente, non è una buona cosa
Alexa potrà parlare con la voce di un tuo caro defunto e, probabilmente, non è una buona cosa

In un futuro molto prossimo, il famoso assistente vocale di Amazon, Alexa, potrebbe parlare molto diversamente che con la voce impersonale cui siamo abituati. In effetti, la voce dell’assistente digitale basato su cloud potrebbe rimbalzare sulle pareti della tua camera nella voce della nonna defunta, del coniuge, del migliore amico o persino di Elvis Presley.

Almeno, questo è ciò che Rohit Prasad, vicepresidente senior di Amazon e scienziato capo di Alexa, ha annunciato alla conferenza re:MARS di Amazon, un evento globale di intelligenza artificiale (AI) che il fondatore e presidente esecutivo di Amazon Jeff Bezos ha recentemente ospitato. Con un solo campione audio di un minuto, questa tecnologia potrebbe far rimbalzare la voce di una persona cara attraverso gli altoparlanti di un dispositivo Echo.

Prasad ha utilizzato una breve presentazione per mostrare al pubblico in che modo la nuova tecnologia del sintetizzatore vocale potrebbe aiutarci a forgiare ricordi duraturi dei nostri parenti defunti. “Alexa, la nonna può finire di leggermi Il Mago di Oz?”, ha chiesto un ragazzino a un simpatico altoparlante Echo con grandi occhi da panda. “Va bene“, ha risposto Alexa con la sua voce tipica. Quindi, la “nonna” del ragazzo ha iniziato a raccontare il classico romanzo per bambini. Prasad non ha detto esattamente quando questa funzione sarà rilasciata e non ha dato ulteriori dettagli su come funzionerà.

I sintetizzatori vocali robotici sono in circolazione da un po’, ma non si sono fatti davvero strada nella cultura pop fino agli anni ’80, quando il fisico teorico Stephen Hawking ha iniziato a usarne pubblicamente uno per poter parlare. Per creare un discorso sintetizzato, si concatenano pezzi di discorso registrato che sono archiviati in un database. “Amazon, in particolare, sta utilizzando un banco di audio di cui dispone già per costruire un modello base. Quindi, adatteranno il modello base di conseguenza“, spiega Lee Mallon. Mallon è uno sviluppatore di app che ha lavorato a progetti per i servizi vocali di Alexa ed è il fondatore di voiceOK, un’app che conserva le storie registrate lette ad alta voce dai propri cari.

Correlato: Resuscitare in un chatbot, adesso è possibile

Diciamo che parli inglese. Stanno usando i dati di migliaia e migliaia o più di persone che parlano inglese come tipo base di modello linguistico, e poi aggiungono la tua impronta vocale ad esso, generando la tua voce sintetica in pochi minuti”, spiega Mallon. La tua impronta vocale è la tua voce genuina, con tutte le sue caratteristiche uniche.

Un etico barattolo di vermi

Il fatto che Amazon impieghi solo un minuto per ricostruire la voce di una persona non riflette una vita di emozioni, però. “Riuscirà la persona a dire una frase in uno stato di orrore o eccitazione e ridere allo stesso tempo?” chiede Mallon. In altre parole, la clip di 60 secondi conterrà ogni inflessione della voce della persona? Mallon pensa che nei pochi casi di successo in cui la voce sintetizzata riesce a catturare le microemozioni dell’originale, il risultato potrebbe aiutare enormemente una persona a elaborare il dolore.



Nella maggior parte dei casi, tuttavia, il prodotto finale potrebbe essere deludente, se non addirittura inquietante, almeno fino a quando la tecnologia non progredirà abbastanza da cancellare i confini tra la voce reale e quella sintetica. “La voce sintetica è ancora lontana dai cinque ai sei anni dall’essere indistinguibile da quella reale“, dice Mallon. Per non parlare, nel suo attuale stato nascente, la sintesi vocale potrebbe far nascere grossi problemi etici.

Nel febbraio 2021, ad esempio, un deepfake della star di Hollywood Tom Cruise è diventato virale su TikTok. “Cruise” ha mostrato la sua collezione di CD e ha suonato una canzone della Dave Matthews Band alla chitarra. La somiglianza del falso media rispetto alla realtà che ha allarmato molti utenti di TikTok: e se qualcuno usasse un nostro deepfake visivo (o audio) per recitare una scena imbarazzante e diffondere i media sintetici su Internet?

Ma le cose non migliorano nemmeno con la morte, perché la tecnologia deepfake potrebbe non farci riposare in pace. In teoria, chiunque abbia accesso ai nostri dati, come tweet, messaggi di Facebook, note vocali ed e-mail, potrebbe virtualmente resuscitare la nostra somiglianza attraverso un deepfake, un avatar o un chatbot senza bisogno di alcun consenso preventivo ad una cosa del genere. E la creazione di un indice da questi dati non porta sempre a risposte organiche o oneste, ha spiegato Irina Raicu, direttrice del programma di etica di Internet presso il Markkula Center for Applied Ethics dell’Università di Santa Clara.

Se viene permessa una cosa simile, penso che questo potrebbe avere un effetto agghiacciante sulle comunicazioni umane“, afferma Raicu. “Se sono preoccupato che tutto ciò che sto per dire possa essere usato in uno strano avatar di me stesso, dovrò fare attenzione a tutto ciò che dico“.

Le persone viventi potrebbero contestare i deepfake e portare i responsabili in tribunale. Ma con i morti, specialmente quelli che sono morti in un passato non molto recente (e quelli senza proprietà legali attive), c’è più possibilità di abusi. Cosa accadrebbe se, per esempio, tu facessi parlare Muhammad Ali della tensione razziale con parole che in realtà non ha mai detto? L’iconico pugile professionista americano era un musulmano e un famoso sostenitore dei diritti degli afroamericani.

Immagina cosa accadrebbe se prendessimo la voce di Ali in questo momento, con tutte le cose che stanno succedendo a Salman Rushdie, e gli mettessimo delle parole in bocca, parole mai pronunciate da lui?” chiede Rupal Patel, professore presso il Dipartimento di Scienze e Disturbi della Comunicazione della Northeastern University e vicepresidente di voce e accessibilità presso Veritone, un’azienda tecnologica di intelligenza artificiale con sede in California (Rushdie, un famoso autore inglese-britannico di origine indiana, è stato accoltellato ad agosto prima di tenere un discorso sugli Stati Uniti come spazio sicuro per gli scrittori esiliati).

Dobbiamo prevenire in modo proattivo tali abusi eclatanti“, afferma Patel, altrimenti potremmo finire per “fraintendere il segno di una figura influente nella vita“. Fallo ad altri personaggi pubblici morti e potresti finire per distorcere un’intera eredità e sbilanciare una società che già si trova in bilico.

Chi possiede davvero la tua voce?

Con questo nuovo sviluppo, Amazon sta rendendo popolare una tecnologia esistente, ma non ci siamo ancora salvaguardati dai problemi che potrebbero sorgere se questa tecnologia vocale postuma dovesse diffondersi.

La tua voce è una tua proprietà intellettuale“, dice Patel. “Ci dovrà essere un qualche tipo di controllo in termini di chi ottiene l’accesso alla licenza di quella voce, o chi può controllare il motore vocale una volta creato, perché altrimenti ci sono grandi rischi … Una AI vocale potrebbe essere utilizzata per impersonare qualcuno, il che potrebbe non ingannare un essere umano, ma potrebbe ingannare un sistema di autenticazione vocale come quelli utilizzati nel settore bancario. La ricezione vocale è un capitolo completamente nuovo che non sappiamo ancora come affrontare“, a spiegato Patel.

Per insegnare alle macchine, i dipendenti di Amazon ascoltano e valutano gli input vocali su base regolare. Amazon conserva una copia di tutto ciò che Alexa registra dopo aver sentito il suo nome e, secondo quanto riferito, Alexa origlia i suoi padroni abbastanza regolarmente. “Un algoritmo può valutare quanti anni hai, il tuo sesso o se l’inglese è la tua prima o seconda lingua dalle lievi inflessioni nella tua voce quando lo parli, e molto, molto altro“, dice Mallon.

Un rapporto dell’aprile 2022 dell’Università di Washington, UC Davis, UC Irvine e Northeastern University ha rilevato che Amazon condivide i dati di Alexa con 41 diversi partner pubblicitari. E questo è probabilmente il motivo finale per far parlare Alexa “dall’altra parte“, spiega Mallon. “Lo stanno facendo per renderla un po’ più interessante e mantenere in vita Alexa, in modo che possa continuare ad entrare in casa tua“.

2