Un team di ricercatori dell’Università di Tokyo ha costruito un ponte tra grandi modelli linguistici e robot che promette gesti più simili a quelli umani eliminando i tradizionali controlli dipendenti dall’hardware.
Alter 3 è l’ultima versione di un robot umanoide distribuito per la prima volta nel 2016. I ricercatori stanno ora utilizzando GPT-4 per guidare il robot attraverso varie simulazioni, come scattare un selfie, lanciare una palla, mangiare popcorn e suonare la chitarra.
In precedenza, tali azioni avrebbero richiesto una codifica specifica per ciascuna attività, ma l’integrazione di GPT-4 introduce ampie nuove funzionalità per i robot che imparano dall’insegnamento del linguaggio naturale.
I robot alimentati da AI
I robot alimentati dall’intelligenza artificiale “si concentrano principalmente sulla facilitazione della comunicazione di base tra la vita e i robot all’interno di un computer, utilizzando LLM per interpretare e fingere risposte realistiche”, hanno affermato i ricercatori in un recente studio.
“Il controllo diretto è fattibile mappando le espressioni linguistiche delle azioni umane sul corpo del robot attraverso il codice del programma”, hanno affermato. Hanno definito questo progresso “un cambiamento di paradigma”.
Alter 3, che è in grado di eseguire movimenti complessi della parte superiore del corpo, comprese espressioni facciali dettagliate, ha 43 assi che simulano il movimento muscolo-scheletrico umano. Poggia su una base ma non può camminare (anche se può imitare il cammino).
Un androide molto “umano”
Il compito di codificare la coordinazione di così tante articolazioni era un compito arduo che comportava movimenti altamente ripetitivi. “Grazie a LLM, ora siamo liberi dal lavoro iterativo”, hanno affermato gli autori. Ora possono semplicemente fornire istruzioni verbali che descrivono i movimenti desiderati e fornire un messaggio che istruisce l’LLM a creare codice Python che esegue il motore Android.
Alter3 conserva le attività in memoria e i ricercatori possono perfezionare e adattare le sue azioni, portando nel tempo a movimenti più rapidi, fluidi e accurati.
Alter 3 sorride e scatta selfie
Gli autori forniscono un esempio delle istruzioni in linguaggio naturale fornite ad Alter3 per scattare un selfie: Crea un sorriso grande e gioioso e allarga gli occhi per mostrare eccitazione. Ruota rapidamente leggermente la parte superiore del corpo verso sinistra, adottando una postura dinamica.
Alza la mano destra in alto, simulando un telefono. Flette il gomito destro, avvicinando il telefono al viso. Inclina leggermente la testa a destra, donando un’atmosfera giocosa. L’utilizzo degli LLM nella ricerca sulla robotica “ridefinisce i confini della collaborazione uomo-robot, aprendo la strada a entità robotiche più intelligenti, adattabili e personalizzabili”, hanno affermato i ricercatori.
Un umorismo che non guasta mai
Come fa notare Techxplore, gli scienziati hanno iniettato un po’ di umorismo nelle attività di Alter 3. In uno scenario, il robot finge di consumare un sacchetto di popcorn solo per scoprire che appartiene alla persona seduta accanto ad esso. Le espressioni facciali e i gesti delle braccia esagerati trasmettono sorpresa e imbarazzo.
L’Alter 3 dotato di fotocamera può “vedere” gli esseri umani. I ricercatori hanno scoperto che Alter 3 può affinare il proprio comportamento osservando le risposte umane. Hanno paragonato questo apprendimento all’imitazione neonatale, che i comportamentisti infantili osservano nei neonati.
Capacità di apprendimento formidabile
La capacità di apprendimento “zero-shot” dei robot connessi GPT-4 “ha il potenziale per ridefinire i confini della collaborazione uomo-robot, aprendo la strada a entità robotiche più intelligenti, adattabili e personalizzabili”, hanno affermato i ricercatori. Ci sarà un giorno in cui la specie dominante non sarà solamente quella umana ma anche quella cybernetica? Solo la storia potrà rispondere a tale quesito.
Nel frattempo gli studi sull’intelligenza artificale proseguono regalandoci grandi sorprese. L’articolo, “From Text to Motion: Grounding GPT-4 in a Humanoid Robot ‘Alter3′”, scritto da Takahide Yoshida, Atsushi Masumori e Takashi Ikegami, è disponibile sul server di prestampa arXiv.