Figure ha pubblicato un video di poco più di due minuti su X per dimostrare ciò che il suo robot umanoide Figure 01 può presumibilmente fare grazie a una combinazione delle reti neurali della startup e dell’intelligenza visiva e linguistica di OpenAI.
Le straordinarie capacità di elaborazione del linguaggio naturale e visive di Figure 01
Il video si apre con una persona che chiede a Figure 01 cosa vede il robot, che spiega esattamente cosa c’è sul tavolo di fronte a lui, mostrando le avanzate capacità di elaborazione del linguaggio naturale e visive dell’umanoide.
Successivamente, cosa forse ancora più affascinante, quando la persona chiede qualcosa da mangiare a Figure 01, il robot risponde scegliendo la mela tra gli oggetti davanti a sé, evidenziando la capacità del robot di ragionare su una situazione e di consegnare in base a tale elaborazione.
L’uomo chiede: “Posso mangiare qualcosa?” Il robot afferra la mela, riconoscendo chiaramente che è l’unico oggetto commestibile sul tavolo, e gliela porge. Figure 01 è stato persino in grado di spiegare la sua scelta, mentre stava svolgendo il compito di di sistemare la spazzatura, dicendo: “Quindi ti ho dato la mela perché è l’unico oggetto commestibile che potevo fornirti dalla tavola”.
Figure 01: un robot umanoide
Che cosa, esattamente, è alla base della perfetta interazione di Figure 01 con un essere umano? È un nuovo modello di linguaggio visivo (VLM) che trasforma un robot futuristico in una macchina simile ad un essere umano, non a caso è stato definito un robot umanoide.
Al robot è stato chiesto quanto bene pensa di aver lavorato. In modo colloquiale Figure 01 ha risposto: “Penso di aver fatto abbastanza bene. La mela ha trovato il suo nuovo proprietario, la spazzatura è sparita e le stoviglie sono esattamente al loro posto“.
Secondo Brett Adcock, il fondatore di Figure, Figure 01 ha telecamere integrate che alimentano i dati VLM che lo aiutano a “comprendere” la scena di fronte a lui, consentendo al robot di interagire senza problemi con un essere umano. Oltre ad Adcock, Figure 01 nasce da un’idea di diversi attori chiave di Boston Dynamics, Tesla, Google Deep Mind e Archer Aviation.
L’obiettivo finale è quello di addestrare un sistema di intelligenza artificiale super avanzato per controllare miliardi di robot umanoidi, rivoluzionando potenzialmente diversi settori.
Un grande passo avanti per la robotica
Sebbene sia facile curare una demo come questa in modo che sia quanto più impressionante possibile, per non parlare della modifica del filmato risultante, Figure sembra stia facendo passi da gigante verso il suo obiettivo.
Se questo video è una rappresentazione accurata di quello che Figure 01 può fare, Figure potrebbe essere sull’orlo di un importante passo avanti nello spazio della robotica: un robot disponibile in commercio in grado non solo di eseguire compiti fisici, ma anche di ragionare e parlare.
Figure ritiene di avere una possibilità realistica di essere la prima azienda a commercializzare effettivamente un robot umanoide per uso generico e non si preoccupa più di tanto della concorrenza. Secondo quanto affermato da Brett Adcock, il problema è solo riuscirci: “C’è spazio per diverse aziende per riuscirci e penso che possiamo essere una di loro. Questo, ovviamente, richiederà progressi significativi nella tecnologia”.
Figure 01 è completamente elettrico, alto 1,60 m, pesa 60 kg, può sollevare circa 20 kg e ha circa 5 ore di autonomia con una singola ricarica.
Si parla sempre più spesso di robot umanoidi, macchine autonome dalle sembianze umane capaci di interagire con l’ambiente circostante, e sono sempre di più le società che ci stanno lavorando. Di queste, alcune sono già in una fase avanzata, altre ne avrebbero le capacità ma ancora non hanno le giuste motivazioni, altre, invece, stanno appena iniziando e hanno ottime prospettive di sviluppo.