In un ufficio open space a Mountain View, California, un robot alto e snello con le ruote è stato impegnato a fare da guida turistica e da aiutante informale in ufficio, grazie a un grande aggiornamento del modello linguistico, secondo una rivelazione di Google DeepMind. Il robot utilizza l’ultima versione del grande modello linguistico Gemini di Google sia per analizzare i comandi che per orientarsi.
Il modello linguistico Gemini di Google applicato alla robotica
Ad esempio, quando un essere umano gli dice:”Trovami un posto dove scrivere“, il robot si allontana diligentemente, conducendo la persona a una lavagna bianca immacolata situata da qualche parte nell’edificio.
La capacità di Gemini di gestire video e testo, oltre alla sua capacità di assimilare grandi quantità di informazioni sotto forma di tour video dell’ufficio registrati in precedenza, consente al robot “Google helper” di dare un senso al suo ambiente e di navigare correttamente quando riceve comandi che richiedono un ragionamento basato sul buon senso. Il robot combina Gemini con un algoritmo che genera azioni specifiche da intraprendere, come voltarsi, in risposta ai comandi e a quello che vede di fronte a sé.
Sbloccare nuove abilità dei robot
Quando Gemini è stato presentato nel dicembre 2023, Demis Hassabis, CEO di Google DeepMind, ha dichiarato che le sue capacità multimodali avrebbero probabilmente sbloccato nuove abilità dei robot. Ha aggiunto che i ricercatori dell’azienda stavano lavorando duramente per testare il potenziale robotico del modello.
In un nuovo documento che ha delineato il progetto, i ricercatori coinvolti hanno affermato che il loro robot ha dimostrato di essere affidabile fino al 90 percento nella navigazione, anche quando gli vengono dati comandi difficili come: “Dove ho lasciato le mie montagne russe?” Il sistema di DeepMind: “Ha migliorato significativamente la naturalezza dell’interazione uomo-robot e aumentato notevolmente l’usabilità del robot“, ha spiegato il team.
La demo ha illustrato in modo chiaro il potenziale dei grandi modelli linguistici di raggiungere il mondo fisico e svolgere un lavoro utile. Gemini e altri chatbot operano principalmente entro i confini di un browser web o di un’app, sebbene siano sempre più in grado di gestire input visivi e uditivi, come hanno dimostrato di recente sia Google che OpenAI.
A maggio 2024, Hassabis ha mostrato una versione aggiornata di Gemini in grado di dare un senso alla disposizione di un ufficio vista attraverso la fotocamera di uno smartphone.
I laboratori di ricerca accademici e industriali sono interessati a vedere come i modelli linguistici potrebbero essere utilizzati per migliorare le capacità dei robot. Il programma di maggio per la Conferenza internazionale sulla robotica e l’automazione, un evento popolare per i ricercatori di robotica, elenca quasi due dozzine di articoli che prevedono l’uso di modelli linguistici visivi.
Gli investitori stanno finanziando le startup che mirano ad applicare i progressi dell’intelligenza artificiale alla robotica. Molti dei ricercatori coinvolti nel progetto Google hanno da allora lasciato l’azienda per fondare una startup chiamata Physical Intelligence, che ha ricevuto un finanziamento iniziale di 70 milioni di dollari.
Sta lavorando per combinare grandi modelli linguistici con la formazione nel mondo reale per dare ai robot capacità generali di risoluzione dei problemi. Skild AI, fondata da esperti di robotica presso la Carnegie Mellon University, ha un obiettivo simile. A luglio 2024 ha annunciato un finanziamento di 300 milioni di dollari.
Conclusioni
Solo pochi anni fa, un robot avrebbe avuto bisogno di una mappa del suo ambiente e di comandi attentamente scelti per navigare con successo. I grandi modelli linguistici contengono informazioni utili sul mondo fisico e le versioni più recenti che sono addestrate su immagini e video oltre che su testo, note come modelli linguistici visivi, possono rispondere a domande che richiedono percezione.
Gemini consente al robot di Google di analizzare istruzioni visive e vocali, seguendo uno schizzo su una lavagna che mostra un percorso verso una nuova destinazione.
Nel loro studio, i ricercatori hanno affermato che intendono testare il sistema su diversi tipi di robot. Hanno aggiunto che Gemini dovrebbe essere in grado di dare un senso a domande più complesse, come: “Hanno la mia bevanda preferita oggi?” da un utente con un sacco di lattine vuote di Coca-Cola sulla scrivania.
Lo studio è stato pubblicato su Arxiv.