lunedì, Novembre 25, 2024
HomeTecnologiaIntelligenza artificialeIl modello linguistico Gemini rivoluziona la robotica

Il modello linguistico Gemini rivoluziona la robotica

La capacità di Gemini di gestire video e testo, oltre alla sua capacità di assimilare grandi quantità di informazioni sotto forma di tour video dell'ufficio registrati in precedenza, consente al robot "Google helper" di dare un senso al suo ambiente e di navigare correttamente quando un robot riceve comandi che richiedono un ragionamento basato sul buon senso

In un ufficio open space a Mountain View, California, un robot alto e snello con le ruote è stato impegnato a fare da guida turistica e da aiutante informale in ufficio, grazie a un grande aggiornamento del modello linguistico, secondo una rivelazione di Google DeepMind. Il robot utilizza l’ultima versione del grande modello linguistico Gemini di Google sia per analizzare i comandi che per orientarsi.

Robot, Claude, Gemini

Il modello linguistico Gemini di Google applicato alla robotica

Ad esempio, quando un essere umano gli dice:”Trovami un posto dove scrivere“, il robot si allontana diligentemente, conducendo la persona a una lavagna bianca immacolata situata da qualche parte nell’edificio.

La capacità di Gemini di gestire video e testo, oltre alla sua capacità di assimilare grandi quantità di informazioni sotto forma di tour video dell’ufficio registrati in precedenza, consente al robot “Google helper” di dare un senso al suo ambiente e di navigare correttamente quando riceve comandi che richiedono un ragionamento basato sul buon senso. Il robot combina Gemini con un algoritmo che genera azioni specifiche da intraprendere, come voltarsi, in risposta ai comandi e a quello che vede di fronte a sé.

Sbloccare nuove abilità dei robot

Quando Gemini è stato presentato nel dicembre 2023, Demis Hassabis, CEO di Google DeepMind, ha dichiarato che le sue capacità multimodali avrebbero probabilmente sbloccato nuove abilità dei robot. Ha aggiunto che i ricercatori dell’azienda stavano lavorando duramente per testare il potenziale robotico del modello.

In un nuovo documento che ha delineato il progetto, i ricercatori coinvolti hanno affermato che il loro robot ha dimostrato di essere affidabile fino al 90 percento nella navigazione, anche quando gli vengono dati comandi difficili come: “Dove ho lasciato le mie montagne russe?” Il sistema di DeepMind: “Ha migliorato significativamente la naturalezza dell’interazione uomo-robot e aumentato notevolmente l’usabilità del robot“, ha spiegato il team.

La demo ha illustrato in modo chiaro il potenziale dei grandi modelli linguistici di raggiungere il mondo fisico e svolgere un lavoro utile. Gemini e altri chatbot operano principalmente entro i confini di un browser web o di un’app, sebbene siano sempre più in grado di gestire input visivi e uditivi, come hanno dimostrato di recente sia Google che OpenAI.

A maggio 2024, Hassabis ha mostrato una versione aggiornata di Gemini in grado di dare un senso alla disposizione di un ufficio vista attraverso la fotocamera di uno smartphone.

I laboratori di ricerca accademici e industriali sono interessati a vedere come i modelli linguistici potrebbero essere utilizzati per migliorare le capacità dei robot. Il programma di maggio per la Conferenza internazionale sulla robotica e l’automazione, un evento popolare per i ricercatori di robotica, elenca quasi due dozzine di articoli che prevedono l’uso di modelli linguistici visivi.

Gli investitori stanno finanziando le startup che mirano ad applicare i progressi dell’intelligenza artificiale alla robotica. Molti dei ricercatori coinvolti nel progetto Google hanno da allora lasciato l’azienda per fondare una startup chiamata Physical Intelligence, che ha ricevuto un finanziamento iniziale di 70 milioni di dollari.

Sta lavorando per combinare grandi modelli linguistici con la formazione nel mondo reale per dare ai robot capacità generali di risoluzione dei problemi. Skild AI, fondata da esperti di robotica presso la Carnegie Mellon University, ha un obiettivo simile. A luglio 2024 ha annunciato un finanziamento di 300 milioni di dollari.

Conclusioni

Solo pochi anni fa, un robot avrebbe avuto bisogno di una mappa del suo ambiente e di comandi attentamente scelti per navigare con successo. I grandi modelli linguistici contengono informazioni utili sul mondo fisico e le versioni più recenti che sono addestrate su immagini e video oltre che su testo, note come modelli linguistici visivi, possono rispondere a domande che richiedono percezione.

Gemini consente al robot di Google di analizzare istruzioni visive e vocali, seguendo uno schizzo su una lavagna che mostra un percorso verso una nuova destinazione.

Nel loro studio, i ricercatori hanno affermato che intendono testare il sistema su diversi tipi di robot. Hanno aggiunto che Gemini dovrebbe essere in grado di dare un senso a domande più complesse, come: “Hanno la mia bevanda preferita oggi?” da un utente con un sacco di lattine vuote di Coca-Cola sulla scrivania.

Lo studio è stato pubblicato su Arxiv.

RELATED ARTICLES

Viaggi e Vacanze

Alimentazione e Salute

Il corbezzolo, un frutto autunnale, apprezzato dai nostri nonni ed oggi quasi dimenticato

Il corbezzolo è un arbusto resistente alla siccità, e tollera leggermente il freddo, fino a circa -10/-15°C. , è un arbusto rustico e resistente a molti parassiti. Vegeta in terreni sub-acidi, anche rocciosi ha interessanti usi in fitoterapia ed è utilizzabile per la preparazione di dolci e liquori.

BHB-Phe: il composto naturale che sopprime la fame

Un team di ricercatori del Baylor College of Medicine, della Stanford University School of Medicine e i loro collaboratori ha identificato un nuovo composto...

La bufala (per non dire truffa) delle diete e delle terapie alcalinizzanti

Da qualche anno, soprattutto tra gli appassionati di medicina alternativa, cure esotiche, seguaci di dubbie teorie salutiste e complottari in ambito sanitario, spopola l'idea...

Giochi

Le normative più importanti che i siti d’intrattenimento sicuri devono seguire

Un sito d’intrattenimento online sicuro e affidabile deve necessariamente rispettare le normative sul gioco previste dal Paese in cui esercita. Oltre ad essere sempre...

Come scegliere la giusta strategia di scommessa sul Bingo per massimizzare le vincite al casinò di Posido

Il bingo è uno dei più popolari giochi d'azzardo basati sul caso. L'obiettivo del giocatore è quello di essere il primo a completare una...

Le mani del blackjack e come giocarle a Sportaza

Il blackjack è una questione di mani e chi le gioca meglio è quello che ne esce vincente nella maggior parte dei casi. Se vuoi...