Il modello linguistico Gemini rivoluziona la robotica

La capacità di Gemini di gestire video e testo, oltre alla sua capacità di assimilare grandi quantità di informazioni sotto forma di tour video dell'ufficio registrati in precedenza, consente al robot "Google helper" di dare un senso al suo ambiente e di navigare correttamente quando un robot riceve comandi che richiedono un ragionamento basato sul buon senso

By Fabiana Brosseau

13 Luglio 2024

0

337

Indice

Il modello linguistico Gemini di Google applicato alla robotica
Sbloccare nuove abilità dei robot
Conclusioni

In un ufficio open space a Mountain View, California, un robot alto e snello con le ruote è stato impegnato a fare da guida turistica e da aiutante informale in ufficio, grazie a un grande aggiornamento del modello linguistico, secondo una rivelazione di Google DeepMind. Il robot utilizza l’ultima versione del grande modello linguistico Gemini di Google sia per analizzare i comandi che per orientarsi.

Robot, Claude, Gemini

alt-text: migliori casino online non AAMS

Il modello linguistico Gemini di Google applicato alla robotica

Ad esempio, quando un essere umano gli dice:”Trovami un posto dove scrivere“, il robot si allontana diligentemente, conducendo la persona a una lavagna bianca immacolata situata da qualche parte nell’edificio.

La capacità di Gemini di gestire video e testo, oltre alla sua capacità di assimilare grandi quantità di informazioni sotto forma di tour video dell’ufficio registrati in precedenza, consente al robot “Google helper” di dare un senso al suo ambiente e di navigare correttamente quando riceve comandi che richiedono un ragionamento basato sul buon senso. Il robot combina Gemini con un algoritmo che genera azioni specifiche da intraprendere, come voltarsi, in risposta ai comandi e a quello che vede di fronte a sé.

Sbloccare nuove abilità dei robot

Quando Gemini è stato presentato nel dicembre 2023, Demis Hassabis, CEO di Google DeepMind, ha dichiarato che le sue capacità multimodali avrebbero probabilmente sbloccato nuove abilità dei robot. Ha aggiunto che i ricercatori dell’azienda stavano lavorando duramente per testare il potenziale robotico del modello.

In un nuovo documento che ha delineato il progetto, i ricercatori coinvolti hanno affermato che il loro robot ha dimostrato di essere affidabile fino al 90 percento nella navigazione, anche quando gli vengono dati comandi difficili come: “Dove ho lasciato le mie montagne russe?” Il sistema di DeepMind: “Ha migliorato significativamente la naturalezza dell’interazione uomo-robot e aumentato notevolmente l’usabilità del robot“, ha spiegato il team.

La demo ha illustrato in modo chiaro il potenziale dei grandi modelli linguistici di raggiungere il mondo fisico e svolgere un lavoro utile. Gemini e altri chatbot operano principalmente entro i confini di un browser web o di un’app, sebbene siano sempre più in grado di gestire input visivi e uditivi, come hanno dimostrato di recente sia Google che OpenAI.

A maggio 2024, Hassabis ha mostrato una versione aggiornata di Gemini in grado di dare un senso alla disposizione di un ufficio vista attraverso la fotocamera di uno smartphone.

I laboratori di ricerca accademici e industriali sono interessati a vedere come i modelli linguistici potrebbero essere utilizzati per migliorare le capacità dei robot. Il programma di maggio per la Conferenza internazionale sulla robotica e l’automazione, un evento popolare per i ricercatori di robotica, elenca quasi due dozzine di articoli che prevedono l’uso di modelli linguistici visivi.

Gli investitori stanno finanziando le startup che mirano ad applicare i progressi dell’intelligenza artificiale alla robotica. Molti dei ricercatori coinvolti nel progetto Google hanno da allora lasciato l’azienda per fondare una startup chiamata Physical Intelligence, che ha ricevuto un finanziamento iniziale di 70 milioni di dollari.

Sta lavorando per combinare grandi modelli linguistici con la formazione nel mondo reale per dare ai robot capacità generali di risoluzione dei problemi. Skild AI, fondata da esperti di robotica presso la Carnegie Mellon University, ha un obiettivo simile. A luglio 2024 ha annunciato un finanziamento di 300 milioni di dollari.

Conclusioni

Solo pochi anni fa, un robot avrebbe avuto bisogno di una mappa del suo ambiente e di comandi attentamente scelti per navigare con successo. I grandi modelli linguistici contengono informazioni utili sul mondo fisico e le versioni più recenti che sono addestrate su immagini e video oltre che su testo, note come modelli linguistici visivi, possono rispondere a domande che richiedono percezione.

Gemini consente al robot di Google di analizzare istruzioni visive e vocali, seguendo uno schizzo su una lavagna che mostra un percorso verso una nuova destinazione.

Nel loro studio, i ricercatori hanno affermato che intendono testare il sistema su diversi tipi di robot. Hanno aggiunto che Gemini dovrebbe essere in grado di dare un senso a domande più complesse, come: “Hanno la mia bevanda preferita oggi?” da un utente con un sacco di lattine vuote di Coca-Cola sulla scrivania.

Lo studio è stato pubblicato su Arxiv.

Articolo precedente

Sviluppata “tuta distillante” per riciclare l’urina degli astronauti e renderla potabile

Articolo successivo

Offerte Amazon: piastre per capelli super scontate!

Il modello linguistico Gemini rivoluziona la robotica

Il modello linguistico Gemini di Google applicato alla robotica

Sbloccare nuove abilità dei robot

Conclusioni

ChatGPT-4.5 supera il test di Turing

Intelligenza artificiale: il nuovo lancio di OpenAI è stato oscurato da un problema imbarazzante

Elaborazione Flex: OpenAI punta sul prezzo per sfidare i competitor

Viaggi e Vacanze

Come Trovare Offerte per Noleggio di Elicotteri?

Weekend di lusso in primavera: le migliori destinazioni per un soggiorno esclusivo

Viaggio in Islanda: qual è il periodo migliore per una vacanza?

Lesotho, il regno di cui, secondo Trump, nessuno ha sentito parlare: 9 cose da sapere

Alimentazione e Salute

A cosa serve il sonno e come cambia con l’età

Trattamenti di stimolazione cerebrale non invasivi per smettere di fumare

Mandorle: tutte le proprietà di un frutto che allunga la vita

Giochi

Giocare online in modo sicuro: ecco come fare

Le ultime slot del Casino online CasinoLab per i giocatori principianti e occasionali

La gerarchia non dichiarata dei tell: Sfruttare la sottigliezza nel poker high-stakes di Librabet

Prepping

Scorte da avere in casa in caso di emergenza

Caricabatterie a manovella o a pannelli solari: qual è la miglior opzione?

Glicerina: 8 usi sorprendenti

Cambiamento climatico

Great Blue Hole: il suo nucleo di sedimenti preannuncia un XXI secolo turbolento

Barriera corallina australiana: sbiancamento massiccio distrugge l’ecosistema

Innalzamento del livello del mare: 2025, l’anno dell’accelerazione inaspettata

Categorie ed articoli

Su di noi

FOLLOW US