HomeTecnologiaIntelligenza artificialeIl modello linguistico Gemini rivoluziona la robotica

Il modello linguistico Gemini rivoluziona la robotica

La capacità di Gemini di gestire video e testo, oltre alla sua capacità di assimilare grandi quantità di informazioni sotto forma di tour video dell'ufficio registrati in precedenza, consente al robot "Google helper" di dare un senso al suo ambiente e di navigare correttamente quando un robot riceve comandi che richiedono un ragionamento basato sul buon senso

In un ufficio open space a Mountain View, California, un robot alto e snello con le ruote è stato impegnato a fare da guida turistica e da aiutante informale in ufficio, grazie a un grande aggiornamento del modello linguistico, secondo una rivelazione di Google DeepMind. Il robot utilizza l’ultima versione del grande modello linguistico Gemini di Google sia per analizzare i comandi che per orientarsi.

Robot, Claude, Gemini

Il modello linguistico Gemini di Google applicato alla robotica

Ad esempio, quando un essere umano gli dice:”Trovami un posto dove scrivere“, il robot si allontana diligentemente, conducendo la persona a una lavagna bianca immacolata situata da qualche parte nell’edificio.

La capacità di Gemini di gestire video e testo, oltre alla sua capacità di assimilare grandi quantità di informazioni sotto forma di tour video dell’ufficio registrati in precedenza, consente al robot “Google helper” di dare un senso al suo ambiente e di navigare correttamente quando riceve comandi che richiedono un ragionamento basato sul buon senso. Il robot combina Gemini con un algoritmo che genera azioni specifiche da intraprendere, come voltarsi, in risposta ai comandi e a quello che vede di fronte a sé.

Sbloccare nuove abilità dei robot

Quando Gemini è stato presentato nel dicembre 2023, Demis Hassabis, CEO di Google DeepMind, ha dichiarato che le sue capacità multimodali avrebbero probabilmente sbloccato nuove abilità dei robot. Ha aggiunto che i ricercatori dell’azienda stavano lavorando duramente per testare il potenziale robotico del modello.

In un nuovo documento che ha delineato il progetto, i ricercatori coinvolti hanno affermato che il loro robot ha dimostrato di essere affidabile fino al 90 percento nella navigazione, anche quando gli vengono dati comandi difficili come: “Dove ho lasciato le mie montagne russe?” Il sistema di DeepMind: “Ha migliorato significativamente la naturalezza dell’interazione uomo-robot e aumentato notevolmente l’usabilità del robot“, ha spiegato il team.

La demo ha illustrato in modo chiaro il potenziale dei grandi modelli linguistici di raggiungere il mondo fisico e svolgere un lavoro utile. Gemini e altri chatbot operano principalmente entro i confini di un browser web o di un’app, sebbene siano sempre più in grado di gestire input visivi e uditivi, come hanno dimostrato di recente sia Google che OpenAI.

A maggio 2024, Hassabis ha mostrato una versione aggiornata di Gemini in grado di dare un senso alla disposizione di un ufficio vista attraverso la fotocamera di uno smartphone.

I laboratori di ricerca accademici e industriali sono interessati a vedere come i modelli linguistici potrebbero essere utilizzati per migliorare le capacità dei robot. Il programma di maggio per la Conferenza internazionale sulla robotica e l’automazione, un evento popolare per i ricercatori di robotica, elenca quasi due dozzine di articoli che prevedono l’uso di modelli linguistici visivi.

Gli investitori stanno finanziando le startup che mirano ad applicare i progressi dell’intelligenza artificiale alla robotica. Molti dei ricercatori coinvolti nel progetto Google hanno da allora lasciato l’azienda per fondare una startup chiamata Physical Intelligence, che ha ricevuto un finanziamento iniziale di 70 milioni di dollari.

Sta lavorando per combinare grandi modelli linguistici con la formazione nel mondo reale per dare ai robot capacità generali di risoluzione dei problemi. Skild AI, fondata da esperti di robotica presso la Carnegie Mellon University, ha un obiettivo simile. A luglio 2024 ha annunciato un finanziamento di 300 milioni di dollari.

Conclusioni

Solo pochi anni fa, un robot avrebbe avuto bisogno di una mappa del suo ambiente e di comandi attentamente scelti per navigare con successo. I grandi modelli linguistici contengono informazioni utili sul mondo fisico e le versioni più recenti che sono addestrate su immagini e video oltre che su testo, note come modelli linguistici visivi, possono rispondere a domande che richiedono percezione.

Gemini consente al robot di Google di analizzare istruzioni visive e vocali, seguendo uno schizzo su una lavagna che mostra un percorso verso una nuova destinazione.

Nel loro studio, i ricercatori hanno affermato che intendono testare il sistema su diversi tipi di robot. Hanno aggiunto che Gemini dovrebbe essere in grado di dare un senso a domande più complesse, come: “Hanno la mia bevanda preferita oggi?” da un utente con un sacco di lattine vuote di Coca-Cola sulla scrivania.

Lo studio è stato pubblicato su Arxiv.

RELATED ARTICLES
spot_img

Viaggi e Vacanze

Alimentazione e Salute

La nuova routine dei capelli tra cura quotidiana e olio di rosmarino

Negli ultimi anni la cura dei capelli è uscita dai saloni per diventare un piccolo rituale domestico, ragionato e personalizzato. Chi ha a cuore...

Digiuno prolungato: così 7 giorni di astinenza riscrivono il metabolismo cellulare

Il corpo umano possiede una straordinaria capacità di adattamento alla privazione di cibo, un meccanismo evolutivo sviluppato per superare i periodi di scarsità. Negli...

Perché molti perdono massa muscolare durante la definizione e come evitarlo davvero

Il problema reale della definizione: non è il grasso, ma il muscolo Quando si parla di definizione, la maggior parte delle persone pensa automaticamente a...

Giochi

I limiti di prelievo contano più delle vincite, quando il saldo è reale

Negli ultimi anni, il gioco d’azzardo online in Italia ha attirato sempre più persone con la promessa di vincite importanti.Nonostante ciò, sta diventando chiaro...

Bet365 Italia recensione 2026: bonus, quote e limiti reali spiegati

Bet365 Italia: recensione completa della piattaforma La ricerca di una piattaforma di scommesse affidabile nel mercato italiano conduce frequentemente a valutare bet365 italiano, operatore britannico...

La tua esperienza con i videogiochi ti sta rendendo un giocatore migliore al Lolajack casino?

Giocare online non è solo divertimento: ogni sessione rappresenta una vera e propria occasione di apprendimento. Riflettere su come la propria esperienza nei videogiochi...