Google DeepMind presenta Gemini Robotics: l’IA alla robotica (e le tre leggi di Asimov)

Appassionato di tecnologia, l'autore ha creato siti web negli anni 90, diventati un punto di riferimento

Google DeepMind ha annunciato Gemini Robotics, un modello avanzato basato su Gemini 2.0 progettato per colmare il divario tra intelligenza artificiale e mondo fisico. L’obiettivo è sviluppare robot più versatili e utili, capaci di agire e interagire con l’ambiente in modo intuitivo e sicuro. Questo segna un’evoluzione significativa rispetto ai precedenti modelli multimodali, i cui utilizzi erano prevalentemente confinati al digitale.

Un salto nella robotica con Gemini 2.0

L’annuncio comprende due nuovi modelli. Gemini Robotics è un sistema avanzato di visione-linguaggio-azione (VLA) che integra il controllo fisico dei robot. Gemini Robotics-ER è dotato di capacità di ragionamento incarnato (ER) per una comprensione spaziale più sofisticata. Questi progressi permettono ai robot di affrontare situazioni impreviste ed eseguire compiti complessi con maggiore autonomia. DeepMind ha avviato una collaborazione con Apptronik per sviluppare una nuova generazione di robot umanoidi basati su Gemini 2.0 e sta coinvolgendo un numero selezionato di tester per migliorare ulteriormente il sistema.

Tre pilastri per un’IA incarnata: generalità, interattività e destrezza

Affinché l’IA sia realmente efficace nel mondo fisico, deve possedere alcune caratteristiche fondamentali. Gemini Robotics dimostra un’elevata capacità di adattamento alle situazioni inedite, e riesce a risolvere compiti mai visti in fase di addestramento. Grazie all’apprendimento dai dati visivi e linguistici, il modello riesce a gestire oggetti sconosciuti, interpretare istruzioni complesse e adattarsi a nuovi ambienti. L’interazione con l’ambiente circostante rappresenta un altro elemento chiave. Il sistema comprende e risponde ai comandi in linguaggio naturale, e si adegua rapidamente ai cambiamenti. Se un oggetto cade o viene spostato, Gemini Robotics ripianifica e porta a termine l’operazione senza interruzioni, migliorando l’affidabilità nelle applicazioni reali. L’abilità di eseguire movimenti precisi è un altro aspetto fondamentale. I compiti che richiedono destrezza manuale, come piegare origami o inserire oggetti in spazi ristretti, risultano difficili per la maggior parte dei robot. Gemini Robotics introduce una manipolazione avanzata che permette di eseguire movimenti fluidi e controllati, avvicinandosi alla naturalezza del gesto umano.

Un’IA versatile per robot di ogni tipo

Gemini Robotics si adatta a diverse configurazioni di robot. Il modello è stato addestrato principalmente su ALOHA 2, una piattaforma robotica a due bracci, ma ha dimostrato di poter controllare anche altre configurazioni, come i bracci Franka, ampiamente utilizzati in ambito accademico. L’integrazione con Apollo, il robot umanoide di Apptronik, mira a supportare compiti più complessi e avanzati.

Gemini Robotics-ER: il futuro del ragionamento incarnato

Gemini Robotics-ER rappresenta un’evoluzione nella comprensione spaziale e nella capacità di pianificazione dei robot. Il modello integra una percezione avanzata e un sistema di rilevamento tridimensionale in grado di riconoscere oggetti e superfici con estrema precisione. La pianificazione e la generazione di codice trasformano le informazioni visive in azioni concrete, aumentando l’efficacia operativa. L’apprendimento contestuale permette di migliorare le prestazioni basandosi su poche dimostrazioni umane, riducendo il tempo necessario per adattarsi a nuovi scenari. Rispetto a Gemini 2.0, il nuovo modello incrementa l’efficacia nel controllo robotico fino a tre volte, aprendo nuove prospettive per l’automazione e l’interazione uomo-macchina.

Sicurezza e sviluppo responsabile della robotica

Google DeepMind ha sviluppato Gemini Robotics-ER e ha tenuto conto della sicurezza. L’azienda ha informato di aver garantito un’integrazione con i controlli esistenti per prevenire collisioni e garantire stabilità. L’approccio è stato ispirato alle tre leggi della robotica di Isaac Asimov, con l’obiettivo di guidare l’IA verso comportamenti sicuri e rispettosi dei valori umani. Per supportare la ricerca accademica, DeepMind ha annunciato il rilascio del dataset ASIMOV, utile per valutare le implicazioni sulla sicurezza delle azioni robotiche in contesti reali. Un’ulteriore misura è rappresentata da un nuovo framework di costituzione robotica, che definisce regole in linguaggio naturale per orientare il comportamento dell’IA in modo sicuro e responsabile.

L’articolo Google DeepMind presenta Gemini Robotics: l’IA alla robotica (e le tre leggi di Asimov) sembra essere il primo su Cellulare Magazine.