Gli esseri umani eccellono nell’osservare una scena e nel determinare istantaneamente l’azione appropriata, che si tratti di passeggiare, pedalare o tuffarsi. L’intelligenza artificiale (IA), nonostante i notevoli progressi, fatica ancora con questo giudizio immediato.
Il dottorando Clemens Bartnik dell’Università di Amsterdam e i suoi colleghi hanno utilizzato la scansione cerebrale per illuminare le ragioni di questa persistente discrepanza.

Comprendere l’intelligenza artificiale
Nel 1979, lo psicologo James Gibson introdusse il concetto di affordance, descrivendo come gli oggetti intrinsecamente suggeriscano possibili azioni. La nuova ricerca condotta ad Amsterdam ha localizzato questa idea direttamente all’interno del cervello umano vivente.
I partecipanti allo studio sono stati sottoposti a scansione cerebrale mentre visualizzavano immagini di litorali, scale e vicoli. Contemporaneamente, dovevano selezionare un’azione appropriata — camminare, andare in bicicletta, guidare, nuotare, andare in barca o arrampicarsi — premendo un pulsante, mentre la macchina monitorava il flusso sanguigno nelle aree visive del cervello.
La scienziata responsabile, Iris Groen, ha spiegato che “queste possibilità di azione vengono quindi elaborate automaticamente“. I modelli di attività nella corteccia visiva cambiavano non solo in base a ciò che era visibile, ma anche a ciò che il corpo era fisicamente in grado di fare. Questa “firma” neurale era evidente anche quando i volontari non stavano prendendo alcuna decisione esplicita riguardo al movimento. Ciò suggerisce che il cervello etichetta le potenziali azioni come parte del suo flusso di immagini di base, molto prima della deliberazione cosciente.
Precedenti ricerche avevano già suggerito una codifica così rapida per l’atto di afferrare strumenti, ma la locomozione è un processo più complesso che richiede un aggiornamento spaziale costante. Isolando il segnale in regioni di scena di ordine superiore, il team ha dimostrato l’esistenza di un circuito neurale dedicato a questo processo, piuttosto che un semplice sottoprodotto del riconoscimento degli oggetti. Questa distinzione è cruciale per comprendere come il cervello umano elabori le interazioni con l’ambiente in modo così efficiente.
Il vantaggio umano nella percezione e nell’azione
Fin dalle prime fasi dello sviluppo, gli esseri umani stabiliscono una profonda connessione tra ciò che vedono e il movimento. I bambini, ad esempio, gattonano verso spazi aperti e imparano a evitare dislivelli non per una comprensione innata dell’altezza, ma attraverso un processo di tentativi ed errori che insegna al loro corpo le conseguenze di tali ambienti. Questo stretto circuito tra azione e feedback addestra il cervello ad anticipare ciò che uno spazio permette. Una volta adulti, questi schemi si attivano automaticamente, consentendoci di valutare le possibilità d’azione in una frazione di secondo.
I sistemi di visione basati su reti neurali profonde eccellono nell’etichettare oggetti o intere scene. Tuttavia, quando i ricercatori hanno sottoposto le stesse immagini ai principali modelli di intelligenza artificiale, le macchine hanno erroneamente ipotizzato azioni fattibili in circa un quarto dei casi. Come ha osservato Groen, “Anche i migliori modelli di intelligenza artificiale non forniscono esattamente le stesse risposte degli esseri umani”. Persino i grandi modelli ibridi linguaggio-visione come GPT-4 migliorano solo dopo un addestramento supplementare sulle etichette di affordance.
L’analisi degli strati nascosti delle reti neurali ha rivelato un debole allineamento con i modelli ottenuti dalla risonanza magnetica funzionale (fMRI). Questa discrepanza suggerisce che le architetture attuali ignorano i vincoli geometrici e corporei che sono invece rilevanti per gli esseri umani.
Ciò che rende il vantaggio umano ancora più marcato è la nostra intera vita trascorsa a testare questi ambienti. Il sistema sensomotorio non si limita a interpretare le immagini; le sovrappone a una ricchezza di ricordi legati al movimento, al dolore, all’equilibrio e al successo. I modelli di intelligenza artificiale, d’altro canto, non crescono in un mondo fatto di pavimenti scivolosi, cordoli ripidi o avventure fuori pista. Non hanno mai sperimentato una caduta sul ghiaccio o l’arrampicata su roccia, e questa mancanza di esperienza diretta limita la loro capacità di mappare le immagini in possibili azioni con la stessa sottigliezza e sfumatura degli esseri umani.
Verso un’intelligenza artificiale più efficiente e intuitiva: lezioni dal cervello umano
L’addestramento di modelli di intelligenza artificiale di grandi dimensioni richiede un consumo energetico enorme, misurabile in megawattora e tonnellate di carbonio. Se gli ingegneri potessero attingere al codice snello delle affordance del cervello umano, i futuri sistemi di IA potrebbero prendere decisioni migliori con un numero significativamente inferiore di parametri.
Questa intuizione frugale è cruciale per una vasta gamma di applicazioni, dai robot che si muovono attraverso le macerie ai droni che volano nelle foreste e alle sedie a rotelle che devono affrontare le rampe. Anziché dover fotografare ogni singola passerella esistente, i progettisti potrebbero integrare solo alcune euristiche spaziali e permettere ai sistemi di apprendere il resto direttamente sul posto.
Il risparmio energetico che ne deriverebbe si tradurrebbe in batterie più sottili e un accesso più ampio alla tecnologia al di fuori dei grandi campus tecnologici. Ospedali, scuole e squadre di emergenza nelle piccole città potrebbero trarre grande beneficio da modelli di IA che “pensano” in modo più simile alle persone che assistono.
I robot di risposta alle catastrofi, che già utilizzano telecamere LiDAR e stereoscopiche, spesso falliscono quando fumo o polvere oscurano le superfici. Un livello di elaborazione ispirato alla corteccia cerebrale potrebbe colmare queste lacune, permettendo ai robot di dedurre dove i battistrada potrebbero fare presa o dove scorre l’acqua.
Anche i terapisti della realtà virtuale guardano con interesse a questo approccio. I pazienti colpiti da ictus, ad esempio, imparano di nuovo a camminare più rapidamente quando le simulazioni adattano i percorsi in base alle affordance percepite, piuttosto che a dimensioni predefinite basate su manuali.
Le auto a guida autonoma affrontano quotidianamente sfumature complesse, come una pista ciclabile che si immette in un attraversamento pedonale al tramonto. L’integrazione di sensori basati sulle affordance potrebbe ridurre i falsi positivi ed evitare frenate brusche che potrebbero innervosire i ciclisti, migliorando significativamente la sicurezza.
I ricercatori stanno ancora dibattendo se le mappe di affordance derivino esclusivamente dalla vista o includano anche un feedback diretto dai piani motori. Futuri esperimenti combineranno probabilmente la risonanza magnetica funzionale (fMRI) con le registrazioni muscolari per tracciare con precisione questo ciclo. Un’altra incognita significativa è come la cultura possa modificare la percezione delle affordance. Uno skateboarder e un escursionista, pur osservando la stessa scala, la interpreteranno in modi molto diversi; gli algoritmi potrebbero richiedere la stessa flessibilità.
Questi risultati ci rammentano che il vedere è intrinsecabilmente legato al fare. I nostri occhi non si limitano a percepire; forniscono una previsione in tempo reale delle possibili mosse, plasmando l’intuizione molto prima che le parole possano intervenire. Riconoscere che una saggezza stratificata può orientare l’intelligenza artificiale verso la creazione di strumenti che estendono, anziché sostituire, le capacità umane è fondamentale. La scorciatoia evolutiva della natura potrebbe insegnare al silicio a procedere con cautela, pur guardando al futuro.
Lo studio è stato pubblicato sul Proceedings of the National Academy of Sciences.

















