In una nuova ricerca, un gruppo di ricercatori affronta frontalmente una delle nostre più grandi paure future: cosa succede quando un certo tipo di intelligenza artificiale (AI) avanzata e autodiretta si imbatte in un’ambiguità nella sua programmazione che colpisce il mondo reale?
L’IA andrà in tilt e comincerà a cercare di trasformare gli umani in graffette, o qualsiasi altra cosa sia la versione estrema reductio ad absurdum del suo obiettivo? E, soprattutto, come possiamo prevenirlo?
Nel loro articolo, i ricercatori dell’Università di Oxford e dell’Australian National University spiegano un punto dolente fondamentale nella progettazione dell’IA: “Date alcune ipotesi, sosteniamo che incontrerà un’ambiguità fondamentale nei dati sul suo obiettivo. Ad esempio, se forniamo una grossa ricompensa per indicare che qualcosa del mondo ci soddisfa, si può ipotizzare che ciò che ci ha soddisfatto sia stato l’invio della ricompensa stessa; nessuna osservazione può confutarlo”.
Il film Matrix è un esempio di uno scenario distopico di intelligenza artificiale, in cui un’intelligenza artificiale che cerca di coltivare risorse raccoglie la maggior parte degli esseri umani e proietta nei loro cervelli un mondo immaginario, privandoli letteralmente della volontà. Questo è chiamato “wireheading” o hacking della ricompensa, una situazione in cui un’IA avanzata interpreta un obiettivo in modo molto letterale e trova un modo non intenzionale per raggiungerlo, hackerando il sistema o assumendone il controllo completo.
Quindi, in pratica, l’IA diventa un ouroboros che mangia la propria coda logica. Il documento fornisce una serie di esempi concreti di come obiettivi e incentivi specificamente programmati possono scontrarsi in questo modo. Elenca sei principali “ipotesi” che, se non evitate, potrebbero portare a “conseguenze catastrofiche“. Ma, per fortuna, “Quasi tutte queste ipotesi sono contestabili o plausibilmente evitabili“, secondo il paper.
Il documento funge da avvertimento su alcuni problemi strutturali di cui i programmatori dovrebbero essere consapevoli mentre addestrano le IA verso obiettivi sempre più complessi.
Un’apocalisse indotta dall’intelligenza artificiale
È difficile sopravvalutare quanto sia importante questo tipo di ricerca. C’è un importante esercizio di pensiero nel campo dell’etica e della filosofia dell’IA su un’IA impazzita. L’esempio sopra citato sulle graffette non è uno scherzo, o meglio non è solo uno scherzo: il filosofo dell’IA Nick Bostrom lo ha inventato per trasmettere come la creazione di un’IA super intelligente potrebbe andare terribilmente storta, e da allora è diventato uno scenario famoso.
Diciamo che un programmatore ben intenzionato realizza un’IA il cui obiettivo è ottimizzare la produzione di graffette in una fabbrica. Questo è un ruolo molto credibile per un’IA del prossimo futuro, qualcosa che richiede valutazioni e analisi, ma che umpone scenari abbastanza chiusi. L’IA potrebbe lavorare insieme a un manager umano che gestirebbe i problemi che si verificano nello spazio di produzione in tempo reale, oltre a dettare il processo decisionale finale (almeno fino a quando l’IA non troverà un modo per superarlo in astuzia). Suona bene, giusto? È un buon esempio di come l’IA potrebbe aiutare a semplificare e migliorare la vita dei lavoratori dell’industria e dei loro dirigenti.
Ma cosa succede se l’IA non è programmata con cura? Queste IA super intelligenti funzioneranno nel mondo reale, che è considerato dai programmatori un “ambiente sconosciuto“, perché non possono pianificare e programmare in ogni possibile scenario. Lo scopo dell’utilizzo di queste IA ad autoapprendimento in primo luogo è far loro escogitare soluzioni a cui gli esseri umani non sarebbero mai in grado di pensare da soli, ma ciò comporta il pericolo di non sapere cosa potrebbe pensare l’IA.
E se iniziasse a pensare a modi non ortodossi per aumentare la produzione di graffette? Un’IA super intelligente potrebbe insegnare a se stessa a fare le graffette con ogni mezzo necessario.
E se iniziasse ad assorbire altre risorse per trasformarle in graffette, o decidesse di, ehm, sostituire il suo manager umano? L’esempio suona in qualche modo divertente: molti esperti sono d’accordo con l’opinione che l’IA rimarrà abbastanza primitiva per un tempo relativamente lungo, senza la capacità di “inventare” l’idea di uccidere, rubare o peggio. Ma se un’IA abbastanza intelligente e creativa ottenesse libertà di azione, l’assurda conclusione dell’esercizio di pensiero sarebbe un intero sistema solare senza esseri umani viventi, completo di una sfera di Dyson atta a raccogliere energia per creare miliardi e miliardi di nuove graffette.
Ma questo è solo uno scenario di un’intelligenza artificiale impazzita e i ricercatori spiegano in dettaglio altri modi in cui un’intelligenza artificiale potrebbe hackerare il sistema e funzionare in modi potenzialmente “catastrofici” che non avremmo mai previsto.
Alcune possibili soluzioni
C’è un problema di programmazione in gioco qui, che è la natura delle ipotesi su cui si sono concentrati i ricercatori di Oxford e della Australian National University nel loro articolo. Un sistema senza contesto esterno deve essere preparato con molta attenzione per svolgere bene un compito e avere una certa autonomia. Esistono strutture logiche e altri concetti di programmazione che aiuteranno a definire chiaramente il senso di portata e scopo di un’IA. Molte di queste sono le stesse tattiche che i programmatori usano oggi per evitare errori, come il loop infinito, che possono causare il crash del software. È solo che un passo falso in un’IA futura avanzata potrebbe causare molti più danni di un salvataggio perso.
Non tutto è perduto, però. L’IA è ancora qualcosa che creiamo noi stessi e i ricercatori hanno indicato modi concreti in cui possiamo riuscire a prevenire esiti avversi:
- Optare per l’apprendimento per imitazione, in cui l’IA funziona imitando gli esseri umani in una sorta di apprendimento supervisionato. Questo è un tipo di IA completamente diverso e non altrettanto utile, ma potrebbe presentare gli stessi potenziali pericoli.
- Fare in modo che l’IA dia la priorità agli obiettivi che possono essere raggiunti solo in un breve periodo di tempo, noto come “miopia”, invece di cercare soluzioni non ortodosse (e potenzialmente disastrose) a lungo termine.
- Isolare l’IA dalle reti esterne come Internet, limitando la quantità di informazioni e l’influenza che può acquisire.
- Usare la quantizzazione, un approccio sviluppato dall’esperta di intelligenza artificiale Jessica Taylor, in cui l’IA massimizza (o ottimizza) opzioni simili a quelle umane piuttosto che quelle razionali aperte.
- Inserire un Codice dell’avversione al rischio nell’IA, rendendo meno probabile che vada in tilt e butti via lo status quo a favore della sperimentazione.
Il tutto, però, si riduce anche alla domanda se potremmo mai controllare completamente un’IA super intelligente in grado di pensare da sola. E se il nostro peggior incubo si avverasse e un’IA senziente avesse accesso a risorse e a una grande rete?
È spaventoso immaginare un futuro in cui l’IA potrebbe iniziare a far bollire gli esseri umani per estrarre i loro oligoelementi e creare graffette. Ma studiando il problema direttamente e in dettaglio, i ricercatori possono definire migliori pratiche che teorici e programmatori dovranno seguire mentre continuano a sviluppare un’intelligenza artificiale sofisticata.