ChatGPT-4.5 supera il test di Turing

Un recente studio preprint ha rivelato che il modello linguistico avanzato GPT-4.5 di OpenAI ha superato il test di Turing, una pietra miliare per valutare l'intelligenza artificiale. L'articolo esplora le implicazioni di questo potenziale successo per la definizione di intelligenza e le future interazioni uomo-macchina

By Fabiana Brosseau

25 Aprile 2025

0

306

Indice

GPT-4.5 ha superato il test di Turing, una pietra miliare che interroga i confini tra l'intelligenza artificiale e quella umana
Quando l'intelligenza artificiale "prende vita"
Gli LLM come maestri dell'imitazione

Un’affermazione sorprendente sta circolando nella comunità dell’intelligenza artificiale, originata da un recente studio in preprint in attesa di validazione tramite revisione paritaria. La ricerca suggerisce che ChatGPT-4.5 di OpenAI, un modello linguistico all’avanguardia, avrebbe superato il celebre test di Turing.

Questo storico criterio di valutazione mira a determinare se una macchina possa manifestare un’intelligenza comportamentale indistinguibile da quella umana. Se confermato, questo risultato segnerebbe un punto di svolta cruciale nello sviluppo dell’IA, con profonde implicazioni per la nostra comprensione dell’intelligenza e per il futuro delle interazioni uomo-macchina.

GPT-4.5 ha superato il test di Turing, una pietra miliare che interroga i confini tra l’intelligenza artificiale e quella umana

Ideato dal matematico e informatico britannico Alan Turing nel 1950, il test di Turing, originariamente chiamato “gioco dell’imitazione”, propone un metodo per valutare l’intelligenza di una macchina attraverso una conversazione testuale. In questo scenario, un interrogatore umano interagisce simultaneamente con un essere umano e una macchina, senza conoscerne l’identità. Se l’interrogatore non è in grado di distinguere la macchina dall’essere umano, si presume che la macchina abbia raggiunto un livello di intelligenza paragonabile a quello umano.

Nell’ultimo studio, i ricercatori hanno condotto il test di Turing in un ambiente online, coinvolgendo quasi 300 partecipanti. In otto round di conversazione, i partecipanti hanno interagito con un essere umano e un modello di IA, con l’obiettivo di identificare quale fosse la macchina. I risultati hanno rivelato che GPT-4.5, quando istruito ad assumere una personalità umana, è stato identificato come umano nel 73% dei casi, superando significativamente la probabilità casuale del 50%. Questo risultato sorprendente suggerisce che è in grado di imitare il linguaggio umano con una tale precisione da ingannare gli interlocutori.

La sua capacità di superare il test di Turing solleva una serie di interrogativi e controversie. Alcuni esperti sostengono che questo risultato dimostra che l’IA ha raggiunto un livello di intelligenza paragonabile a quello umano, mentre altri ritengono che il test di Turing sia obsoleto e inadeguato per valutare l’intelligenza delle macchine moderne. La capacità di un modello linguistico di imitare il linguaggio umano non implica necessariamente una comprensione profonda o una coscienza

Indipendentemente dalle interpretazioni, il successo di GPT-4.5 nel test di Turing segna un passo significativo nell’evoluzione dell’IA. Questo risultato potrebbe avere implicazioni profonde per il futuro dell’interazione uomo-macchina, aprendo la strada a nuove applicazioni in campi come l’assistenza clienti, la traduzione automatica e la creazione di contenuti. Tuttavia, solleva anche preoccupazioni etiche riguardo alla possibilità di inganno e alla necessità di una maggiore trasparenza nell’interazione con le macchine.

Quando l’intelligenza artificiale “prende vita”

L’elemento chiave di questo studio risiede nell’utilizzo di prompt specifici per indirizzare il comportamento dell’IA. Mentre i prompt “no-person” fornivano istruzioni di base, i prompt “persona” chiedevano all’IA di impersonare una persona specifica, come un giovane esperto di Internet e cultura. Questa differenza ha avuto un impatto significativo sui risultati.

Con i prompt “persona”, GPT-4.5 ha raggiunto un tasso di successo del 73%, ingannando gli interrogatori e convincendoli di essere umani. Senza prompt di persona, il tasso di successo è sceso al 36%, mentre GPT-4o, alimentato da prompt “no-persona”, ha ottenuto un risultato ancora meno convincente del 21%. In modo sorprendente, l’antico modello ELIZA ha superato GPT-4o con un tasso di successo del 23%.

Nonostante l’attenzione mediatica, gli esperti avvertono che il test di Turing non è una prova inequivocabile dell’intelligenza umana: “Non era inteso come un test letterale da eseguire effettivamente sulla macchina, era più un esperimento mentale“, ha affermato François Chollet, ingegnere informatico di Google. Il test di Turing valuta la capacità di un’IA di imitare il comportamento umano, non la sua capacità di pensare o comprendere.

I risultati dello studio evidenziano la capacità dei modelli linguistici di creare un’illusione di umanità, imitando il linguaggio e il comportamento umano in modo convincente. Tuttavia, questa capacità non implica una comprensione profonda o una coscienza. L’IA può ingannare l’interrogatore, ma non comprende il significato delle parole o il contesto della conversazione.

Il successo di GPT-4.5 nel test di Turing riaccende il dibattito sull’intelligenza artificiale e sulla necessità di nuovi metodi per valutare l’intelligenza delle macchine. Alcuni esperti sostengono che il test di Turing è obsoleto e inadeguato per valutare le IA moderne, mentre altri ritengono che possa ancora fornire informazioni utili sulla capacità di imitazione dell’IA.

Gli LLM come maestri dell’imitazione

I modelli linguistici di grandi dimensioni (LLM), nonostante i loro limiti, si dimostrano maestri della conversazione, addestrati su enormi quantità di testo umano. Questa capacità di generare risposte plausibili, anche di fronte a domande mal comprese, solleva interrogativi sulla validità del test di Turing come misura dell’intelligenza artificiale.

La ricerca di Cameron Jones, dell’UC San Diego, evidenzia la capacità degli LLM di imitare il comportamento umano in modo convincente. I risultati dello studio, in cui GPT-4.5 ha ingannato gli interrogatori nel 73% dei casi, suggeriscono che i chatbot AI sono diventati abili nell’emulare il linguaggio e lo stile di conversazione umano. Tuttavia, Jones avverte che questo non implica necessariamente una comprensione profonda o una coscienza.

Jones ha evidenziato che il test di Turing superato da GPT-4.5, pur essendo un punto di riferimento storico, non è una prova definitiva dell’intelligenza umana: “Penso che sia una domanda molto complicata…“, ha twittato Jones: “Ma in generale penso che questo dovrebbe essere valutato come uno tra i tanti altri elementi di prova del tipo di intelligenza che mostrano gli LLM“. La valutazione dell’intelligenza artificiale richiede un approccio multidimensionale, che consideri diversi aspetti come la capacità di ragionamento, la comprensione del contesto e la creatività.

Jones ha evidenziato le implicazioni sociali dei risultati dello studio, avvertendo che gli LLM potrebbero essere utilizzati per automatizzare lavori che richiedono interazioni brevi, senza che gli esseri umani se ne accorgano. Questo potrebbe portare a una maggiore disoccupazione, a migliori attacchi di ingegneria sociale e a una generale disgregazione sociale.

L’esperto ha altresì sottolineato che il test di Turing superato da GPT-4.5 non mette solo le macchine sotto la lente d’ingrandimento, ma riflette anche le percezioni in continua evoluzione della tecnologia da parte degli esseri umani. I risultati del test non sono statici: man mano che il pubblico diventa più familiare con l’interazione con le IA, potrebbe diventare più abile nel riconoscerle.

I risultati dello studio evidenziano la necessità di una maggiore consapevolezza dei limiti e delle potenzialità degli LLM. La capacità di imitare il comportamento umano non equivale all’intelligenza umana. La ricerca futura dovrebbe concentrarsi sullo sviluppo di metodi per valutare la comprensione, la coscienza e la capacità di ragionamento dell’intelligenza artificiale, nonché sull’elaborazione di linee guida etiche per l’utilizzo responsabile degli LLM.

Lo studio è stato pubblicato su Arxiv.

Articolo precedente

Boom delle e-bike: come cambia il mercato ciclistico in Italia

Articolo successivo

Tecnologia Oz: svelato il blu-verde “olo”, un colore mai visto prima

ChatGPT-4.5 supera il test di Turing

GPT-4.5 ha superato il test di Turing, una pietra miliare che interroga i confini tra l’intelligenza artificiale e quella umana

Quando l’intelligenza artificiale “prende vita”

Gli LLM come maestri dell’imitazione

Viaggi e Vacanze

Alimentazione e Salute

Giochi

Local AI & Opensource

Software

Editoriali

Attualità

Essere donna

tech News & Analysis

Antropologia

UFO, Misteri & Bufale

Informatica & Cibernetica

Guide

Category

Su di noi

FOLLOW US