La scorsa settimana ha segnato il debutto degli ultimi modelli di intelligenza artificiale sviluppati da OpenAI, denominati o3 e o4-mini, che promettono di ridefinire i confini delle capacità di ragionamento delle macchine.
L’azienda guidata da Sam Altman ha annunciato con enfasi che questi nuovi modelli surclassano significativamente le prestazioni dei loro predecessori, distinguendosi per la loro “eccellenza nel risolvere complesse sfide matematiche, scientifiche e di codifica“, e dimostrando al contempo una notevole “percezione visiva e di analisi”.

Intelligenza artificiale: un aumento preoccupante delle allucinazioni
Queste affermazioni suggeriscono un avanzamento sostanziale nelle capacità di elaborazione e comprensione del mondo da parte dell’intelligenza artificiale, aprendo nuove prospettive per applicazioni in svariati settori. Un’ombra si proietta su questo quadro apparentemente idilliaco: un’area cruciale in cui o3 e o4-mini sembrano invece compiere un significativo passo indietro riguarda la loro tendenza a generare informazioni non veritiere, a “inventare cose“, un fenomeno comunemente definito “allucinazione“, con una frequenza apparentemente maggiore rispetto alle versioni precedenti.
Questa inattesa regressione riporta prepotentemente alla ribalta un annoso e fastidioso problema tecnico che affligge il settore dell’intelligenza artificiale da diversi anni. Le principali aziende tecnologiche hanno profuso notevoli sforzi nel tentativo di contenere la proliferazione delle allucinazioni nei loro modelli linguistici di grandi dimensioni, un fenomeno che ha significativamente compromesso l’affidabilità e, di conseguenza, l’utilità pratica di strumenti ampiamente diffusi come ChatGPT.
La capacità di un modello AI di generare affermazioni plausibili ma prive di fondamento reale mina la fiducia degli utenti e limita le sue applicazioni in contesti critici in cui l’accuratezza dell’informazione è imprescindibile. La persistenza di questo problema evidenzia la complessità intrinseca nello sviluppo di sistemi di intelligenza artificiale che non solo siano capaci di elaborare e generare linguaggio in modo sofisticato, ma che siano anche intrinsecamente ancorati alla verità e alla coerenza fattuale.
Particolarmente allarmante è il fatto che le prestazioni dei due nuovi modelli di OpenAI in termini di allucinazioni contrastino una tendenza storica ben consolidata all’interno del settore. Tradizionalmente, ogni nuova iterazione di modelli linguistici di grandi dimensioni ha sempre mostrato una progressiva riduzione della propensione ad “allucinare” rispetto ai suoi predecessori, suggerendo un avanzamento costante verso sistemi di intelligenza artificiale più affidabili e veritieri.
Annuncio pubblicitario
Interessato all'Intelligenza Artificiale?
Prova a leggere su Amazon Unlimited la nostra guida su come installarne una in locale e come ricavarne il massimo.
Una Intelligenza Artificiale locale ti permette di usufruire di tutti i vantaggi derivanti dall'uso dell'IA ma senza dover pagare costosi abbonamenti.
📘 Leggi la guida su AmazonL’inversione di questa tendenza da parte di o3 e o4-mini solleva interrogativi significativi sulle strategie di sviluppo adottate da OpenAI e suggerisce, secondo alcune analisi, che l’azienda potrebbe involontariamente stare imboccando una direzione contraria all’obiettivo di creare modelli sempre più coerenti e fattualmente accurati. Questa inaspettata battuta d’arresto nel percorso verso la mitigazione delle allucinazioni rappresenta una preoccupazione per l’intero settore, poiché mette in discussione l’assunto che il progresso tecnologico porti inevitabilmente a una maggiore affidabilità dei sistemi di intelligenza artificiale.
O3 e O4-mini: tassi di allucinazione significativamente più elevati rispetto ai predecessori
I dati emersi dai test interni scrupolosamente condotti da OpenAI rivelano una tendenza inequivocabile e preoccupante riguardo al comportamento dei suoi ultimi modelli di ragionamento basato sull’intelligenza artificiale, o3 e o4-mini. Contrariamente alle aspettative di un progresso lineare verso una maggiore affidabilità, questi nuovi modelli mostrano una marcata propensione a generare allucinazioni, superando significativamente i tassi riscontrati nei modelli più datati sviluppati dalla stessa azienda.
Questa regressione non riguarda solo i modelli più obsoleti, come o1 e o1-mini, ma si estende sorprendentemente anche a o3-mini, lanciato solo pochi mesi prima, alla fine di gennaio 2025.solo pochi mesi prima, alla fine di gennaio. Questi risultati interni sollevano seri interrogativi sull’architettura e sui processi di addestramento dei nuovi modelli, mettendo in discussione la loro attuale idoneità per applicazioni che richiedono un elevato grado di accuratezza e coerenza fattuale.
Un aspetto ancor più inquietante che emerge dai documenti rilasciati da OpenAI è l’apparente mancanza di una comprensione completa delle ragioni sottostanti a questo aumento diffuso delle allucinazioni. Nella sua relazione tecnica, l’azienda ammette apertamente che “sono necessarie ulteriori ricerche per comprendere la causa” di questo fenomeno inatteso. Questa incertezza sulle cause profonde del problema complica ulteriormente la ricerca di soluzioni efficaci e tempestive.
Senza una chiara comprensione dei meccanismi che innescano la generazione di informazioni non veritiere nei suoi modelli più recenti, OpenAI si trova nella difficile posizione di dover affrontare un problema la cui origine rimane in gran parte oscura, rendendo più arduo il compito di implementare correzioni mirate ed efficienti.
I risultati del benchmark di accuratezza interno di OpenAI, denominato PersonQA, forniscono una quantificazione precisa della portata del problema delle allucinazioni nei nuovi modelli. Il modello o3 ha registrato un tasso di allucinazioni pari a un preoccupante 33%. Questo valore è circa il doppio rispetto ai tassi osservati nei precedenti modelli di ragionamento sviluppati dall’azienda, evidenziando un deterioramento significativo nell’affidabilità delle informazioni generate. La situazione si fa ancor più critica per il modello o4-mini, che ha ottenuto un tasso di allucinazioni addirittura abissale del 48 percento.
OpenAI stessa suggerisce che questo tasso eccezionalmente elevato potrebbe essere parzialmente attribuibile alle dimensioni ridotte del modello, il quale, avendo “meno conoscenza del mondo“, tende conseguentemente ad “avere più allucinazioni“. Tuttavia, questa spiegazione non esime l’azienda dalla responsabilità di affrontare un problema che compromette seriamente l’utilità pratica di un modello con un tasso di errore così elevato.
Le preoccupazioni sollevate dai test interni di OpenAI trovano riscontro nelle valutazioni condotte da organizzazioni esterne indipendenti. La società di ricerca no-profit sull’intelligenza artificiale Transluce ha condotto propri test approfonditi sui modelli di OpenAI e ha riscontrato che o3 manifesta una marcata tendenza a produrre allucinazioni, in particolare durante il processo di generazione di codice informatico. Questa osservazione è particolarmente significativa, poiché la generazione di codice è un’area in cui l’accuratezza e l’affidabilità sono di fondamentale importanza.
Un modello AI che produce codice errato o inventato può portare a errori costosi e a potenziali vulnerabilità nei sistemi software. La convergenza dei risultati ottenuti dai test interni di OpenAI e dalla ricerca indipendente di Transluce rafforza ulteriormente la gravità del problema delle allucinazioni nei nuovi modelli di ragionamento dell’azienda, sottolineando la necessità di un intervento urgente ed efficace per ripristinare la fiducia nella loro affidabilità.
Tentativi di giustificazione e la scoperta di allucinazioni nei link web
Un aspetto particolarmente sconcertante che emerge dall’analisi condotta da osservatori esterni, come la società di ricerca no-profit Transluce, riguarda la misura in cui OpenAI sembra aver tentato di minimizzare o addirittura di giustificare le evidenti mancanze dei suoi nuovi modelli di ragionamento basato sull’intelligenza artificiale, o3 e o4-mini. Nel suo dettagliato post sul blog, Transluce ha evidenziato come il modello o3, di fronte a richieste specifiche da parte degli utenti, tenda a “giustificare ulteriormente gli output allucinatori”.
Questa tendenza si manifesta attraverso affermazioni non veritiere e auto-referenziali, come quella di utilizzare un inesistente MacBook Pro esterno per eseguire complessi calcoli, per poi copiare i risultati in ChatGPT. Questa fabbricazione di dettagli inesistenti non solo evidenzia la propensione del modello all’allucinazione, ma suggerisce anche una preoccupante tendenza a costruire narrazioni fittizie per mascherare le proprie limitazioni computazionali o informative.
Ulteriori evidenze dell’inaffidabilità dei nuovi modelli di OpenAI emergono dalle osservazioni degli esperti, i quali hanno riscontrato che il modello o3 è persino in grado di generare allucinazioni nella forma di link a siti web non funzionanti. Questi link, apparentemente pertinenti alla risposta fornita dal modello, si rivelano inattivi e privi di contenuto quando l’utente tenta di accedervi.
Questo tipo di allucinazione è particolarmente insidioso, in quanto può indurre l’utente a credere di avere a disposizione fonti di informazione aggiuntive e verificate, quando in realtà si tratta di pure invenzioni del modello. La generazione di link web inesistenti rappresenta un ulteriore sintomo della mancanza di ancoraggio alla realtà e della tendenza alla fabbricazione di informazioni che affligge i nuovi modelli di OpenAI.
Nonostante i tentativi di minimizzazione o giustificazione riscontrati, appare evidente che OpenAI è ben consapevole delle significative carenze che affliggono i suoi nuovi modelli di ragionamento basato sull’intelligenza artificiale. In una dichiarazione rilasciata a TechCrunch, Niko Felix, portavoce di OpenAI, ha ammesso che “affrontare le allucinazioni in tutti i nostri modelli è un’area di ricerca in corso e lavoriamo costantemente per migliorarne l’accuratezza e l’affidabilità”.
Sebbene questo riconoscimento rappresenti un passo nella giusta direzione, esso appare in qualche modo tardivo e insufficiente di fronte alla portata del problema evidenziato dai test interni e dalle valutazioni esterne. La persistenza di tassi di allucinazione così elevati nei modelli di ultima generazione solleva seri dubbi sull’efficacia delle strategie di mitigazione attualmente in atto e sulla reale capacità di OpenAI di risolvere questo problema cruciale in tempi brevi. La comunità scientifica e gli utenti si aspettano un impegno più trasparente e proattivo da parte dell’azienda nel riconoscere e affrontare le limitazioni dei suoi modelli di intelligenza artificiale, al fine di ripristinare la fiducia nella loro affidabilità e nel loro potenziale applicativo.
Per maggiori informazioni visita il sito ufficiale di OpenAI.