I ricercatori che hanno contribuito a testare il nuovo modello linguistico di OpenAI, OpenAI o1, affermano che esso rappresenta un grande passo avanti in termini di utilità dei chatbot per la scienza.
“Nel mio campo della fisica quantistica, fornisce risposte significativamente più dettagliate e coerenti rispetto all’ultimo modello dell’azienda, GPT-4o”, afferma Mario Krenn, leader dell’Artificial Scientist Lab presso il Max Planck Institute for the Science of Light di Erlangen, in Germania. Krenn è uno dei pochi scienziati del “red team“, la squadra che ha testato la versione di anteprima di o1 per OpenAI, un’azienda tecnologica con sede a San Francisco, in California, mettendo alla prova il bot e verificando i problemi di sicurezza.
Dal lancio pubblico di ChatGPT nel 2022, i grandi modelli linguistici che guidano tali chatbot sono diventati, in media, più grandi e migliori, con più parametri o nodi decisionali, set di dati di formazione più grandi e capacità più forti in una varietà di test standardizzati o benchmark.
OpenAI afferma che la sua serie o1 segna un cambiamento radicale nell’approccio dell’azienda. La caratteristica distintiva di questo modello di intelligenza artificiale (IA), affermano gli osservatori, è che ha trascorso più tempo in determinate fasi di apprendimento e “pensa” alle sue risposte per più tempo, il che lo rende più lento, ma più capace, soprattutto in aree in cui le risposte giuste e sbagliate possono essere chiaramente definite.
L’azienda aggiunge che o1 “può ragionare su attività complesse e risolvere problemi più difficili rispetto ai modelli precedenti in scienza, codifica e matematica“. Per ora, o1-preview e o1-mini, una versione più piccola e più conveniente adatta alla codifica, sono disponibili per i clienti paganti e alcuni sviluppatori in prova. L’azienda non ha rilasciato dettagli su quanti parametri o quanta potenza di calcolo si nascondono dietro i modelli o1.
Superare i dottorati di ricerca
Andrew White, un chimico di FutureHouse, un’organizzazione non-profit di San Francisco che si concentra su come l’intelligenza artificiale può essere applicata alla biologia molecolare, afferma che gli osservatori sono rimasti sorpresi e delusi da una generale mancanza di miglioramento nella capacità dei chatbot di supportare le attività scientifiche nell’ultimo anno e mezzo, dalla pubblicazione di GPT-4. La serie o1, afferma, ha cambiato le cose.
Sorprendentemente, o1 è diventato il primo modello linguistico di grandi dimensioni a battere studiosi di livello PhD nella serie di domande più difficili, il set “diamante”, in un test chiamato Graduate-Level Google-Proof Q&A Benchmark (GPQA).
OpenAI afferma che i suoi studiosi hanno ottenuto un punteggio di poco inferiore al 70% su GPQA Diamond e o1 ha ottenuto il 78% complessivo, con un punteggio particolarmente alto del 93% in fisica. Questo punteggio è “significativamente più alto delle prestazioni [chatbot] segnalate come le migliori“, afferma David Rein, che faceva parte del team che ha sviluppato il GPQA.
Rein ora lavora presso l’organizzazione non-profit Model Evaluation and Threat Research, con sede a Berkeley, California, che si occupa di valutare i rischi dell’IA. “Mi sembra plausibile che ciò rappresenti un miglioramento significativo e fondamentale nelle capacità di ragionamento di base del modello“, aggiunge.
OpenAI ha anche testato o1 in un esame di qualificazione per l’International Mathematics Olympiad. Il suo precedente miglior modello, GPT-4o, ha risolto correttamente solo il 13% dei problemi, mentre o1 ha ottenuto l’83%.
Catena di pensiero
OpenAI o1 funziona utilizzando la logica del pensiero concatenato; descrive autonomamente una serie di passaggi di ragionamento mentre cerca di risolvere un problema, correggendosi man mano.
OpenAI ha deciso di tenere nascosti i dettagli di una qualsiasi catena di pensiero, in parte perché la catena potrebbe contenere errori o “pensieri” socialmente inaccettabili, e in parte per proteggere i segreti aziendali relativi al funzionamento del modello. Invece, o1 fornisce all’utente un riassunto ricostruito della sua logica, insieme alle sue risposte. Non è chiaro, dice White, se l’intera catena di pensiero, se rivelata, sarebbe simile al ragionamento umano.
Le nuove capacità comportano dei compromessi. Ad esempio, OpenAI riferisce di aver ricevuto feedback aneddotici secondo cui i modelli o1 allucinano, ovvero inventano risposte sbagliate, più spesso dei loro predecessori (sebbene i test interni dell’azienda abbiano mostrato tassi di allucinazione leggermente inferiori per o1).
Gli scienziati del red team hanno notato molti modi in cui o1 è stato utile nell’elaborare protocolli per esperimenti scientifici, ma OpenAI afferma che i tester hanno anche “evidenziato informazioni di sicurezza mancanti relative a passaggi pericolosi, come la mancata evidenziazione di pericoli esplosivi o il suggerimento di metodi di contenimento chimico inappropriati, indicando l’inadeguatezza del modello su cui fare affidamento per attività di sicurezza fisica ad alto rischio“.
“Non è ancora abbastanza perfetto o affidabile da non volerlo controllare attentamente“, afferma White. Aggiunge che o1 è più adatto a guidare gli esperti che i principianti”. “Guardare un protocollo generato da o1 e vedere che è una sciocchezza è meno facile per chi ha poca esperienza“, afferma.
Risolutori scientifici
Krenn pensa che o1 accelererà la scienza aiutando a scansionare la letteratura, vedendo cosa manca e suggerendo interessanti percorsi per la ricerca futura. Ha avuto successo nell’inserire o1 in uno strumento da lui co-sviluppato che fa questo, chiamato SciMuse. “Crea idee molto più interessanti di GPT-4 o GTP-4o“, afferma.
Kyle Kabasares, uno scienziato dei dati presso il Bay Area Environmental Research Institute di Moffett Field, California, ha utilizzato o1 per replicare parte del codice del suo progetto di dottorato che calcolava la massa dei buchi neri. “Ero semplicemente sbalordito“, dice, “notando che a o1 ci è voluta circa un’ora per realizzare ciò che a me ha richiesto molti mesi”.
Catherine Brownstein, genetista del Boston Children’s Hospital nel Massachusetts, afferma che l’ospedale sta attualmente testando diversi sistemi di intelligenza artificiale, tra cui o1-preview, per applicazioni come la connessione dei punti tra le caratteristiche dei pazienti e i geni per le malattie rare. Afferma che o1 “è più accurato e offre opzioni che non pensavo fossero possibili da un chatbot“.