La versione completa del suo potente modello o1 di OpenAI era pronto per essere lanciato nel corso del 2024, ma una fuga di notizie inaspettata ha fatto sì che potremmo averlo già visto in azione, ed è persino migliore di quanto ci aspettassimo.
Modello o1 di OpenAI: ecco di cosa si tratta
A settembre 2024 l’azienda ha svelato un nuovo tipo di modello AI che impiega del tempo per ragionare su un problema prima di rispondere. È stato aggiunto a ChatGPT sotto forma di o1-preview e o1-mini m, nessuno dei quali ha dimostrato le piene capacità del modello o1 finale, ma ha mostrato un notevole miglioramento in termini di accuratezza rispetto a GPT-4.
Il CEO Sam Altman ha affermato che il modello o1 di OpenAI è una divergenza dai modelli in stile GPT normalmente rilasciati, incluso GPT-4o, che alimenta Advanced Voice. Durante un briefing con OpenAI, è stato detto che o1 full è un miglioramento significativo rispetto all’anteprima e la fuga di notizie sembra confermare che sia così.
Per circa due ore, gli utenti hanno potuto accedere a quella che si ritiene essere la versione completa di o1 (OpenAI non ha confermato) modificando un parametro nell’URL. Il nuovo modello sarà anche in grado di analizzare le immagini e accedere a strumenti come la ricerca web e l’analisi dei dati.
Un portavoce di OpenAI ha dichiarato: “Stavamo preparando un accesso esterno limitato al modello o1 di OpenAI e ci siamo imbattuti in un problema. Ora è stato risolto”.
Cosa è stato rivelato dalla fuga di notizie del modello o1 di OpenAI?
Sin dal rilascio del modello originale o1-preview, gli addetti ai lavori di OpenAI si sono vantati delle capacità complete del modello una volta rimosso il tag di anteprima. Le teorie hanno rivelato che l’anteprima è stata addestrata su una versione precedente dei modelli GPT, mentre il modello completo è stato addestrato da zero. In entrambi i casi, la fuga di notizie sembrava dimostrare che avevano ragione.
In un esempio, un utente è riuscito a risolvere un puzzle di immagini. L’IA ha impiegato quasi due minuti a riflettere sul problema, ma ha dimostrato l’enorme potenziale una volta che è stata in grado di rivedere immagini, documenti e altri input multimediali.
In un altro esempio, un utente è stato in grado di farlo camminare attraverso ogni singolo elemento di un’immagine che mostra un recente lancio di un razzo SpaceX. È entrato in notevoli dettagli su colore e movimento. Questo potrebbe essere enorme per la generazione di immagini AI.
L’azienda ha dichiarato: “Abbiamo sviluppato una nuova serie di modelli di intelligenza artificiale progettati per dedicare più tempo alla riflessione prima di rispondere. Possono ragionare su attività complesse e risolvere problemi più difficili rispetto ai modelli precedenti in scienza, programmazione e matematica”.
Il modello o1 di OpenAI è stato addestrato per dedicare più tempo a riflettere sui problemi prima di rispondere, proprio come farebbe una persona. Attraverso l’addestramento, ha imparato ad affinare il suo processo di pensiero, a provare strategie diverse e a riconoscere i suoi errori.
Il modello o1 di OpenAI si comporta in modo simile ai dottorandi in difficili compiti di benchmark in fisica, chimica e biologia. È stato anche scoperto che il modello o1 di OpenAI eccelle in matematica e codifica.
In un esame di qualificazione per l’International Mathematics Olympiad (IMO), GPT-4o ha risolto correttamente solo il 13% dei problemi, mentre il modello di ragionamento ha ottenuto l’83%. Le sue capacità di codifica sono state valutate in concorsi e hanno raggiunto l’89° percentile nelle competizioni Codeforces.
Come parte dello sviluppo del modello o1 di OpenAI, è stato ideato un nuovo approccio alla formazione sulla sicurezza che sfrutta la sua capacità di ragionamento per farli aderire alle linee guida di sicurezza e allineamento. Essendo in grado di ragionare sulle regole di sicurezza dell’azienda, può applicarle in modo più efficace.
Un modo in cui è stata misurata la sicurezza è testando quanto bene il modello o1 di OpenAI continua a seguire le sue regole di sicurezza se un utente cerca di aggirarle (noto come “jailbreaking”). In uno dei test di jailbreaking più difficili, GPT-4o ha ottenuto un punteggio di 22 (su una scala da 0 a 100) mentre il modello o1-preview ha ottenuto un punteggio di 84.
Conclusioni
Non è chiaro quando l’azienda svelerà la versione completa del modello o1 di OpenAI in modo appropriato, ma quello che sappiamo è che sarà un progresso significativo nell’IA. È probabile che questo accada presto, poiché la maggior parte delle aziende di intelligenza artificiale ha aspettato fino a dopo le elezioni presidenziali degli Stati Uniti.