OpenAI ha annunciato una serie di aggiornamenti ai suoi servizi API in occasione di un evento per sviluppatori tenutosi a San Francisco. Questi aggiornamenti consentiranno agli sviluppatori di personalizzare ulteriormente i modelli, sviluppare nuove applicazioni basate sulla voce, ridurre i prezzi per i prompt ripetitivi e ottenere prestazioni migliori da modelli più piccoli.
OpenAI: tutte le novità
OpenAI ha annunciato quattro importanti aggiornamenti API durante l’evento: distillazione del modello, caching dei prompt, messa a punto della visione e l’introduzione di un nuovo servizio API denominato Realtime. Per i non addetti ai lavori, un’API (Application Programming Interface) consente agli sviluppatori di software di integrare funzionalità da un’applicazione esterna nel proprio prodotto.
1.Distillazione del modello. L’azienda ha introdotto un nuovo modo per migliorare le capacità di modelli più piccoli come GPT-4o mini, ottimizzandoli con gli output di modelli più grandi, chiamato distillazione del modello.
In un post del blog, l’azienda ha affermato che: “Finora, la distillazione è stata un processo in più fasi, soggetto a errori, che ha richiesto agli sviluppatori di orchestrare manualmente più operazioni su strumenti scollegati, dalla generazione di set di dati alla messa a punto dei modelli e alla misurazione dei miglioramenti delle prestazioni”.
Per rendere il processo più efficiente, OpenAI ha creato una suite di distillazione dei modelli all’interno della sua piattaforma API. La piattaforma consente agli sviluppatori di creare i propri set di dati utilizzando modelli avanzati come GPT-4o e o1-preview per generare risposte di alta qualità, perfezionare un modello più piccolo per seguire tali risposte e quindi creare ed eseguire valutazioni personalizzate per misurare le prestazioni del modello in attività specifiche.
OpenAI ha affermato che offrirà 2 milioni di token di formazione gratuiti al giorno su GPT-4o mini e 1 milione di token di formazione gratuiti al giorno su GPT-4o fino al 31 ottobre 2024 per aiutare gli sviluppatori a iniziare con la distillazione. (I token sono blocchi di dati che i modelli di intelligenza artificiale elaborano per comprendere le richieste.) Il costo di formazione ed esecuzione di un modello distillato è lo stesso dei prezzi di fine-tuning standard di OpenAI.
2.Memorizzazione nella cache dei prompt. OpenAI si è concentrata in particolar modo sulla riduzione del prezzo dei suoi servizi API e ha compiuto un altro passo in quella direzione con il prompt caching, una nuova funzionalità che consente agli sviluppatori di riutilizzare i prompt più comuni senza dover pagare ogni volta il prezzo intero.
L’API salverà o “memorizzerà nella cache” automaticamente i prefissi lunghi per un’ora. Se l’API rileva un nuovo prompt con lo stesso prefisso, applicherà automaticamente uno sconto del 50 percento al costo di input. Per gli sviluppatori di applicazioni AI con casi d’uso molto mirati, la nuova funzionalità potrebbe far risparmiare una notevole quantità di denaro. Il rivale di OpenAI, Anthropic, ha introdotto la memorizzazione nella cache dei prompt nella propria famiglia di modelli ad agosto 2024.
3.Messa a punto della visione. Gli sviluppatori saranno ora in grado di perfezionare GPT-4o con immagini oltre che con testo, il che, secondo OpenAI, migliorerà la capacità del modello di comprendere e riconoscere le immagini, consentendo: “Applicazioni come funzionalità di ricerca visiva avanzata, rilevamento di oggetti migliorato per veicoli autonomi o città intelligenti e analisi di immagini mediche più accurate”.
Caricando un set di dati di immagini etichettate sulla piattaforma, gli sviluppatori possono affinare le prestazioni del modello quando si tratta di comprendere le immagini. L’azienda ha spiegato che Coframe, una startup che sta creando un assistente di ingegneria della crescita basato sull’intelligenza artificiale, ha utilizzato la messa a punto della visione per migliorare la capacità dell’assistente di generare codice per i siti Web.
Fornendo a GPT-4 centinaia di immagini di siti Web e il codice utilizzato per crearli: “Hanno migliorato la capacità del modello di generare siti Web con uno stile visivo coerente e un layout corretto del 26% rispetto a GPT-4o di base”.
Per far partire gli sviluppatori, OpenAI distribuirà 1 milione di token di formazione gratuiti ogni giorno durante il mese di ottobre 2024. Da novembre in poi, la messa a punto di GPT-4o con le immagini costerà 25 $ per un milione di token.
4.Tempo reale. L’azienda ha reso disponibile la sua modalità vocale avanzata con suono umano per tutti gli abbonati a ChatGPT. Ora, l’azienda consente agli sviluppatori di creare applicazioni speech-to-speech utilizzando la sua tecnologia.
Se uno sviluppatore avesse voluto in precedenza creare un’applicazione basata sull’intelligenza artificiale in grado di parlare agli utenti, avrebbe dovuto prima trascrivere l’audio, passare il testo a un modello linguistico come GPT-4 per elaborarlo e quindi inviare l’output a un modello linguistico come GPT-4 per elaborarlo e quindi inviare l’output a un modello text-to-speech. Questo approccio: “Spesso ha portato alla perdita di emozione, enfasi e accenti, oltre a una latenza evidente”.
Con la Realtime API, l’audio viene elaborato immediatamente dall’API senza dover collegare più applicazioni insieme, rendendolo molto più veloce, economico e reattivo. L’API supporta anche la chiamata di funzione , il che significa che le applicazioni basate su di essa saranno in grado di eseguire azioni, come ordinare una pizza o fissare un appuntamento. Realtime verrà infine aggiornato per gestire esperienze multimodali di tutti i tipi, incluso il video.
Per elaborare il testo, l’API costerà 5 $ per un milione di token di input e 20 $ per 1 milione di token di output. Quando elabora l’audio, l’API addebiterà 100 $ per 1 milione di token di input e 200 $ per 1 milione di token di output. Questo equivale a “circa 0,06 $ al minuto di input audio e 0,24 $ al minuto di output audio“.