OpenAI ha rilasciato una nuova tecnologia AI chiamata Swarm Framework. Questo progetto open source segna una nuova pietra miliare nella corsa all’AI in corso.
Il nuovo framework offre agli sviluppatori un set completo di strumenti per creare sistemi di intelligenza artificiale multi-agente in grado di completare attività e obiettivi cooperando in modo autonomo.
OpenAI Swarm ci offre uno sguardo a una versione futura di ChatGPT in cui puoi porre una domanda all’IA e questa può andare a cercare più fonti, tornando con una risposta esauriente. Potrebbe anche eseguire attività su diversi siti Web o nel mondo reale per tuo conto.
Nelle viscere di AI Inc., i ricercatori stanno correndo per creare agenti AI cooperativi, ovvero sistemi che lavorano insieme per portare a termine compiti nel giro di un po’ di tempo, anziché offrire risposte immediate come con i chatbot di oggi.
Per capire perché questo è importante, è utile comprendere i limiti dell’attuale IA che la maggior parte di noi conosce e ama (o odia). La maggior parte dell’uso dell’IA attualmente ruota attorno all’uso di grandi modelli linguistici (LLM) che sono addestrati per fornire servizi generali agli utenti come la traduzione di testi, la stesura di relazioni e aiuto con i compiti di matematica. Questi modelli offrono una soluzione “tuttofare, maestro di niente” e sono perfetti per l’uso quotidiano da parte di chiunque.
Benvenuti al Sistema AI 2
Il passo successivo rispetto a un semplice LLM sono i modelli “affinati”, focalizzati su un dominio specifico, ad esempio un bot medico o uno strumento per fornire consulenza finanziaria strategica.
Questi prodotti specializzati vengono solitamente creati internamente da grandi aziende, sebbene siano sempre più numerosi gli strumenti di intelligenza artificiale specializzati che raggiungono il mercato generale sotto forma di servizi in abbonamento.
Un buon esempio è Lyrebird, che è specificamente addestrato per ascoltare, previo consenso, la visita di un medico al paziente e, in seguito, trascriverla in un testo opportunamente strutturato per le cartelle cliniche del paziente.
L’ultima generazione di AI, solitamente definita tecnologia System 2, incorpora una serie di nuove e potenti funzionalità. La maggior parte delle persone avrà sentito parlare del nuovo modello o1 di OpenAI, precedentemente denominato Strawberry, che è progettato per dedicare più tempo a “pensare” a un problema, prima di fornire una soluzione.
Questa capacità di ragionamento è considerata una parte cruciale dei modelli di intelligenza artificiale del Sistema 2. Gli sviluppatori ora vedono tempi di ragionamento più lunghi come un enorme vantaggio per la qualità dell’output di intelligenza artificiale, in netto contrasto con un anno fa, quando il “fast-is-best” era all’ordine del giorno.
La necessità del ragionamento e dell’automazione
Il ragionamento lungo e la risoluzione dei problemi sono solo una parte della nuova equazione dell’IA. Accanto a queste nuove funzionalità, stiamo per assistere a un’esplosione dell’IA agentica. Questi agenti software saranno in grado di eseguire autonomamente attività e raggiungere gli obiettivi impostati dall’utente da soli. Non è necessario alcun prompt. Se questo sembra fantascienza, allora sappi che gli agenti sono già in uso in specifici domini di attività.
Un esempio è Factory.ai, che offre agenti di ingegneria software, chiamati Droids, per automatizzare il processo e l’implementazione di applicazioni aziendali. L’azienda stima che il suo sistema possa far risparmiare circa $ 18.000 all’anno per ingegnere software impiegato. Roba potente.
Il nuovo Swarm Framework mira a semplificare la creazione e l’implementazione di questo tipo di strumento, pertanto possiamo aspettarci di vedere un’ondata di queste soluzioni di agenti immesse sul mercato nel corso dei prossimi due anni circa.
La chiave per l’accettazione degli agenti generati da Swarm verrà dalla maggiore potenza dei backend LLM. I modelli più recenti forniscono il tipo di autonomia necessaria agli agenti per decollare davvero. Ciò alimenterà una rivoluzione nelle applicazioni software.
Sequoia Capital, nel suo recente rapporto sul settore LLM, ha parlato di un passaggio dalle aziende che noleggiano software cloud come servizio (SaaS), ad esempio utilizzando Adobe Creative Cloud o Microsoft Office, a un nuovo paradigma che altri chiamano Outcome as a Service (OaaS). Invece di avere un’AI che risponde alle domande, questa farà dei lavori per noi, venendo pagata solo quando il compito sarà completato.
Ad esempio, il nuovo sistema agentico Sierra AI è un bot di supporto clienti che viene pagato per ogni interazione con il cliente andata a buon fine, non in base a un affitto mensile. Comunica a voce, nella lingua dell’utente, e può accedere a tutte le informazioni di cui ha bisogno per gestire le richieste quotidiane. Quando non può, passa senza problemi la richiesta a un responsabile del supporto umano.
Swarm potrebbe cambiare le nostre vite per sempre
Dario Amodei, CEO e co-fondatore di Anthropic, rivale di OpenAI, riassume al meglio il concetto su cui si basa Swarm quando parla del tipo di intelligenza artificiale potente che sta per entrare nelle nostre vite.
“[Esso] ha tutte le ‘interfacce’ disponibili per un essere umano che lavora virtualmente, tra cui testo, audio, video, controllo del mouse e della tastiera e accesso a Internet. Può impegnarsi in qualsiasi azione, comunicazione o operazione remota… non si limita a rispondere passivamente alle domande; invece, può ricevere compiti che richiedono ore, giorni o settimane per essere completati, e poi se ne va e svolge quei compiti in modo autonomo“.
Non si tratta di idee nuove. Il famoso scienziato dell’intelligenza artificiale Ilya Sutskever, co-fondatore di OpenAI, parlava di questo tipo di funzionalità già nel 2018, quando l’intelligenza artificiale stava appena emergendo dai suoi inizi fantascientifici.
Ha parlato di “una società di agenti” che si integrerà nella nostra vita quotidiana utilizzando un crescente set di abilità comunicative. Abbiamo già visto i primi segnali di questa visione con l’arrivo della modalità vocale avanzata di OpenAI , che è identica alla chat con un essere umano in quasi ogni modo.
Tuttavia Amodei fa un ulteriore passo avanti e suggerisce che presto potremmo assistere alla collaborazione di milioni di agenti in quello che lui chiama un “paese di geni in un data center“.
È un concetto incredibilmente grandioso, ma se si considera la velocità fulminea dell’attuale sviluppo dell’IA, da ChatGPT a Swarm, e le incessanti uscite di prodotti e ricerche, è ovvio a quale futuro mirano gli scienziati. L’unica cosa che non sappiamo è l’esatto lasso di tempo, ma tutti i segnali puntano verso il prima possibile.
Considerazioni finali
L’ultima parola spetta ad Amodei, che per essere onesti, cerca di mitigare l’hype e di tenerci un po’ più con i piedi per terra. Mentre parla dell’enorme potenziale sconvolgimento in tutto, dalla salute all’economia e alla governance, chiarisce che ci sono ancora grossi ostacoli al tipo di progresso che è possibile con la “potente IA” (non gli piace il termine AGI).
“La velocità con cui un progetto importante, ad esempio lo sviluppo di una cura per il cancro, può essere completato potrebbe avere un minimo irriducibile che non può essere ulteriormente ridotto, anche se l’intelligenza continua ad aumentare… alcune cose sono intrinsecamente imprevedibili o caotiche e persino l’intelligenza artificiale più potente non può prevederle o districarle sostanzialmente meglio di un essere umano… ci sono alcune leggi fisiche che sembrano essere infrangibili. Non è possibile viaggiare più veloci della luce.”
Anthropic si è fatta un nome per aver fornito prodotti AI “sicuri”, che hanno come obiettivo primario quello di offrire i vantaggi dell’intelligenza artificiale, cercando al contempo di minimizzare i rischi. È bello sapere che almeno alcune delle persone che stanno realizzando questa sorprendente rivoluzione, forse la più grande di sempre, stanno dedicando del tempo a considerare le vere ramificazioni di ciò che stanno costruendo.