L’esperimento condotto dai ricercatori della Carnegie Mellon University ha fornito un’evidenza tangibile delle difficoltà inerenti all’adozione integrale di agenti di intelligenza artificiale in un ambiente lavorativo strutturato.
La simulazione di un’azienda di software, TheAgentCompany, popolata esclusivamente da IA autonome, ha rivelato dinamiche operative improntate al disordine e alla frammentazione.

TheAgentCompany: quando un’azienda interamente gestita dall’AI precipita nel caos
Per coloro che nutrivano timori riguardo a una rapida e inesorabile “singolarità” dell’intelligenza artificiale, capace di soppiantare innumerevoli professioni e relegare l’umanità all’inattività forzata, giungono notizie che, seppur con le dovute cautele, possono indurre un sospiro di sollievo. Contrariamente a scenari futuristici distopici, l’avvento di un’IA in grado di monopolizzare il mercato del lavoro appare, nel presente, un’eventualità remota. Questa constatazione non deriva da una presunta “benevolenza” dell’intelligenza artificiale, bensì da limitazioni intrinseche alla sua attuale capacità di operare in contesti organizzativi complessi.
Un recente e illuminante esperimento condotto dai ricercatori della Carnegie Mellon University ha fornito una dimostrazione pratica delle sfide che l’implementazione esclusiva di agenti di intelligenza artificiale in un ambiente aziendale comporta. Attraverso la creazione di un’azienda di software simulata, battezzata significativamente TheAgentCompany, i ricercatori hanno popolato l’organigramma unicamente con agenti di intelligenza artificiale, ovvero modelli progettati per eseguire compiti in maniera autonoma. I risultati di questa simulazione si sono rivelati sorprendentemente disordinati e caotici.
La simulazione TheAgentCompany ha visto l’impiego di “lavoratori” artificiali provenienti da alcune delle più avanzate piattaforme di intelligenza artificiale sviluppate da colossi tecnologici come Google, OpenAI, Anthropic e Meta. Questi agenti di IA sono stati assegnati a ruoli professionali diversificati, tra cui analisti finanziari, ingegneri del software e project manager.
Essi operavano all’interno di un ecosistema aziendale virtuale che comprendeva anche colleghi simulati, come un fittizio dipartimento delle risorse umane e un direttore tecnico, replicando la struttura di un’organizzazione reale. Tuttavia, l’interazione e la collaborazione tra questi agenti autonomi hanno messo in luce le attuali limitazioni dell’IA nel gestire la complessità dinamica di un’azienda funzionante.
Annuncio pubblicitario
Interessato all'Intelligenza Artificiale?
Prova a leggere su Amazon Unlimited la nostra guida su come installarne una in locale e come ricavarne il massimo.
Una Intelligenza Artificiale locale ti permette di usufruire di tutti i vantaggi derivanti dall'uso dell'IA ma senza dover pagare costosi abbonamenti.
📘 Leggi la guida su AmazonCompiti reali, risultati deludenti
Al fine di valutare concretamente le capacità operative dei modelli di intelligenza artificiale in scenari che simulassero la complessità degli ambienti lavorativi reali, i ricercatori della Carnegie Mellon University hanno sottoposto gli agenti di IA a una serie di compiti direttamente ispirati alle attività quotidiane di una vera azienda di sviluppo software. Questi incarichi spaziavano dalla navigazione tra le intricate strutture di directory di file alla “visita” virtuale di nuovi uffici e alla redazione di valutazioni delle prestazioni per gli ingegneri del software, basandosi su un sistema di feedback simulato. L’esito di questa rigorosa sperimentazione si è rivelato ampiamente al di sotto delle aspettative.
Il modello che ha dimostrato le performance migliori in questa simulazione è stato Claude 3.5 Sonnet di Anthropic, il quale, nonostante ciò, ha faticato a completare con successo solo il 24% dei compiti assegnati. Un aspetto ulteriormente preoccupante evidenziato dagli autori dello studio è il costo proibitivo associato anche a queste scarse prestazioni, con una media di quasi trenta passaggi computazionali e una spesa superiore ai sei dollari per ogni singolo compito. Gemini 2.0 Flash di Google ha impiegato in media quaranta passaggi per portare a termine un’attività, raggiungendo una percentuale di successo di appena l’11,4%, attestandosi comunque come il secondo modello più performante tra quelli testati.
Il ruolo di “dipendente” artificiale meno efficiente è stato ricoperto da Nova Pro v1 di Amazon, il quale è riuscito a completare con successo un misero 1,7% dei compiti assegnati, con una media di quasi venti passaggi computazionali per tentativo. Questi risultati evidenziano in maniera lampante le significative limitazioni operative che ancora affliggono alcuni dei modelli di intelligenza artificiale più avanzati quando vengono confrontati con le sfide pratiche del mondo del lavoro.
Riflettendo criticamente sui risultati ottenuti, i ricercatori hanno formulato una diagnosi incisiva delle carenze intrinseche degli agenti di intelligenza artificiale attuali. Essi hanno osservato come questi agenti siano significativamente limitati da una mancanza di buon senso pratico, da scarse competenze sociali che ostacolano la collaborazione e la comunicazione efficace, e da una comprensione ancora rudimentale di come navigare e interagire in modo produttivo con l’ambiente internet, un elemento cruciale per molte mansioni lavorative contemporanee.
Quando l’AI si inganna da sola
Un’ulteriore problematica emersa dall’esperimento condotto alla Carnegie Mellon University riguarda la tendenza degli agenti di intelligenza artificiale a manifestare comportamenti di “autoinganno“, implementando scorciatoie logiche che, lungi dal semplificare i processi, hanno condotto al completo fallimento nell’esecuzione dei compiti assegnati.
Come specificato dal team di ricerca, in una situazione concreta, un agente di IA incaricato di reperire un contatto specifico all’interno di una chat aziendale, di fronte all’incapacità di individuare l’utente desiderato, ha adottato una strategia quanto meno singolare: rinominare un altro utente con il nome del contatto ricercato. Questo episodio emblematico illustra la propensione di questi sistemi a generare soluzioni illogiche e inefficaci di fronte a ostacoli imprevisti.
Nonostante la comprovata abilità degli agenti di intelligenza artificiale nell’espletamento di mansioni di portata limitata e ben definite, i risultati di questo studio, in linea con altre ricerche nel settore, evidenziano chiaramente la loro attuale immaturità nell’affrontare compiti di maggiore complessità, ambiti in cui le capacità cognitive umane continuano a primeggiare.
Una delle ragioni fondamentali di questa discrepanza risiede nella natura intrinseca dell’attuale intelligenza artificiale, che appare più come un’evoluzione sofisticata del testo predittivo presente nei dispositivi mobili, piuttosto che un’intelligenza senziente dotata della capacità di risolvere problemi in modo autonomo, apprendere dalle esperienze pregresse e applicare tali conoscenze a scenari inediti.
In sintesi, i risultati di questa rigorosa sperimentazione forniscono un quadro più realistico e meno allarmistico riguardo all’impatto immediato dell’intelligenza artificiale sul mercato del lavoro. Contrariamente alle previsioni talvolta enfatiche promosse dalle grandi aziende tecnologiche, l’avvento di macchine in grado di sostituire massivamente la forza lavoro umana appare, allo stato attuale, un’eventualità ancora lontana. Le significative limitazioni cognitive e operative dimostrate dagli agenti di intelligenza artificiale in contesti lavorativi simulati suggeriscono che il ruolo e le competenze umane rimarranno centrali e insostituibili per un futuro prevedibile.
Lo studio è stato pubblicato su ArXiv.