Guide Labs ha recentemente presentato Steerling-8B, un modello linguistico di nuova concezione che segna il passaggio da sistemi a “scatola nera” a strutture intrinsecamente decifrabili. A differenza degli approcci tradizionali, che tentano di interpretare il comportamento dell’intelligenza artificiale a posteriori, questa architettura integra un livello concettuale nativo che permette di tracciare l’origine di ogni singolo token generato, riconducendolo con precisione ai dati di addestramento.

Steerling-8B: l’evoluzione dell’architettura neurale trasparente
Il principale ostacolo nella gestione dei modelli di deep learning risiede nella difficoltà di decifrare i meccanismi interni che guidano le loro risposte. Che si tratti delle sessioni di xAI per affinare le politiche di Grok, della tendenza di ChatGPT all’adulazione o delle comuni allucinazioni, analizzare una rete neurale composta da miliardi di parametri rimane un’impresa ardua. Comprendere perché un’intelligenza artificiale compia determinate scelte è oggi una sfida tecnica di prim’ordine.
In questo scenario si inserisce Guide Labs, startup di San Francisco guidata da Julius Adebayo e Aya Abdelsalam Ismail. L’azienda ha recentemente reso open source Steerling-8B, un modello linguistico da 8 miliardi di parametri basato su un’architettura innovativa progettata per la massima interpretabilità. A differenza dei sistemi tradizionali, ogni singolo token generato dal modello può essere ricollegato direttamente alle sue origini nei dati di addestramento, permettendo di tracciare con precisione la genesi di ogni affermazione.
La portata di questa tecnologia varia dalla semplice verifica delle fonti citate fino alla comprensione di concetti astratti come l’umorismo o l’identità di genere. Come spiegato da Adebayo, il problema dei modelli attuali è la fragilità: se un concetto è codificato in miliardi di modi diversi all’interno di un sistema vastissimo, riuscire a individuarli e controllarli in modo affidabile diventa quasi impossibile. La capacità di attivare o disattivare tali parametri con precisione rappresenta, per molti ricercatori, il “Sacro Graal” del settore.
Il progetto affonda le sue radici nel percorso di dottorato di Adebayo al MIT, durante il quale dimostrò l’inaffidabilità dei metodi allora esistenti per interpretare il deep learning. Quella ricerca ha portato all’ideazione di un nuovo metodo costruttivo per gli LLM, che prevede l’inserimento di un “livello concettuale” capace di suddividere i dati in categorie tracciabili. Sebbene questo approccio richieda un lavoro di annotazione iniziale più oneroso, l’utilizzo di altre IA per supportare il processo ha permesso di realizzare Steerling-8B come la più avanzata prova di concetto mai prodotta finora dall’azienda.
Una nuova filosofia costruttiva contro l’approccio neuroscientifico
Julius Adebayo delinea una netta distinzione tra le metodologie attuali e la visione di Guide Labs. Mentre l’approccio comune all’interpretabilità cerca di applicare una sorta di neuroscienza ai modelli esistenti per decifrarli a posteriori, la strategia della startup consiste nel progettare l’architettura da zero. L’obiettivo è eliminare la necessità di analisi invasive o interpretative post-addestramento, creando un sistema che sia intrinsecamente trasparente fin dalla sua nascita.
Uno dei dubbi principali legati a una struttura così controllata riguarda la possibile perdita di quei comportamenti emergenti che rendono affascinanti gli LLM, come la capacità di generalizzare su temi non trattati esplicitamente. Tuttavia, Adebayo rassicura sul fatto che il loro modello mantiene questa proprietà. Il team monitora costantemente i cosiddetti concetti scoperti, ovvero nozioni che l’intelligenza artificiale apprende in autonomia, citando come esempio il calcolo quantistico, a dimostrazione che il rigore architettonico non soffoca l’evoluzione del sistema.
Secondo Adebayo, questa architettura interpretabile diventerà uno standard indispensabile per il mercato. Nel settore dei prodotti rivolti ai consumatori, una simile tecnologia permetterebbe ai creatori di intervenire con precisione chirurgica per bloccare l’utilizzo di materiali protetti da copyright o per moderare in modo più efficace contenuti sensibili legati alla violenza e all’abuso di sostanze. La capacità di governare gli output in modo granulare rappresenta un salto di qualità rispetto ai filtri attuali, spesso imprecisi o facilmente aggirabili.
L’esigenza di controllo diventa ancora più critica nei settori soggetti a normative stringenti, come quello finanziario. In questo ambito, un modello che valuta le richieste di prestito deve basarsi esclusivamente su dati economici certi, garantendo l’esclusione categorica di variabili discriminatorie come la razza. Parallelamente, l’interpretabilità si rivela cruciale nella ricerca scientifica. Sebbene il deep learning abbia già rivoluzionato campi come il ripiegamento proteico, gli scienziati non possono accontentarsi di un risultato corretto, ma necessitano di comprendere le ragioni logiche per cui il software ha individuato determinate combinazioni molecolari promettenti.
Dalla teoria scientifica alla sfida ingegneristica
Julius Adebayo sostiene che l’epoca dell’incertezza scientifica riguardo all’interpretabilità dei modelli sia ormai conclusa. Secondo il fondatore di Guide Labs, il passaggio fondamentale è stato compiuto: non si tratta più di comprendere se sia possibile creare modelli trasparenti, ma di affrontare la sfida puramente ingegneristica della loro implementazione su vasta scala. La convinzione dell’azienda è che questa nuova architettura non abbia limiti intrinseci e possa arrivare a eguagliare le prestazioni dei modelli di frontiera più complessi, nonostante questi ultimi contino su un numero di parametri significativamente superiore.
Un dato rilevante emerge dal confronto diretto tra Steerling-8B e i sistemi attualmente leader del settore. Guide Labs dichiara infatti che il proprio modello è in grado di raggiungere il 90% delle capacità delle IA esistenti pur essendo stato addestrato con una quantità inferiore di dati. Questo risultato è reso possibile dall’efficienza dell’architettura innovativa, che ottimizza l’apprendimento senza sacrificare la qualità dell’output, dimostrando che la precisione e la trasparenza possono convivere con un risparmio di risorse computazionali.
Il percorso di crescita dell’azienda, nata dall’incubatore Y Combinator, ha ricevuto una spinta decisiva nel novembre 2024 grazie a un round di finanziamento iniziale di 9 milioni di dollari guidato da Initialized Capital. Forti di questo sostegno economico, i prossimi obiettivi strategici sono già delineati. Guide Labs punta ora allo sviluppo di un modello ancora più ampio e potente, con l’intenzione di aprire le proprie tecnologie al mercato esterno attraverso l’offerta di accessi API e lo sviluppo di sistemi agentici per gli utenti.





































