Il lancio di Granite 4.0 inaugura una nuova fase per la famiglia di modelli linguistici di grandi dimensioni (LLM) di IBM, destinati all’uso aziendale. Sfruttando i recenti progressi architetturali, IBM raddoppia l’impegno verso modelli più piccoli ed estremamente efficienti, in grado di offrire prestazioni di alto livello con una significativa riduzione dei costi e della latenza.

Granite 4.0: architettura e composizione della collezione
I modelli Granite 4.0 sono stati specificamente sviluppati per eccellere nelle attività cruciali per i flussi di lavoro agentici, funzionando sia in distribuzioni autonome sia come componenti efficienti ed economici all’interno di sistemi complessi, spesso in sinergia con modelli di ragionamento più ampi
La collezione presenta diverse dimensioni e stili architetturali per assicurare prestazioni ottimali su un ampio spettro di vincoli hardware:
•Granite-4.0-H-Small: Un modello ibrido Mixture of Experts (MoE) che vanta 32 miliardi di parametri totali, di cui 9 miliardi sono attivi.
•Granite-4.0-H-Tiny: Un altro MoE ibrido, con 7 miliardi di parametri totali, di cui 1 miliardo è attivo.
•Granite-4.0-H-Micro: Un modello ibrido denso che si basa su 3 miliardi di parametri.
•Granite-4.0-Micro: Un modello denso anch’esso da 3 miliardi, ma caratterizzato da un’architettura di trasformazione convenzionale basata sull’attenzione, pensato per piattaforme che non supportano ancora le architetture ibride.
Il modello G. 4.0-H Small è una soluzione robusta, progettata per offrire prestazioni elevate ed economiche per i flussi di lavoro aziendali complessi, come gli agenti multi-strumento e l’automazione del supporto clienti. Al contrario, i modelli Tiny e Micro sono ottimizzati per applicazioni edge e locali a bassa latenza e possono servire da elementi costitutivi all’interno di flussi di lavoro agentici più ampi per l’esecuzione rapida di compiti specifici, come la chiamata di funzioni.
I benchmark mostrano che le prestazioni migliorano sostanzialmente rispetto alle generazioni precedenti: anche i modelli più piccoli superano in modo significativo il precedente Granite 3.3 8B, pur essendo di dimensioni inferiori alla metà. Il loro punto di forza più evidente è un notevole aumento dell’efficienza di inferenza.
A confronto con gli LLM convenzionali, i modelli ibridi richiedono una quantità notevolmente inferiore di RAM per l’esecuzione. Questo vantaggio è particolarmente cruciale per le attività che implicano contesti di lunga durata, come l’analisi di una grande base di codice o di documentazione estesa, o per sessioni multiple gestite contemporaneamente, come nel caso di un agente di servizio clienti che si occupa di numerose richieste dettagliate.
Di fondamentale importanza, questa drastica riduzione dei requisiti di memoria si traduce in una conseguente e drastica riduzione del costo dell’hardware necessario per gestire carichi di lavoro intensivi ad alta velocità di inferenza. L’obiettivo di IBM è eliminare le barriere all’ingresso, offrendo ad aziende e sviluppatori un accesso conveniente a LLM altamente competitivi.
L’enfasi di IBM sull’efficienza pratica dell’inferenza è bilanciata da un’altrettanto forte priorità data alla sicurezza, protezione e trasparenza dell’ecosistema dei modelli. A seguito di un rigoroso audit esterno, durato mesi, sul processo di sviluppo dell’IA di IBM, la famiglia di modelli Granite è recentemente diventata l’unica famiglia di modelli di linguaggio a ottenere la certificazione ISO 42001. Questo standard internazionale attesta la responsabilità, la spiegabilità, la riservatezza dei dati e l’affidabilità nei sistemi di gestione dell’IA (AIMS).
Questa affidabilità intrinseca è ulteriormente rafforzata dalla recente collaborazione con HackerOne per un programma di bug bounty dedicato a Granite. Inoltre, una nuova prassi prevede la firma crittografica di tutti i checkpoint dei modelli 4.0 resi disponibili su Hugging Face, permettendo così a sviluppatori e aziende di garantire l’autenticità e la provenienza dei modelli utilizzati.
Partner aziendali selezionati, tra cui EY e Lockheed Martin, hanno avuto accesso anticipato per testare le capacità di Granite 4.0 su vasta scala in contesti di utilizzo chiave. Il feedback raccolto da questi partner, unito a quello della comunità open source, sarà essenziale per l’ottimizzazione e il miglioramento dei modelli nei prossimi aggiornamenti.
La versione attuale include le varianti Base e Instruct dei modelli Micro, Tiny e Small. IBM ha già pianificato ulteriori rilasci entro la fine del 2025, che comprenderanno modelli di dimensioni maggiori e minori, oltre a varianti con supporto esplicito al ragionamento.
Ottimizzazione per i carichi di lavoro aziendali complessi
I modelli ibridi Granite 4.0 segnano un netto progresso rispetto ai modelli di dimensioni comparabili basati su architetture standard a trasformatore, risultando significativamente più veloci e più efficienti nell’utilizzo della memoria. L’architettura ibrida Granite 4 integra una piccola porzione di livelli di attenzione standard in stile trasformatore con una preponderanza di livelli Mamba, in particolare Mamba-2. Questo approccio è cruciale, poiché Mamba processa le sfumature del linguaggio in un modo completamente diverso e marcatamente più efficiente rispetto ai modelli linguistici convenzionali.
Mentre i requisiti di memoria delle GPU per i modelli linguistici (LLM) sono spesso definiti dalla sola RAM necessaria per caricare i pesi dei modelli, molti scenari d’uso aziendali richiedono prestazioni ottimali in condizioni più esigenti. Questo include contesti di input molto lunghi, l’inferenza in batch di diverse istanze di modelli simultaneamente, o entrambi. In linea con l’enfasi di IBM sulla praticità aziendale, l’ottimizzazione di Granite 4 è stata focalizzata proprio sulla gestione efficiente di contesti lunghi e sessioni concorrenti.
Rispetto ai modelli basati su architettura trasformatore convenzionale, Granite 4.0-H può raggiungere una riduzione di oltre il 70% della RAM necessaria per elaborare input estesi e gestire molteplici batch simultanei. I modelli convenzionali faticano a mantenere la produttività all’aumentare della lunghezza del contesto o delle dimensioni dei batch; al contrario, i nostri modelli ibridi continuano ad accelerare la loro produttività anche sotto carichi di lavoro che tipicamente causano un rallentamento o addirittura superano la capacità hardware della maggior parte dei modelli. Di conseguenza, più i modelli Granite 4.0 vengono utilizzati intensamente, più i loro vantaggi diventano evidenti.
I modelli ibridi Granite 4.0 sono stati progettati per essere compatibili con le GPU AMD Instinct™ MI-300X, il che permette di ottenere un’ulteriore riduzione dell’ingombro della memoria. Inoltre, IBM ha stretto una partnership con Qualcomm Technologies, Inc. e Nexa AI per garantire la compatibilità dei modelli Granite 4.0 con le NPU Hexagon™ 1, ottimizzando ulteriormente la velocità di inferenza per la distribuzione su dispositivi edge come smartphone e PC.
L’utilità effettiva di questi vantaggi in termini di efficienza è strettamente legata alla qualità dell’output, che deve essere competitiva o superiore a quella dei modelli nelle rispettive classi dimensionali. Questa valutazione è cruciale, specialmente nei benchmark che misurano le performance in attività chiave per l’intelligenza artificiale agentica, come il rispetto delle istruzioni e la chiamata di funzioni.
Tutti i modelli Granite 4.0 mostrano importanti miglioramenti prestazionali generali rispetto alla precedente generazione. Sebbene la nuova architettura ibrida contribuisca all’efficienza, la maggior parte dei progressi nell’accuratezza deriva da miglioramenti nelle metodologie di addestramento e post-addestramento, oltre che dalla continua espansione e perfezionamento del corpus di dati di training. Per questo motivo, anche Granite 4.0-Micro, pur basandosi su un’architettura a trasformatore convenzionale, supera significativamente il precedente Granite 3.3 8B.
I modelli eccellono in particolare nelle attività essenziali per i casi d’uso aziendali e i flussi di lavoro di intelligenza artificiale agentica. Ad esempio, nelle valutazioni di Stanford HELM, Granite-4.0-H-Small supera tutti i modelli open-weight (ad eccezione del solo Llama 4 Maverick, un modello oltre 12 volte più grande) nel benchmark IFEval, ampiamente utilizzato per valutare la capacità di un modello di seguire istruzioni esplicite.
In molti flussi di lavoro agentici, è vitale che le istruzioni non solo vengano eseguite in modo affidabile, ma vengano anche tradotte accuratamente in chiamate di strumenti efficaci. A tal fine, mantiene il passo con modelli molto più grandi, aperti e chiusi, nel Berkeley Function Calling Leaderboard v3 (BFCLv3), offrendo al contempo un costo senza pari in questo competitivo set.
Infine, dimostra eccellenti prestazioni anche in MTRAG, un benchmark che misura l’affidabilità su attività complesse di generazione aumentata del recupero (RAG) che coinvolgono interazioni multi-turno, domande senza risposta, quesiti non autonomi e informazioni provenienti da domini diversi.
Affidabilità, provenienza e programmi di sicurezza
Tutti i modelli Granite sono sviluppati aderendo a principi fondamentali di sicurezza, protezione e governance responsabile. All’inizio di questo mese, la famiglia di modelli IBM Granite è diventata la prima famiglia di modelli di linguaggio aperto a ricevere l’accreditamento ISO/IEC 42001:2023. Questa certificazione attesta che Granite è allineato alle best practice internazionali per un’intelligenza artificiale sicura e responsabile e che il Sistema di Gestione dell’Intelligenza Artificiale (AIMS) di IBM soddisfa i più alti livelli di controllo. Di conseguenza, le organizzazioni possono sviluppare con fiducia anche in contesti ad alto rischio, come i settori altamente regolamentati e gli ambienti di distribuzione mission-critical.
Come tutti i modelli Granite, anche i modelli Granite 4.0 sono stati addestrati esclusivamente su dati attentamente selezionati, acquisiti eticamente e approvati a livello aziendale. A dimostrazione della totale fiducia nell’affidabilità dei modelli, IBM offre un indennizzo illimitato per rivendicazioni di proprietà intellettuale di terzi sui contenuti generati dai modelli Granite quando utilizzati sulla piattaforma IBM watsonx.ai.
Oltre agli approfonditi test interni e al lavoro di red-teaming, IBM ha recentemente collaborato con HackerOne per lanciare un programma di bug bounty per Granite, offrendo ricompense significative per l’identificazione di difetti imprevisti, modalità di errore o vulnerabilità agli attacchi avversari come il jailbreaking. Tutte le preziose informazioni scoperte dai ricercatori verranno utilizzate per un continuo miglioramento della sicurezza dei modelli, anche attraverso la generazione di dati sintetici per perfezionare l’allineamento.
Inoltre, IBM si concentra sulla sicurezza non solo dei modelli stessi, ma anche dell’intera catena di distribuzione. Per questo, IBM ha introdotto la nuova pratica di firmare crittograficamente tutti i checkpoint dei modelli Granite 4 prima del rilascio. Tutti i checkpoint vengono ora forniti con un file model.sig che consente una verifica pubblica e semplice della provenienza dei modelli, garantendone l’integrità e l’autenticità.
Nonostante i loro numerosi vantaggi, i modelli di trasformatore tradizionali presentano un aspetto negativo critico: i loro requisiti computazionali aumentano quadraticamente con la lunghezza della sequenza. Se la lunghezza del contesto raddoppia, il numero di calcoli che un modello di trasformatore deve eseguire e memorizzare in memoria quadruplica. Questo “collo di bottiglia quadratico” riduce inevitabilmente la velocità e aumenta i costi con l’aumentare della lunghezza del contesto, esaurendo rapidamente la capacità RAM anche delle GPU di fascia alta.
Mentre i trasformatori si basano sull’auto-attenzione, Mamba utilizza un meccanismo di selettività completamente diverso e intrinsecamente più efficiente. I requisiti computazionali di Mamba scalano linearmente con la lunghezza della sequenza: quando il contesto raddoppia, Mamba esegue solo il doppio dei calcoli, non il quadruplo. Ancora meglio, i requisiti di memoria di Mamba rimangono costanti, indipendentemente dalla lunghezza della sequenza. Più il carico di lavoro su un modello Mamba è elevato, maggiori diventano i suoi vantaggi rispetto ai trasformatori.
I trasformatori e l’auto-attenzione conservano alcuni vantaggi rispetto a Mamba e Mamba-2, in particolare per le prestazioni in attività che richiedono apprendimento contestuale, come il few-shot prompting. La soluzione ottimale è stata combinare entrambi in un modello ibrido per ottenere il meglio delle due architetture.
L’architettura alla base dei modelli Granite 4.0-H-Micro, Granite 4.0-H-Tiny e Granite 4.0-H-Small combina sequenzialmente i layer di Mamba-2 con i blocchi transformer convenzionali in un rapporto di 9:1. I blocchi Mamba-2 elaborano in modo efficiente il contesto globale e trasmettono periodicamente tali informazioni contestuali attraverso un blocco transformer, che fornisce un’analisi più dettagliata del contesto locale tramite auto-attenzione, prima di passare il risultato al successivo raggruppamento di layer Mamba-2.
È importante notare che la maggior parte dell’infrastruttura di servicing LLM a livello mondiale era storicamente progettata solo per modelli basati su trasformatori. Dopo il lancio sperimentale della preview di Granite 4.0-Tiny all’inizio dell’anno, IBM ha collaborato ampiamente con i partner dell’ecosistema per garantire il supporto all’architettura Granite 4 Hybrid in framework di inferenza chiave, inclusi vLLM, llama.cpp, NexaML e MLX.
I modelli Granite-4.0-H-Tiny e Granite-4.0-H-Small inoltrano l’output di ciascun blocco Mamba-2 e transformer a un blocco Mixture of Experts (MoE) a grana fine. Tiny e Small sono i primi modelli IBM MoE a utilizzare esperti condivisi sempre attivi, che migliorano l’efficienza dei parametri e consentono agli altri “esperti” di sviluppare conoscenze distintamente specializzate. Granite 4.0-H-Micro utilizza strati feedforward densi convenzionali al posto dei blocchi MoE, rispecchiando per il resto l’architettura condivisa da Tiny e Small.
Uno degli aspetti più interessanti dei modelli linguistici basati su State Space Models (SSM) come Mamba è il loro potenziale teorico di gestire sequenze infinitamente lunghe. Tutti i modelli Granite 4.0 sono stati addestrati su campioni di dati con una lunghezza di contesto fino a 512.000 token. Le prestazioni sono state convalidate su attività che coinvolgono una lunghezza di contesto fino a 128.000 token, ma teoricamente la lunghezza può estendersi ulteriormente.
Nei modelli di trasformatore standard, la finestra di contesto massima è limitata dai limiti della codifica posizionale (PE), necessaria per fornire informazioni sull’ordine dei token. Alcune ricerche suggeriscono che i modelli che utilizzano tecniche PE comuni faticano a elaborare sequenze più lunghe di quelle viste in addestramento. L’architettura Granite 4.0-H non utilizza alcuna codifica posizionale (NoPE). Abbiamo scoperto che non ne hanno bisogno: Mamba conserva intrinsecamente le informazioni sull’ordine dei token perché li “legge” in sequenza.
Indipendentemente dalle loro diverse implementazioni architetturali, tutti i modelli Granite 4.0 sono addestrati sullo stesso corpus da 22 trilioni di token attentamente compilato e incentrato sull’azienda, utilizzando le stesse metodologie di pre-addestramento migliorate, lo stesso regime di post-addestramento e lo stesso modello di chat.
Granite 4.0 è stato pre-addestrato su un ampio spettro di campioni selezionati da diverse fonti aziendali, tra cui DataComp-LM (DCLM), GneissWeb, sottoinsiemi di TxT360, Wikipedia e altre fonti pertinenti. I dati sono stati ulteriormente post-addestrati per eccellere in attività aziendali, sfruttando set di dati sia sintetici che aperti in domini come linguaggio, codice, matematica, ragionamento, multilinguismo, sicurezza, tool calling, RAG e sicurezza informatica. Tutti i set di dati di training sono stati preparati con il framework open source Data Prep Kit.
Una notevole differenza rispetto alle precedenti generazioni è la decisione di suddividere i modelli Granite 4.0 post-addestrati in varianti separate: una ottimizzata per le istruzioni (rilasciata oggi) e una basata sul ragionamento (prevista più avanti in autunno). Questa separazione ha portato a migliori prestazioni di esecuzione delle istruzioni per i modelli Instruct e a migliori prestazioni di ragionamento complesso per i modelli Thinking.
I modelli Granite 4.0 Instruct sono ora disponibili su IBM watsonx.ai, lo studio di sviluppo di intelligenza artificiale integrato di IBM. Sono disponibili anche tramite i partner della piattaforma, tra cui Dell Technologies, Docker Hub, Hugging Face, Kaggle, LM Studio, NVIDIA NIM, Ollama, OPAQUE e Replicate. I modelli Granite 4.0 Base sono accessibili tramite Hugging Face.
