Nel panorama affollato dei modelli linguistici di ultima generazione, Meta ha rilanciato con Llama 4, una famiglia di modelli “open weight” che si presenta come alternativa (più o meno trasparente) ai colossi chiusi come GPT-5, Gemini 2.x e Claude 4.1. Con nomi evocativi come Scout, Maverick e Behemoth, Meta promette di democratizzare l’intelligenza artificiale, aprendo a tutti l’accesso a un potenziale paragonabile, se non superiore, a quello dei top player. Ma quanto c’è di reale, quanto di marketing, e dove si nascondono i caveat?
Llama 4: cosa dichiara Meta
Meta racconta una storia potente:
- Scout e Maverick sono modelli altamente performanti, capaci di gestire contesti estesi fino a 10 milioni di token, ideali per applicazioni che richiedono memoria lunga e coerenza estesa.
- Behemoth, la versione più potente, dichiara di superare GPT-4.5, Claude Sonnet 3.7 e Gemini 2.0 Pro in diversi benchmark, soprattutto in ambito STEM.
- Tutti i modelli sono costruiti su un’architettura Mixture of Experts (MoE), che consente una maggiore efficienza computazionale: solo una parte del modello viene attivata per ogni inferenza, riducendo costi e consumo energetico.
- Llama 4 è multimodale: gestisce testo, immagini e, in prospettiva, anche audio e video.
- La licenza è “open weight”, consentendo agli sviluppatori di scaricare e integrare i modelli localmente (ma con alcune importanti limitazioni commerciali).
I punti critici
Tutto molto bello, se non fosse che:
1. Licenza: non è open source in senso stretto
La licenza di Llama 4, pur permettendo la distribuzione dei pesi, impone forti limitazioni:
- Chi ha più di 700 milioni di utenti attivi deve chiedere una licenza speciale.
- Ci sono vincoli d’uso che la escludono dalle definizioni OSI o FSF di open source.
- Non è chiaro l’intero set di dati di training: alcune porzioni potrebbero includere dati protetti da copyright.
2. Benchmark “truccati”
Meta è stata accusata (con prove) di aver usato versioni ottimizzate e non pubbliche dei propri modelli nei test benchmark (es. LMArena), ottenendo punteggi superiori rispetto alla versione realmente disponibile. In alcuni casi, la sostituzione del modello con la versione standard ha causato crolli drastici di classifica.
3. Contesto lungo: promesse e incognite
Il supporto per 10M token è senza dubbio un punto forte, ma:
- Non è chiaro come venga gestita la coerenza narrativa oltre il primo milione.
- La latenza e i costi di memoria diventano rapidamente proibitivi in ambienti reali.
- Non esistono ancora benchmark standard e solidi per validare qualità di output su input così estesi.
4. Codice e precisione tecnica: ancora dietro
Nei benchmark orientati al codice (LiveCodeBench, Aider, ecc.), Llama 4 perde nettamente contro GPT-5 e modelli ottimizzati come Qwen2.5-Coder 32B. Errori semantici, mancanza di verifica del contesto e bassa accuratezza lo rendono poco affidabile per lo sviluppo software avanzato.
5. Disallineamento tra versione “pubblica” e “da vetrina”
Il modello che scarichi è spesso inferiore a quello mostrato nei confronti ufficiali: tuning, settaggi, persino il dataset possono differire. Questo pone problemi di trasparenza e credibilità.
6. Costi reali e infrastruttura
Sebbene il costo per token sia sulla carta inferiore a GPT-5, la realtà è che gestire Llama 4 (soprattutto Behemoth) richiede infrastruttura pesante: GPU top di gamma, ottimizzazioni software avanzate, e molto lavoro di ingegneria. Non proprio “plug and play”.
Punti di forza reali
Nonostante le criticità, ci sono anche aspetti solidi e promettenti:
- Contesto lungo: per task specifici (riassunto di libri, analisi legali, bioinformatica), la finestra da milioni di token potrebbe fare davvero la differenza.
- Efficienza del MoE: se ben implementata, l’architettura a esperti riduce il consumo senza penalizzare la qualità.
- Multimodalità crescente: Llama si posiziona bene per scenari che vanno oltre il testo, specialmente se Meta manterrà la promessa di release pubblici anche per queste versioni.
- Flessibilità locale: puoi usarlo senza mandare dati nel cloud. E per molti, oggi, questo vale più di un punto in classifica.
Metriche comparative (settembre/ottobre 2025)
| Modello | MMLU Pro | ChartQA | DocVQA | LiveCodeBench | Contesto max | Costo medio per token |
|---|---|---|---|---|---|---|
| GPT-5 Chat | ~88.0 | ~94 | ~97 | ~84 | 128k | molto alto (~x20 Scout) |
| Gemini 2.5 Pro | ~85.5 | ~91 | ~95 | ~79 | 1M (stimato) | alto (~x15 Scout) |
| Claude 4.1 Opus | ~83 | ~93 | ~95 | ~76 | 200k | alto |
| Llama 4 Behemoth | ~85.8 | ~92 | ~94 | ? | ? | medio-alto |
| Llama 4 Maverick | ~78–80 | 90.0 | 94.4 | ~70 | 10M | basso (~x1) |
| Llama 4 Scout | ~76 | 88 | ? | ~65 | 10M | molto basso |
Nota: Le cifre sono tratte da fonti pubbliche, benchmark come Groq, LLMStats, ArtificialAnalysis, GalaxyAI. Alcuni valori sono stime su versioni ottimizzate. Il dato sul contesto è spesso teorico: in pratica, l’efficienza decresce con l’aumentare dei token.
Conclusioni
Llama 4 è, senza dubbio, uno degli sviluppi più interessanti dell’anno nel mondo degli LLM. Con la promessa di contesti lunghissimi, un’architettura MoE più efficiente e una spinta decisa verso la multimodalità, Meta ha messo sul piatto un progetto ambizioso e, per certi versi, rivoluzionario.
Ma non è tutto oro ciò che luccica: le limitazioni della licenza, le versioni benchmark ottimizzate e non pubbliche, la scarsa trasparenza sul dataset e le difficoltà tecniche nel portare questi modelli in ambienti produttivi ne ridimensionano la portata.
Llama 4 ha tutto per diventare il motore dell’AI open weight di prossima generazione, ma per ora non è il “nuovo GPT” e nemmeno lo vuole essere: gioca su un terreno diverso, dove il vantaggio è nella scalabilità autonoma, nella sperimentazione, nel controllo diretto. È uno strumento potente in mano a chi sa usarlo e ha l’infrastruttura per farlo. Ma chi cerca il meglio out-of-the-box, oggi, guarda ancora altrove.
In sintesi: è un progetto che apre possibilità, non soluzioni chiavi in mano. Chi cerca libertà, potenza e personalizzazione, troverà in Llama 4 un alleato. Chi cerca prestazioni plug-and-play e affidabilità assoluta, dovrà aspettare ancora.
