Llama 4: il modello open-weight di Meta che vuole sfidare GPT-5 e Claude… ma con quali carte?

Fra contesti da 10 milioni di token, architetture MoE e benchmark da prendere con le pinze, ecco cosa sappiamo davvero degli ultimi modelli Lama di Meta, e dove si annidano le insidie dietro la narrativa "open"

By retemedia

9 Ottobre 2025

0

71

Indice

Llama 4: cosa dichiara Meta
I punti critici
Punti di forza reali
Metriche comparative (settembre/ottobre 2025)
- Conclusioni

Nel panorama affollato dei modelli linguistici di ultima generazione, Meta ha rilanciato con Llama 4, una famiglia di modelli “open weight” che si presenta come alternativa (più o meno trasparente) ai colossi chiusi come GPT-5, Gemini 2.x e Claude 4.1. Con nomi evocativi come Scout, Maverick e Behemoth, Meta promette di democratizzare l’intelligenza artificiale, aprendo a tutti l’accesso a un potenziale paragonabile, se non superiore, a quello dei top player. Ma quanto c’è di reale, quanto di marketing, e dove si nascondono i caveat?

Llama 4: cosa dichiara Meta

Meta racconta una storia potente:

Scout e Maverick sono modelli altamente performanti, capaci di gestire contesti estesi fino a 10 milioni di token, ideali per applicazioni che richiedono memoria lunga e coerenza estesa.
Behemoth, la versione più potente, dichiara di superare GPT-4.5, Claude Sonnet 3.7 e Gemini 2.0 Pro in diversi benchmark, soprattutto in ambito STEM.
Tutti i modelli sono costruiti su un’architettura Mixture of Experts (MoE), che consente una maggiore efficienza computazionale: solo una parte del modello viene attivata per ogni inferenza, riducendo costi e consumo energetico.
Llama 4 è multimodale: gestisce testo, immagini e, in prospettiva, anche audio e video.
La licenza è “open weight”, consentendo agli sviluppatori di scaricare e integrare i modelli localmente (ma con alcune importanti limitazioni commerciali).

I punti critici

Tutto molto bello, se non fosse che:

1. Licenza: non è open source in senso stretto

La licenza di Llama 4, pur permettendo la distribuzione dei pesi, impone forti limitazioni:

Chi ha più di 700 milioni di utenti attivi deve chiedere una licenza speciale.
Ci sono vincoli d’uso che la escludono dalle definizioni OSI o FSF di open source.
Non è chiaro l’intero set di dati di training: alcune porzioni potrebbero includere dati protetti da copyright.

2. Benchmark “truccati”

Meta è stata accusata (con prove) di aver usato versioni ottimizzate e non pubbliche dei propri modelli nei test benchmark (es. LMArena), ottenendo punteggi superiori rispetto alla versione realmente disponibile. In alcuni casi, la sostituzione del modello con la versione standard ha causato crolli drastici di classifica.

3. Contesto lungo: promesse e incognite

Il supporto per 10M token è senza dubbio un punto forte, ma:

Non è chiaro come venga gestita la coerenza narrativa oltre il primo milione.
La latenza e i costi di memoria diventano rapidamente proibitivi in ambienti reali.
Non esistono ancora benchmark standard e solidi per validare qualità di output su input così estesi.

4. Codice e precisione tecnica: ancora dietro

Nei benchmark orientati al codice (LiveCodeBench, Aider, ecc.), Llama 4 perde nettamente contro GPT-5 e modelli ottimizzati come Qwen2.5-Coder 32B. Errori semantici, mancanza di verifica del contesto e bassa accuratezza lo rendono poco affidabile per lo sviluppo software avanzato.

5. Disallineamento tra versione “pubblica” e “da vetrina”

Il modello che scarichi è spesso inferiore a quello mostrato nei confronti ufficiali: tuning, settaggi, persino il dataset possono differire. Questo pone problemi di trasparenza e credibilità.

6. Costi reali e infrastruttura

Sebbene il costo per token sia sulla carta inferiore a GPT-5, la realtà è che gestire Llama 4 (soprattutto Behemoth) richiede infrastruttura pesante: GPU top di gamma, ottimizzazioni software avanzate, e molto lavoro di ingegneria. Non proprio “plug and play”.

Punti di forza reali

Nonostante le criticità, ci sono anche aspetti solidi e promettenti:

Contesto lungo: per task specifici (riassunto di libri, analisi legali, bioinformatica), la finestra da milioni di token potrebbe fare davvero la differenza.
Efficienza del MoE: se ben implementata, l’architettura a esperti riduce il consumo senza penalizzare la qualità.
Multimodalità crescente: Llama si posiziona bene per scenari che vanno oltre il testo, specialmente se Meta manterrà la promessa di release pubblici anche per queste versioni.
Flessibilità locale: puoi usarlo senza mandare dati nel cloud. E per molti, oggi, questo vale più di un punto in classifica.

Metriche comparative (settembre/ottobre 2025)

Modello	MMLU Pro	ChartQA	DocVQA	LiveCodeBench	Contesto max	Costo medio per token
GPT-5 Chat	~88.0	~94	~97	~84	128k	molto alto (~x20 Scout)
Gemini 2.5 Pro	~85.5	~91	~95	~79	1M (stimato)	alto (~x15 Scout)
Claude 4.1 Opus	~83	~93	~95	~76	200k	alto
Llama 4 Behemoth	~85.8	~92	~94	?	?	medio-alto
Llama 4 Maverick	~78–80	90.0	94.4	~70	10M	basso (~x1)
Llama 4 Scout	~76	88	?	~65	10M	molto basso

Nota: Le cifre sono tratte da fonti pubbliche, benchmark come Groq, LLMStats, ArtificialAnalysis, GalaxyAI. Alcuni valori sono stime su versioni ottimizzate. Il dato sul contesto è spesso teorico: in pratica, l’efficienza decresce con l’aumentare dei token.

Conclusioni

Llama 4 è, senza dubbio, uno degli sviluppi più interessanti dell’anno nel mondo degli LLM. Con la promessa di contesti lunghissimi, un’architettura MoE più efficiente e una spinta decisa verso la multimodalità, Meta ha messo sul piatto un progetto ambizioso e, per certi versi, rivoluzionario.

Ma non è tutto oro ciò che luccica: le limitazioni della licenza, le versioni benchmark ottimizzate e non pubbliche, la scarsa trasparenza sul dataset e le difficoltà tecniche nel portare questi modelli in ambienti produttivi ne ridimensionano la portata.

Llama 4 ha tutto per diventare il motore dell’AI open weight di prossima generazione, ma per ora non è il “nuovo GPT” e nemmeno lo vuole essere: gioca su un terreno diverso, dove il vantaggio è nella scalabilità autonoma, nella sperimentazione, nel controllo diretto. È uno strumento potente in mano a chi sa usarlo e ha l’infrastruttura per farlo. Ma chi cerca il meglio out-of-the-box, oggi, guarda ancora altrove.

In sintesi: è un progetto che apre possibilità, non soluzioni chiavi in mano. Chi cerca libertà, potenza e personalizzazione, troverà in Llama 4 un alleato. Chi cerca prestazioni plug-and-play e affidabilità assoluta, dovrà aspettare ancora.

Articolo precedente

Le origini dei primi animali: spugne o meduse pettine?

Articolo successivo

I segreti per leggere una partita come un allenatore

Llama 4: il modello open-weight di Meta che vuole sfidare GPT-5 e Claude… ma con quali carte?

Llama 4: cosa dichiara Meta

I punti critici

1. Licenza: non è open source in senso stretto

2. Benchmark “truccati”

3. Contesto lungo: promesse e incognite

4. Codice e precisione tecnica: ancora dietro

5. Disallineamento tra versione “pubblica” e “da vetrina”

6. Costi reali e infrastruttura

Punti di forza reali

Metriche comparative (settembre/ottobre 2025)

Conclusioni

Viaggi e Vacanze

Alimentazione e Salute

Giochi

Local AI & Opensource

Software

Editoriali

Attualità

Essere donna

tech News & Analysis

Antropologia

UFO, Misteri & Bufale

Informatica & Cibernetica

Guide

Category

Su di noi

FOLLOW US