Eidolon: come abbiamo fatto funzionare gpt oss 120B su un computer normale

Eidolon è una piattaforma che permette di eseguire in locale modelli di testo, oppure generativi di musica, immagini e video, direttamente sul proprio computer

By Massimo Zito

10 Dicembre 2025

0

115

Indice

Cos’è Eidolon? Un AI Hub domestico, totalmente offline
Il cuore del progetto: far girare modelli enormi in locale
Come abbiamo fatto: spiegato in modo semplice
Perché questo è importante?
Cosa può già fare Eidolon oggi
Perché crediamo nell’AI offline
- Perché kickstarter
Conclusione
- Bonus: cos'è la quantizzazione

Negli ultimi anni l’intelligenza artificiale è diventata parte del nostro quotidiano, ma è rimasta sempre legata a un limite fondamentale: vive nel cloud e l’utente non ha nessun vero controllo sul destino dei dati raccolti attraverso le interazioni con i vari modelli.
Ogni volta che chiediamo qualcosa a un modello, i nostri dati viaggiano su server esterni. È comodo, certo. Ma è anche:

costoso,
lento,
non controllabile dall’utente,
dipendente da aziende e abbonamenti,
spesso poco trasparente.

Con Eidolon, il nostro obiettivo è ribaltare completamente questo modello di utilizzo.

Cos’è Eidolon? Un AI Hub domestico, totalmente offline

Eidolon è una piattaforma che permette di eseguire in locale modelli di testo, oppure generativi di musica, immagini e video, direttamente sul proprio computer.

Inizialmente era stato pensato per avere in locale modelli opensource che potessero essere eseguiti anche su pc normali, per cui ci eravamo rivolti a modelli relativamente modesti da 4/7 miliardi di parametri, ovvero con un addestramento molto meno vasto dei cari CHAT GPT, Claude, Gemini, eccetera, modelli grado di fare molto ma con alcune evidenti lacune.

I vantaggi erano evidenti:

Niente cloud.
Nessun abbonamento.
Nessuna raccolta di dati.

Tutto quello che veniva generato dall’AI restava fisicamente nel proprio dispositivo.

Questa non era solo una questione di privacy: era un nuovo modo di usare l’AI.
L’AI non più come “servizio esterno”, ma strumento di lavoro personale, come una DAW, un IDE o un software di grafica, con la possibilità di usare i grandi modelli pubblici solo quando quelli piccoli “in locale” moostravano i propri limiti.

C’è da dire che per le necessità medie delle persone un modello 4B o 7B è più che adeguato, come nelle automobili, una Smart fa lo stesso lavoro di un SUV anzi, nel traffico cittadino spesso la Smart è più comoda del SUV, quello che cambia è la percezione dell’utente di avere uno strumento che faccia più omeno status.

Per le IA è all’incirca la stessa cosa.

Il cuore del progetto: far girare modelli enormi in locale

Però, a fronte della comodità di far girare un modello piccolo in un pc datato, è indubbio che per un uso professionale spinto un modello grande da 27, 70 o più miliardi di parametri di addestramento è meglio, sia per la maggiore capacità di ragionamento che la maggiore quantità di dati da cui pescare le informazioni.

Abbiamo così deciso di dimostrare che l’AI offline non è una limitazione, abbiamo fatto un esperimento che fino a poco tempo fa sembrava impossibile:

far girare in locale GPT‑OSS 120B, un modello da 120 miliardi di parametri rilasciato da OpenAI e derivato direttamente dai modelli chat gpt 4+ con alcuni miglioramenti che poi sono stati inseriti nei modelli della classe 5.

Modelli di questa classe erano considerati eseguibili solo in datacenter o su macchine particolarmente performanti costruite ad hoc.
Eppure siamo riusciti a farlo funzionare su una workstation domestica avanzata.

Come abbiamo fatto: spiegato in modo semplice

Anche se il modello è enorme, le tecniche moderne permettono di farlo girare su hardware consumer.

Ecco le ottimizzazioni chiave (spiegate per tutti):

Quantizzazione — “comprimere” senza distruggere la qualità

Un modello in alta precisione occuperebbe centinaia di GB, impossibile per un PC domestico.
La quantizzazione riduce la precisione dei numeri con cui il modello ragiona.

Da FP16 → INT8 → fino a INT4.

È un po’ come passare da un file audio WAV a un MP3 di alta qualità:
più leggero, più veloce, qualità quasi identica.

Risultato:
GPT‑OSS 120B diventa caricabile in RAM + VRAM combinate.

GPU + CPU insieme — non serve solo la scheda video

Eidolon utilizza sistemi software particolarmente evoluti per distribuire il lavoro “spacchettando” un modello grande:

i pezzi più pesanti vanno sulla GPU,
altri layer vengono eseguiti dalla CPU,
e alcuni segmenti vengono caricati “al volo” solo quando servono.

Questo riduce la richiesta di VRAM e sfrutta tutta la macchina.

Offloading su NVMe — il disco come estensione della memoria

Inolte, grazie ai moderni SSD, velocissimi, è possibile usare il disco come “memoria aggiuntiva”.

È una tecnica che fino a qualche anno fa era troppo lenta, ma oggi funziona sorprendentemente bene.

Runtime ottimizzati

Eidolon usa librerie moderne come:

ggml
exllama
vLLM localizzato

che trasformano modelli giganteschi in eseguibili davvero utilizzabili da chiunque abbia una workstation seria.

Perché questo è importante?

Perché dimostra tre cose fondamentali:

L’AI offline è davvero possibile, anche con modelli enormi

Non è più necessario dipendere dal cloud per avere potenza generativa avanzata.

L’utente torna padrone della propria AI

Tutti i dati restano in locale.
Niente abbonamenti, niente limiti, niente rischi di leak.

Si apre un nuovo mercato: l’AI domestica personalizzabile

Eidolon non è un modello singolo:
è un hub che permette di combinare modelli diversi per:

scrivere testi,
generare video,
comporre musica,
creare NPC per RPG,
sviluppare agenti offline,

tutto senza connessioni esterne.

Cosa può già fare Eidolon oggi

Grazie all’integrazione di modelli open-source, Eidolon è capace di generare:

clip video con WAN 2.0 e LTX Video,
generare immagini di altissima qualità utilizzando ComfyUI con Z-image turbo, Stable Diffusion o flux 1.0
musica con MusicGen e altri modelli addestrati su musica libera da diritti di autore,
testi complessi con GPT‑OSS 20B e 120B,
analizzare documenti ed immagini
agenti AI autonomi offline,
interfacce multimodali private,
personaggi conversazionali per giochi o storytelling,
conversare con l’utente capendo i comandi vocali e rispondendo nello stesso modo.

E tutto questo senza inviare un solo byte fuori dal tuo computer.

Perché crediamo nell’AI offline

L’AI centralizzata ha dominato il mercato per anni, ma non può essere l’unica strada.

L’AI del futuro sarà:

locale,
personalizzata,
privata,
potente,
modulare,
integrata negli strumenti creativi quotidiani.

Eidolon vuole essere un ponte verso questa nuova fase.

Perché kickstarter

Gran parte del lavoro di sviluppo che abbiamo fatto su Eidolon è oggi completato ma ci siamo resi conto che per distribuire i moduli (chat professionali, chat per l’intrattenimento, generazione immagini, generazioni video, generazione brani musicali) sarà necessario moltissimo spazio web dove ospitare modelli che pesano da 1 a 120 gigabyte e una velocità di download accettabile, serve un servizio particolarmente performante. Noi siamo un’associazione culturale no profit e non disponiamo dei mezzi per garantire tutto questo, da qui la campagna su Kickstarter atta a reperire i fondi minimi per organizzare tutto questo.

Se vuoi capire davvero dove sta andando l’IA domestica, non restare a guardare. Segui il progetto Eidolon, iscriviti alla lista di pre-lancio e scopri fin dove può arrivare un sistema di IA offline, privato e totalmente sotto il controllo dell’utente.
Eidolon è fatto per essere usato, esplorato e messo alla prova. Entra ora e contribuisci a costruire la prossima generazione di intelligenza artificiale personale.

Conclusione

Siamo passati in pochi anni dalle demo “filosofiche” di GPT‑3 — che sembravano quasi fantascienza — a un’AI concreta, utilizzabile, installabile sul proprio PC.

E ora possiamo eseguire modelli enormi in locale.
Non è teoria: lo abbiamo fatto.

Eidolon nasce da questa convinzione:

l’intelligenza artificiale non deve vivere nel cloud.
L’intelligenza artificiale può vivere con te.

Bonus: cos’è la quantizzazione

La quantizzazione è un preocesso che permette di avere lo stesso potere computazionale di un modello grande centinaia di miliardi di parametri in un dispositivo limitato e che consuma meno energia di una lampadina. Questo è, in sostanza, ciò che la quantizzazione degli LLM (Large Language Models) fa per il mondo dell’intelligenza artificiale.

La quantizzazione è un processo che permette di ridurre la precisione dei modelli , convertendo i pesi del modello da una precisione più alta, come 32 bit, a una precisione inferiore, come 8 bit o addirittura 4 bit. Questo processo riduce drasticamente le dimensioni del modello e i requisiti di calcolo, rendendo possibile l’esecuzione di complessi modelli linguistici su hardware più modesti senza perdere significativamente in accuratezza.

Ma perché è importante? Con l’aumento esponenziale della dimensione dei modelli linguistici e dei loro requisiti computazionali, la quantizzazione diventa essenziale per renderli accessibili e utilizzabili in contesti più ampi, dai dispositivi mobili alle applicazioni industriali.

Articolo precedente

Dovremmo prepararci per un’apocalisse di Internet causata dal sole

Articolo successivo

Regali di Natale 2025 per lei: l’eleganza consapevole che fa la differenza

Eidolon: come abbiamo fatto funzionare gpt oss 120B su un computer normale

Cos’è Eidolon? Un AI Hub domestico, totalmente offline

Il cuore del progetto: far girare modelli enormi in locale

Come abbiamo fatto: spiegato in modo semplice

Quantizzazione — “comprimere” senza distruggere la qualità

GPU + CPU insieme — non serve solo la scheda video

Offloading su NVMe — il disco come estensione della memoria

Runtime ottimizzati

Perché questo è importante?

L’AI offline è davvero possibile, anche con modelli enormi

L’utente torna padrone della propria AI

Si apre un nuovo mercato: l’AI domestica personalizzabile

Cosa può già fare Eidolon oggi

Perché crediamo nell’AI offline

Perché kickstarter

Conclusione

Bonus: cos’è la quantizzazione

Viaggi e Vacanze

Alimentazione e Salute

Giochi

Local AI & Opensource

Software

Editoriali

Attualità

Essere donna

tech News & Analysis

Antropologia

UFO, Misteri & Bufale

Informatica & Cibernetica

Guide

Category

Su di noi

FOLLOW US