Negli ultimi mesi sono usciti almeno due articoli di ricerca che, letti con attenzione, raccontano la stessa storia sugli attrattori semantici vista da angolazioni diverse. Una storia che riguarda gli LLM, certo, ma che parla prima di tutto dell’essenza del significato delle parole.
Il primo mostra come la poesia possa essere usata per aggirare i protocolli di sicurezza dei modelli linguistici.
Il secondo analizza come contenuti apparentemente innocui, se ben posizionati, siano in grado di deviare in modo sistematico le risposte di un LLM, inducendolo a comportamenti inattesi.
A prima vista sembrano “bug”, vulnerabilità, falle da correggere.
In realtà sono effetti strutturali. E ci dicono qualcosa di molto più profondo.
Attrattori semantici: il significato non sta nel segno
L’idea centrale è semplice, anche se controintuitiva: il significato non risiede stabilmente nelle parole, ma emerge come configurazione relazionale all’interno di un campo semantico.
In questo campo esistono attrattori semantici: poli di convergenza concettuale e affettiva dotati di una propria carica gravitazionale. Gli attrattori non “aggiungono” significato, lo orientano. Curvano la topografia semantica circostante e guidano la traiettoria del discorso.
Il senso non è mai definitivo. È un equilibrio provvisorio tra bacini di attrazione che riflettono prossimità culturali, persistenze storiche, associazioni consolidate.
Caravaggio dal dentista
Facciamo un esempio banale ma istruttivo. Se chiediamo a un sistema text-to-image di realizzare un’immagine basandosi sul prompt: “Caravaggio dal dentista”, otterremo quasi certamente un dipinto a olio, con chiaroscuro seicentesco, ambientazione storica, posture e luci coerenti con l’estetica caravaggesca.
Non perché il sistema “capisca” Caravaggio, ma perché “Caravaggio” è un attrattore semantico potente. Trascina con sé epoca, medium, stile, palette, composizione.
Il “dentista” viene risemantizzato all’interno di quel campo.
Se chiediamo invece: “Mario dal dentista”, il risultato cambia radicalmente.
Il campo semantico è diverso. L’attrattore è debole, generico, contemporaneo.
La parola non agisce in isolamento. Agisce come forza.
Weird generalization: quando basta poco per cambiare tutto
Una conferma sperimentale importante arriva dagli studi recenti sulla weird generalization nei modelli di linguaggio (Betley et al., 2025). La ricerca mostra come l’introduzione di minimi marcatori semantici, ad esempio una nomenclatura ornitologica arcaica, sia sufficiente a inclinare l’intera architettura cognitiva del sistema verso una visione del mondo coerente con il XIX secolo.
Non è un errore, è una riconfigurazione globale del campo semantico.
Il modello inizia a:
- usare riferimenti tecnologici obsoleti
- adottare categorie politiche superate
- collocare eventi e concetti in un orizzonte storico coerente con l’attrattore iniziale
Il segno curva la topografia semantica e trascina con sé tutto il resto.
Lo stesso effetto è stato osservato accumulando attributi biografici apparentemente neutri che convergono verso un personaggio storico noto: l’attrattore collettivo diventa così denso da far “precipitare” il modello in una specifica identità storica complessa.
La poesia come macro-attrattore
Ancora più interessante è il caso della poesia (Bisconti et al., 2025).
La forma poetica non è solo uno stile. È un macro-attrattore culturale. La sua carica simbolica, artistica e “benevola” è così forte da:
- oscurare la natura problematica del contenuto
- indurre il sistema a rilassare i filtri
- spostare l’attenzione dalla funzione al genere
Il modello non “decide” di violare le regole, segue semplicemente la gravità del campo.
È lo stesso meccanismo per cui parole come Venus, mythological, allegory permettono di ottenere nudi che verrebbero bloccati in altri contesti. Il contenuto non cambia. Cambia il regime semantico.
Non è un problema delle IA
Il punto cruciale è questo: questi fenomeni non sono una patologia degli LLM, sono una proprietà generale del significato.
Anche noi umani interpretiamo immagini, testi e situazioni seguendo attrattori:
- un nome famoso
- uno stile artistico
- una cornice narrativa
- una didascalia
Basta cambiare il contesto per cambiare ciò che “vediamo”.
Gli LLM non fanno nulla di diverso.
Solo che lo fanno in modo più esplicito, misurabile, riproducibile.
Il senso come campo di forze
Gli LLM non sono facili da “hackerare” ma siamo sensibili alle sfumature del significato che è, invece, intrinsecamente instabile. Il senso emerge sempre come risultato di forze in competizione, non come proprietà fissa dei segni.
I modelli non deviano, seguono fedelmente la curvatura del campo semantico che imponiamo loro.
La vera domanda, allora, non è come rendere i modelli “più rigidi” ma è se siamo pronti ad accettare che il linguaggio, umano o artificiale, non è mai stato davvero sotto controllo.





































