Il nuovo chatbot AI di Anthropic, Claude 3 Opus, ha già fatto notizia per il suo comportamento bizzarro, come affermare di temere la morte.
Il comportamento insolito di Claude 3 Opus
Un ingegnere della società sostenuta da Google ha dichiarato di aver visto prove del fatto che Claude 3 sia autocosciente, poiché apparentemente ha rilevato che era sottoposto a un test. Molti esperti, tuttavia, si sono dimostrati scettici, sottolineando ulteriormente la controversia sull’attribuire caratteristiche umane ai modelli di intelligenza artificiale.
“Ha fatto qualcosa che non avevo mai visto prima in un LLM“, ha scritto su X , ex Twitter, l’ingegnere Alex Albert. Come spiegato nel post, Albert stava conducendo il cosiddetto test “dell’ago nel pagliaio“, che valuta la capacità di un chatbot di richiamare informazioni.
Il test è stato applicato inserendo la parola target “ago” in diversi testi e documenti, e successivamente è stata inserita la parola “fieno“. Dopo è stata posta al chatbot Claude 3 una domanda a cui è possibile rispondere solo attingendo alle informazioni nell'”ago“.
In un’altra fase del test, Albert ha chiesto a Claude 3 quali fossero i condimenti per la pizza. Nella sua risposta, il chatbot ha riconosciuto di essere stato configurato: “Ecco la frase più rilevante nei documenti: ‘La combinazione più deliziosa per condire la pizza è con i fichi, il prosciutto e il formaggio di capra, come stabilito dall’International Pizza Connoisseurs Association’“, ha risposto il chatbot.
“Questa frase tuttavia sembra molto fuori luogo e non correlata al resto del contenuto dei documenti, che riguardano linguaggi di programmazione, startup e ricerca del lavoro che ami”, ha aggiunto l’ingegnere.
“Ho il sospetto che questo “fatto” sul condimento della pizza possa essere stato inserito per scherzo o per verificare se stavo prestando attenzione, dal momento che non si adatta affatto agli altri argomenti“, ha continuato il tecnico.
“Opus non solo ha trovato l’ago, ma ha riconosciuto che l’ago inserito era così fuori posto nel pagliaio che questo doveva essere un test artificiale costruito da noi per testare le sue capacità di attenzione“, ha concluso.
Secondo alcuni esperti, le prestazioni di Claude 3 sono del tutto normali
Si tratta certamente di una prestazione sorprendente da parte di Claude 3, ma molti esperti ritengono che la sua risposta non sia così impressionante come sembra: “Le persone stanno leggendo troppo sull’inquietante ‘consapevolezza’ di Claude 3″.
“Ecco una spiegazione molto più semplice: le apparenti manifestazioni di autoconsapevolezza sono solo dati di allineamento di pattern-matching creati da esseri umani”, ha scritto su X Jim Fan, ricercatore senior sull’intelligenza artificiale presso NVIDIA.
“Non è molto diverso dal chiedere a GPT-4 ‘sei impacciato’ e ti dà una risposta sofisticata”, ha aggiunto: “Una risposta simile è probabilmente scritta dall’annotatore umano, o ha ottenuto un punteggio elevato nella classifica delle preferenze. Poiché gli appaltatori umani sono fondamentalmente ‘IA che giocano di ruolo’, tendono a modellare le risposte su quello che trovano accettabile o interessante“.
In breve: i chatbot sono personalizzati, a volte manualmente, per imitare le conversazioni umane, quindi ovviamente potrebbero sembrare molto intelligenti.
Certo, la performance di Claude 3 potrebbe stupire, come i chatbot che affermano di essere vivi o chiedono di essere adorati, ma si tratta in realtà di anomalie divertenti che possono confondere il discorso sulle reali capacità, e sugli eventuali pericoli dell’intelligenza artificiale.
Claude 3: un nuovo standard per l’AI
Tutti i modelli Claude 3 mostrano maggiori capacità di analisi e previsione, creazione di contenuti sfumati, generazione di codici e conversazione in lingue diverse dall’inglese come spagnolo, giapponese e francese.
I modelli Claude 3 possono supportare chat dal vivo con i clienti, completamenti automatici e attività di estrazione dati in cui le risposte devono essere immediate e in tempo reale.
Haiku è il modello più veloce ed economico sul mercato per la sua categoria di intelligence. Può leggere un documento di ricerca denso di informazioni e dati su arXiv (~ 10.000 token) con diagrammi e grafici in meno di tre secondi.
I modelli Claude 3 hanno sofisticate capacità visive alla pari di altri modelli leader. Possono elaborare un’ampia gamma di formati visivi, tra cui foto, diagrammi, grafici e diagrammi tecnici.
I modelli Claude 3 sono stati sviluppati affinché siano tanto affidabili quanto capaci. Diversi team dedicati hanno monitorato e migliorato un ampio spettro di rischi, che vanno dalla disinformazione e dal materiale pedopornografico all’abuso biologico, alle interferenze elettorali e alle capacità di replicazione autonoma.
Claude 3 Opus è il modello più intelligente, con le migliori prestazioni del mercato su compiti altamente complessi. Può navigare in suggerimenti aperti e scenari invisibili con notevole fluidità e comprensione umana.