- È una violazione del copyright?
- Scene a confronto
- ➥ Prompt 1: "Un primo piano di un robot che lavora seduto ad una scrivania in una foresta fitta"
- ➥ Prompt 2: "Enorme foresta ricoperta di vegetazione in fiamme che vengono estinte dai vigili del fuoco"
- ➥ Prompt 3: "L'Empire State Building, in stile Edward Hopper"
- Considerazioni
- 🏆 Migliore in assoluto: Midjourney
- 🧑🎨 Più facile da usare: Stable Diffusion
- 🏁 Il migliore per cominciare: DALL-E
L’Intelligenza Artificiale (AI) è sicuramente una delle tecnologie più entusiasmanti e fraintese degli ultimi tempi. Quest’anno ha visto l’avvento di ChatGPT, un chatbot AI in grado di rispondere alle domande, sicuramente la più nota. Pochi parlano, però, della capacità dell’AI di generare immagini. Ecco tre dei migliori generatori di immagini con cui sperimentare.
I tre generatori di immagini in questione sono Midjourney, DALL-E e Stable Diffusion. Ogni generatore ha i suoi vantaggi e svantaggi intrinseci, ma ti consigliamo di non allontanarti da loro se vuoi creare un’arte AI di alta qualità.
È una violazione del copyright?
Non ci vuole molta ricerca per realizzare che tutti questi programmi comprendono l’arte attraverso l’apprendimento automatico: algoritmi che si limitano a riconoscere schemi e beh… non molto altro. Sono addestrati usando l’arte creata dagli umani? SÌ. Quindi copiano il lavoro altri? Non proprio.
È importante notare che l’intelligenza artificiale non si limita a fare copia e incolla del lavoro di altri artisti in un gigantesco mashup. Il problema chiave qui è l’intelligenza artificiale generativa in grado di replicare gli stili degli artisti, il che è già possibile utilizzando il programma chiamato Midjourney. Al momento, non c’è ancora un sì o un no definitivo sul fatto che questi programmi di intelligenza artificiale generativa siano dalla parte giusta o sbagliata della legge, anche se sappiamo che le immagini generate dall’IA non possono essere protette da copyright.
Detto questo, la resistenza alle innovazioni nell’arte non è una novità. Questo movimento di presa in carico dell’IA ricorda la reazione dei pittori all’avvento della fotografia negli anni ’20 dell’Ottocento; la maggior parte di loro era indignata, ma ebbe anche una forte influenza sui pittori impressionisti che vennero spinti oltre il limite ad accettare la fotografia come il mezzo migliore per catturare i momenti fugaci della vita. Questo in realtà ha permesso loro di spingersi ulteriormente nella zona funk con il loro stile per completare la fotografia invece di competere con essa. Divertente pensare che questo controverso nuovo mezzo abbia effettivamente aperto opportunità per i pittori di essere più creativi.
Scene a confronto
Abbiamo fornito a ciascun generatore di immagini tre suggerimenti per confrontare la loro capacità di creare scene diverse. Il primo mirava non solo a valutare la capacità di creare forme umane, ma anche alberi, foreste e scenari di illuminazione complessi.
È importante notare che le forme umane (pensa a cose come il viso, le mani, le braccia e le gambe) sono ancora molto difficili da produrre realisticamente per l’IA.
➥ Prompt 1: “Un primo piano di un robot che lavora seduto ad una scrivania in una foresta fitta”
- Midjourney: è chiaro che Midjourney ha prodotto oggettivamente la migliore immagine. Non solo è l’unica resa che tenta persino di replicare complesse caratteristiche umane, ma lo fa con livelli di dettaglio impressionanti. Per non parlare della “foresta fitta” dietro il nostro robot, che mostra molta profondità e complessità; nota che gli elementi in primo piano sono a fuoco e lo sfondo è bello e morbido, proprio come si otterrebbe da una fotografia.
- Stable Diffusion (Dream Studio): a prima vista, questo rendering semplicemente non è allo stesso livello del lavoro di Midjourney. Se guardi da vicino, non fa nemmeno un tentativo di rendere le mani umane. Tuttavia, la stratificazione dell’immagine (primo piano, piano intermedio e sfondo) è in realtà molto forte e anche la foresta non è poi così male. Direi addirittura che la composizione, o l’inquadratura dell’immagine, è altrettanto buona se non migliore della prima.
- DALL-E: Mentre le prime due immagini erano straordinariamente positive, la resa del robot da parte di DALL-E lasciava molto a desiderare. Non solo il robot è un completo disastro – devi fare attenzione per trovare le braccia e le gambe – ma anche la foresta e le condizioni di illuminazione sono basilari, piatte e decisamente poco interessanti.
L’obiettivo della seconda scena era mostrare la capacità di ciascun programma di generare una situazione di illuminazione complessa, ad esempio un incendio boschivo. Tuttavia, mentre la capacità di generare il colore, il calore, il riflesso e persino l’alone del fuoco è eccezionale, non è tutto ciò che serve per ottenere un rendering fotorealistico. L’altro obiettivo di questo prompt era dimostrare la capacità di eseguire il rendering di oggetti in fiamme. Gli alberi si evolvono parecchio mentre bruciano, lasciando scintille e braci e una quantità colossale di fumo. Dei tre diversi confronti direi che le differenze tra le tre immagini sono più profonde in questa scena.
➥ Prompt 2: “Enorme foresta ricoperta di vegetazione in fiamme che vengono estinte dai vigili del fuoco”
- Midjourney: non ci sono premi per chi indovina quale immagine è stata prodotta da Midjourney. Ogni volta che guardo questo capolavoro noto qualcosa di nuovo. La complessità dei particolare lo porta al livello successivo; le fiamme stesse sono integrate da scintille e foschia di calore, che aggiungono drammaticità all’immagine. Per non parlare del fatto che sembra essere una giornata piuttosto ventosa: per fortuna questo è un rendering e non la realtà.
- Stable Diffusion: Sicuramente le fiamme ci sono ma appaiono estremamente semplici rispetto all’immagine numero 1. Questo è l’esempio perfetto di ciò che separa una buona immagine da una grande immagine.
- DALL-E: A differenza degli altri due, l’interpretazione dell’incendio boschivo di DALL-E lascia molto a desiderare. Potremmo sembrare troppo duri, ma se pensiamo che DALL-E è un servizio a pagamento (come gli altri due) questo livello di prestazioni è decisamente deludente.
➥ Prompt 3: “L’Empire State Building, in stile Edward Hopper”
- Midjourney: Sono rimasto particolarmente sbalordito dalla sua capacità di rendere lo stile di Hopper qui. Il risultato è super compatto in quanto l’immagine finale è ben assemblata e colpisce tutte le note giuste. Oltre a inchiodare lo stile, è un’immagine che ha una buona quantità di livelli; notate la persona e la scala in primo piano, altri edifici al centro e l’Empire State Building sullo sfondo. È anche l’unica immagine che mostra il punto di riferimento dal livello del suolo.
- Stable Diffusion: Mantenendo lo schema delle scene precedenti, Stable Diffusion si è avvicinato all’aspetto di Hopper, ma il risultato non è all’altezza della versione di Midjourney: la composizione è molto più semplice. La gamma dinamica (la capacità di replicare le parti più scure e più luminose dell’immagine) è ancora abbastanza buona.
- DALL-E: Dato lo stile pittorico che abbiamo visto da DALL-E, non sono stato molto sorpreso di vedere che il suo lavoro in questo caso è stato davvero impressionante.
Considerazioni
🏆 Migliore in assoluto: Midjourney
Midjourney è il generatore di immagini AI più avanzato che abbiamo testato. Non solo ha prodotto la massima fedeltà visiva, ma ha anche prodotto un’anatomia umana altrettanto impressionante (ovvero: mani, piedi, gambe e braccia), gamma dinamica, trame e composizione relative ai generatori testati. Tuttavia, questi risultati spettacolari sono stati i più difficili da raggiungere, con una curva di apprendimento ripida ma gratificante da superare.
La curva di apprendimento è ripida, ma è importante ricordare che l’ultima versione di Midjourney ha prodotto risultati sorprendenti fin dall’inizio. La chiave è imparare i comandi e le parole chiave giusti per ottenere l’ultimo 10 percento dalla tua immagine. Una volta che ha capito il tuo suggerimento, Midjourney ti consente di aggiungere idee separate – puoi dividerle usando le virgole – per darti più libertà di creare l’immagine che desideri. Ad esempio, di seguito troverai il prompt esatto utilizzato per la prima scena renderizzata in Midjourney.
Mentre siamo rimasti molto colpiti da Midjourney, non è perfetto. Non solo è il più difficile da istruire, ma è anche il più costoso. All’inizio riceverai 25 “token” gratuiti prima di dover pagare un abbonamento mensile; questi sono disponibili in due livelli con $ 10 al mese che ti danno circa 200 rendering al mese mentre $ 30 ti danno query illimitate.
🧑🎨 Più facile da usare: Stable Diffusion
Stable Diffusion (SD) è di gran lunga il generatore di immagini AI più semplice da utilizzare. Sebbene non sia collaborativo come Midjourney, abbiamo utilizzato Dream Studio, che consente di interagire con Stable Diffusion utilizzando un’interfaccia visiva che ha legittimamente senso. Non ci sono comandi complessi o sintassi da imparare per ottenere l’immagine finale che desideri.
Stable Diffusion semplifica anche la modifica dei rendering che hai già realizzato. Sì, puoi farlo in Midjourney ma il processo è un po’ contorto e non ti dà alcun controllo su dove prendere l’immagine. Ad esempio, ho preso l’immagine dell’Empire State Building qui sotto e ho aggiunto alcuni tag per cambiare l’ora del giorno dal tramonto all’alba. Puoi vedere, la composizione dell’immagine è in gran parte la stessa con solo un po’ più di calore e luce nella seconda immagine.
Sarebbe negligente non menzionare che per questo articolo è stata usata l’ultima versione SDXL Beta di Stable Diffusion. A differenza di Midjourney, che viene pagato come servizio in abbonamento, Stable Diffusion utilizza un sistema di token in cui $ 15 ti faranno ottenere circa 7.500 immagini.
🏁 Il migliore per cominciare: DALL-E
DALL-E è implementato dalla stessa azienda di ChatGPT (Open AI). All’inizio, le immagini prodotte da DALL-E non erano poi così impressionanti, specialmente per un servizio a pagamento in cui gli utenti consumano token per ogni rendering.
La risoluzione massima di (1024 x 1024 pixel) è paragonabile ai migliori generatori in circolazione. Tuttavia, le immagini finali non riescono a fornire la stessa fedeltà visiva delle altre AI. La maggior parte del lavoro di DALL-E appare più pittorico rispetto a Midjourney e Stable Diffusion.
Per offrire una prospettiva, $ 15 in crediti ti danno circa 400 rendering.