Mentre sceglievo che scheda video comprare, leggevo che anche quelle midrange della precedente (e conseguentemente, di questa generazione ) sono in grado di dire qualcosa nello spazio della generazione contenuti.
Intro
Una rapida googlata, e pare che Nod.ai abbia sviluppato e reso opensource una distribuzione di “software per machine learning” - SHARK.
Ok, metto in moto e dopo qualche minuto di download del model di Stable Diffusion 1.4 (alcuni gigabyte)… faccio qualche test.
a giant japanese mecha, in outer space, firing an energy beam
…wow. Cioè, ecco, che schifo.
Faccio altre due tre prove, risultati completamente insoddisfacenti
una guida sulla generazione di prompt dopo…
Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha, artstation, highly detailed, sharp focus, sci-fi, stunningly beautiful, dystopian, iridescent gold, cinematic lighting, dark
e poi, infine, scopro che ci sono modelli diversi, con bias diversi, adatti a generare tipi di immagine diversi.
Sylvester Stallone as a rugged fighter, in a karate pose, leather jacket, digital painting, anime, fantasy, Surrealist, full body, by Henry Asencio, artstation, highly detailed, sharp focus, post-apocalyptic, dystopian, black, cinematic lighting, dark
Poi riprovo mettendo Eva Greene al posto di Sylvester Stallone e…
e si iniziano a vedere i bias forti del modello che ho usato, questo non ha idea di chi sia Eva Greene.
Infine, provo con un model basato sullo stile artistico si un certo artista (Greg Rutkowski, https://www.artstation.com/rutkowski, perdonate l’ignoranza ma non so chi sia)
a photo of a flying ship, soaring over the ocean, in a sunny day, clear skies, steampunk, magic, fantasy, digital art, hyperrealistic, highly detailed, sharp focus, metal
Avevo detto… flying… vabè.
Ok, test run conclusa.
(Di queste che vi mostro, in realtà avevo fatto una decina di immagini alla volta ed ho presentato solo la roba più significativa.)
Ora, niente di non già visto, se non fosse che questa roba l’ha generata tutta il mio pc usando roba che sta su github e su CivitAI, un archivio di modelli trainati.
Provo a strutturare questo thread come WIP che possa essere vagamente utile ad approfondire la cosa.
DISCLAIMER PERSONALE ENORME.
Nei prompt che ho usato c’è il nome di un artista che mette materiale su Artstation, perché tale informazione contribuisce a fornire maggior accuratezza a cosa la generazione debba creare; a me fa veramente senso e disturba tantissimo il fatto che questa sia un’azione non solo consentita ma addirittura consigliata; peggio ancora, che analogo risultato sia ottenibile via costruzione di un modello ad hoc senza il consenso dell’artista.
Questa roba va normata, in qualche modo, prima di subito anche se sono molto pessimista al riguardo.
Link a: cosa cazzo stiamo facendo di preciso con questa roba?
Hardware
WIP
Per ora accontentatevi della sensazione che ho riscontrato: per NVIDIA la situazione è molto su binari quindi servono driver specifici; per AMD e Silicon la situazione è emergente e quindi c’è più buzz.
Per quanto riguarda AMD serve solo aver installato Adrenalin.
Discorso performance, la mia 7800xt fa circa 5 iterazioni per secondo ed i setting standard vogliono immagini da 50 iterazioni, ma ancora devo vedere degli output per capire il reale beneficio dell’andare oltre un tot iterazioni.
Comunque, circa 10 secondi ad immagine coi setting che ho usato.
Software
WIP
Sto usando GitHub - nod-ai/SHARK: SHARK - High Performance Machine Learning Distribution e c’è anche GitHub - AUTOMATIC1111/stable-diffusion-webui: Stable Diffusion web UI ma non ho ancora messo mano a questo.
rimando a Generazione immagini ML based a casa - "We have Midjourney at home", letteralmente - #49 by matsnake86
per l’installazione di A1111
Prompt
WIP
E’ lunga. Devo fare uno sforzo grosso qui
Modelli
WIP
Buona fortuna, c’è pieno e tanta roba ha il sapore di mod nsfw di skyrim
Comunque vale il già linkato https://civitai.com/.
Oltre la generazione diretta
WIP
Non ho menzionato le funzioni IMG2IMG, Outpainting e Inpainting.
La IMG2IMG serve a prendere un’immagine e “farla assomigliare” al prompt testuale aggiunto - non ho esperimenti o risultati da mostrare per adesso.
Outpainting è “estensione” di un’immagine- diciamo che ho un’immagine 100x100 e voglio farla diventare 200 x 100.
Inpainting è reinserire elementi in all’interno di uno spazio vuoto, ad esempio in un’immagine danneggiata.
Qualcun altro ha già fatto altri test, esperimenti, ha qualcosa da dire in merito?
Altri concetti:
Altre Guide: