Generazione immagini ML based a casa - "We have Midjourney at home", letteralmente

Mentre sceglievo che scheda video comprare, leggevo che anche quelle midrange della precedente (e conseguentemente, di questa generazione :asdsad:) sono in grado di dire qualcosa nello spazio della generazione contenuti.

Intro

Una rapida googlata, e pare che Nod.ai abbia sviluppato e reso opensource una distribuzione di “software per machine learning” - SHARK.
Ok, metto in moto e dopo qualche minuto di download del model di Stable Diffusion 1.4 (alcuni gigabyte)… faccio qualche test.

a giant japanese mecha, in outer space, firing an energy beam

…wow. Cioè, ecco, che schifo.
Faccio altre due tre prove, risultati completamente insoddisfacenti

una guida sulla generazione di prompt dopo…

Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha, artstation, highly detailed, sharp focus, sci-fi, stunningly beautiful, dystopian, iridescent gold, cinematic lighting, dark

e poi, infine, scopro che ci sono modelli diversi, con bias diversi, adatti a generare tipi di immagine diversi.

Sylvester Stallone as a rugged fighter, in a karate pose, leather jacket, digital painting, anime, fantasy, Surrealist, full body, by Henry Asencio, artstation, highly detailed, sharp focus, post-apocalyptic, dystopian, black, cinematic lighting, dark

Poi riprovo mettendo Eva Greene al posto di Sylvester Stallone e…

e si iniziano a vedere i bias forti del modello che ho usato, questo non ha idea di chi sia Eva Greene.

Infine, provo con un model basato sullo stile artistico si un certo artista (Greg Rutkowski, https://www.artstation.com/rutkowski, perdonate l’ignoranza ma non so chi sia)

a photo of a flying ship, soaring over the ocean, in a sunny day, clear skies, steampunk, magic, fantasy, digital art, hyperrealistic, highly detailed, sharp focus, metal

Avevo detto… flying… vabè.

Ok, test run conclusa.
(Di queste che vi mostro, in realtà avevo fatto una decina di immagini alla volta ed ho presentato solo la roba più significativa.)

Ora, niente di non già visto, se non fosse che questa roba l’ha generata tutta il mio pc usando roba che sta su github e su CivitAI, un archivio di modelli trainati.

Provo a strutturare questo thread come WIP che possa essere vagamente utile ad approfondire la cosa.

DISCLAIMER PERSONALE ENORME.
Nei prompt che ho usato c’è il nome di un artista che mette materiale su Artstation, perché tale informazione contribuisce a fornire maggior accuratezza a cosa la generazione debba creare; a me fa veramente senso e disturba tantissimo il fatto che questa sia un’azione non solo consentita ma addirittura consigliata; peggio ancora, che analogo risultato sia ottenibile via costruzione di un modello ad hoc senza il consenso dell’artista.
Questa roba va normata, in qualche modo, prima di subito anche se sono molto pessimista al riguardo.

Link a: cosa cazzo stiamo facendo di preciso con questa roba?

Hardware

WIP
Per ora accontentatevi della sensazione che ho riscontrato: per NVIDIA la situazione è molto su binari quindi servono driver specifici; per AMD e Silicon la situazione è emergente e quindi c’è più buzz.

Per quanto riguarda AMD serve solo aver installato Adrenalin.

Discorso performance, la mia 7800xt fa circa 5 iterazioni per secondo ed i setting standard vogliono immagini da 50 iterazioni, ma ancora devo vedere degli output per capire il reale beneficio dell’andare oltre un tot iterazioni.
Comunque, circa 10 secondi ad immagine coi setting che ho usato.

Software

WIP
Sto usando GitHub - nod-ai/SHARK: SHARK - High Performance Machine Learning Distribution e c’è anche GitHub - AUTOMATIC1111/stable-diffusion-webui: Stable Diffusion web UI ma non ho ancora messo mano a questo.

rimando a Generazione immagini ML based a casa - "We have Midjourney at home", letteralmente - #49 by matsnake86
per l’installazione di A1111

Prompt

WIP
E’ lunga. Devo fare uno sforzo grosso qui

Modelli

WIP
Buona fortuna, c’è pieno e tanta roba ha il sapore di mod nsfw di skyrim :asd:
Comunque vale il già linkato https://civitai.com/.

Oltre la generazione diretta

WIP
Non ho menzionato le funzioni IMG2IMG, Outpainting e Inpainting.

La IMG2IMG serve a prendere un’immagine e “farla assomigliare” al prompt testuale aggiunto - non ho esperimenti o risultati da mostrare per adesso.

Outpainting è “estensione” di un’immagine- diciamo che ho un’immagine 100x100 e voglio farla diventare 200 x 100.

Inpainting è reinserire elementi in all’interno di uno spazio vuoto, ad esempio in un’immagine danneggiata.

Qualcun altro ha già fatto altri test, esperimenti, ha qualcosa da dire in merito?

Altri concetti:

Altre Guide:

3 Likes

Si, ho fatto vari esperimenti con stable diffusion e sono arrivato ai tuoi stessi risultati.

Poi ho provato a trainare un nuovo modello (di base aggiungendo la mia faccia) ma per qualche motivo mi sono scontrato con una serie di conflitti tra la mia gpu e le librerie e quindi mi sono arenato

Fine settimana torno a Londra e riprendo possesso del pc, posto più dettagli

Intanto buco

La cosa importantissima è il modello che utilizzi.
L’occhiata al catalogo di CivitAI ti fa vedere un sacco di roba e non è fuffa, sono veramente molto specializzati.

Stable Diffusion è uno dei model ma facendo svariati tentativi potrebbe facilmente emergere che uno più specifico sia più adatto al tipo di contenuto che stai cercando di produrre: nota che la prima e la seconda immagine che ho linkato sopra è fatta con OpenJourney, tutto il set nel mezzo con DreamShaper 8 e l’ultima con quest’ultimo.

Scrivendo questo continuo a dire che mi sento comunque abbastanza schifato dall’idea di usare il lavoro di altri artisti per alimentare un calderone del genere; tuttavia il vaso di Pandora è aperto e mi sembra impossibile chiuderlo.

a me piace generare roba con i modelli anime.
Posto ogni tanto su reddit la roba che mi esce meglio:

https://www.reddit.com/r/AnimewallpaperAI/

Linko alcune generazioni fatte che mi piacciono particolarmente

Uso easy diffusion ed una rx6700
Edit. Sì è sconvolgente cosa si riesce a fare.
Ho anche fatto test poco ortodossi con modelli realistici per vedere fin dove può arrivare questa cosa.
Beh… Fare un fake osceno partendo da un soggetto reale è facile con un po di pazienza.

non serve che dica a nessuno che non voglio spiegazioni su come fare “fake con soggetti reali”, nevvero? :rolleyes:

ho letto giusto qualche giorno fa un articolo dalla spagna
l’umanità è a livelli imbarazzanti

di contro se fra qualche anno verrà fuori un video in cui faccio cazzate dirò che è IA :asd:

Non mi è chiaro, shark è un easy-to-use framework per stable diffusion?

Io per ora ho sempre usato automatic1111. Consigliate shark?

cito testuale

SHARK is an open source cross platform (Windows, macOS and Linux) Machine Learning Distribution packaged with torch-mlir (for seamless PyTorch integration), LLVM/MLIR for re-targetable compiler technologies along with IREE (for efficient codegen, compilation and runtime) and Nod.ai’s tuning. IREE is part of the OpenXLA Project, an ecosystem of ML compiler and infrastructure technologies being co-developed by AI/ML industry leaders including AMD, Google, Nod.ai and many more. OpenXLA aims to let ML developers build models in their preferred framework (TensorFlow, PyTorch, JAX) and easily execute them with high performance across a wide range of hardware backends (GPU, CPU, and ML accelerators).

Farò un confronto con automatic appena posso.

Belli caspita, però che tristezza… ad esempio :|

Tristezza perché ormai l’ia fa meglio della mano umana ?

Io tempo fa ottenni questi in automatic1111. Il prompt era banale “dwarf, world of wacraft, white beard, cartoon”. Il problema è che certa roba si otteneva con dei settings che ora non ricordo più e che facevano la differenza.

Per questa immagine invece copiai il prompt da un esempio in rete, ma sempre giocando coi settings il risultato cambiava molto.

“temple in ruines, forest, stairs, columns, cinematic, detailed, atmospheric, epic, concept art, Matte painting, background, mist”

Non è che se ne deve parlare per forza eh ma si parla di trainare modelli custom con le proprie foto (io ci volevo fare un fumetto con me la mia donna e mio figlio per dire)

Mi pare un attimo eccessivo presumere che automaticamente si vada sul porno se non peggio dai :dunno:

Zero polemica ma boh lascia l’amaro in bocca pensare che il primo caso d’uso che ti viene in mente sia quello

Poi vedo la roba di mattsnake è un po’ ti capisco asd

Vedi che ci siamo capiti subito su a cosa mi riferisco? :dunnasd:

Ah figo, ho capito come estrarre le info dalle immagini generate in passato :asd:

parameters

dwarf, world of wacraft, white beard, cartoon
Negative prompt: hat, disfigured, kitsch, ugly, oversaturated, grain, low-res, Deformed, blurry, bad anatomy, disfigured, poorly drawn face, mutation, mutated, extra limb, ugly, poorly drawn hands, missing limb, blurry, floating limbs, disconnected limbs, malformed hands, blur, out of focus, long neck, long body, ugly, disgusting, poorly drawn, childish, mutilated, mangled, old, surreal, text
Steps: 30, Sampler: DPM2 a, CFG scale: 10, Seed: 3430992050, Face restoration: CodeFormer, Size: 512x512, Model hash: 14e1ef5d, Denoising strength: 0.7, Hires upscale: 2, Hires upscaler: Latent

Purtroppo sembrerebbe che in giro su internet stia proprio impazzando come cosa, ma fuori controllo proprio.

Quindi Drest fa bene a sottolineare subito di NON SCRIVERE niente a riguardo.

Meno chiacchiere e più immagini e prompt, su su

Questa l’ho scopiazzata da internet, ma con la nuova versione di automatic1111 è migliorato un botto il controllo di alcuni parametri, soprattutto l’highres.fix

parameters

(extremely detailed CG unity 8k wallpaper), full shot body photo of a (((beautiful badass woman soldier))) with ((white hair)), ((wearing an advanced futuristic fight suit)), ((standing on a battlefield)), scorched trees and plants in background, sexy, professional majestic oil painting by Ed Blinkey, Atey Ghailan, Studio Ghibli, by Jeremy Mann, Greg Manchess, Antonio Moro, trending on ArtStation, trending on CGSociety, Intricate, High Detail, Sharp focus, dramatic, by midjourney and greg rutkowski, realism, beautiful and detailed lighting, shadows, by Jeremy Lipking, by Antonio J. Manzanedo, by Frederic Remington, by HW Hansen, by Charles Marion Russell, by William Herbert Dunton
Negative prompt: hat, disfigured, kitsch, ugly, oversaturated, grain, low-res, Deformed, blurry, bad anatomy, disfigured, poorly drawn face, mutation, mutated, extra limb, ugly, poorly drawn hands, missing limb, blurry, floating limbs, disconnected limbs, malformed hands, blur, out of focus, long neck, long body, ugly, disgusting, poorly drawn, childish, mutilated, mangled, old, surreal, text
Steps: 30, Sampler: DPM++ SDE Karras, CFG scale: 10, Seed: 3430992050, Face restoration: CodeFormer, Size: 512x512, Model hash: 14e1ef5d

io sto provando a generare senza “by artist name”

Non ci stava già un thread per la galleria di immagini?

Pensavo questo voleva essere un thread più tecnico su come installare/configurare piuttosto che la carrellata di immagini tutte uguali :asd:

1 Like