Generazione immagini ML based a casa - "We have Midjourney at home", letteralmente

Un altro parametro importante ho scoperto essere il seed.

Il seed definisce l’immagine random di partenza, e se c’è qualcosa che piace e documentato, di solito si trova anche il seed - generalmente è sensato provare a riutilizzarlo.

Se hai chiaro il come funzioni il processo di generazione, è semplice capire il perché; se me lo ricordo, più tardi lo spiego meglio (atm ho gatte da pelare purtroppo).

non mi e’ chiaro per un cazzo e ci sono robe che non saprei dove guardare, tipo alcune immagini parlano anche di avere VAE.

Cazz’e’ Lora, Vae, etc per dire?

C’e’ un link o un video che spiega ste robe in stile img gen 101?

Per dire no, questa che ho linkato sopra:

Dice: " This asset is designed to work best with the Pony Diffusion XL model, it will work with other SDXL models but may not look as intended."

Ok, mi dico. Scarichiamo sto model: Pony Diffusion V6 XL - V6 (start with this one) | Stable Diffusion Checkpoint | Civitai

Nella pagina del model mi dice “ohi, raccomanda questo VAE”. Ok, scarichiamo sto VAE.

Metto VAE nella directory dei VAE.
Il checkpoint nella directory dei checkpoint.

Vedo anche un Lora. Ok, scarico e piazzo nella directory dei Lora.

Copio il resto dei setting 1:1.

Genero.

20 secondi dopo:

image

:rotfl:

Calma…

Detto tutto in termini semplici

un VAE è un paletta di colori che migliora l’immagine finale. Può alterare i colori risultanti. Renderli più accessi o strani ecc… Di solito i modelli hanno un VAE integrato. Alcuni lo richiedono a parte ma di solito nella descrizione del modello c’è il link per scaricarlo.

Un LORA invece è un “concetto”.
Per dire vuoi generare un personaggio in una posizione particolare? Che ne so … Mentre fa il segno della pistola con le dita? Puoi usare un LORA addesstrato per far uscire le mani in quella posizione.
Oppure puoi addesstrarlo per generare sempre lo stesso personaggio / vestiario.
O ancora per fare le orecchie da elfo ad esempio. O le ali da fata…

Io personalmente ho usato diversi lora per generare mappe fantasy o personaggi in pixel art.

Easy diffusione ha una picklist specifica per impostare i lora e il “weight” per far capire a SD quanto vuoi che segua il lora.

C’e’ qualcosa che non va nel model imho perche’ cambiando solo quello, usando SSD-1B-A1111 (quello linkato sopra) esce roba normale :asd:

image

Ok quindi:

VAE: palette di colori
Lora: rifiniture…? dettagli…?
Model: source che usa per generare le immagini?

E’ una approssimazione sensata?

Si possono usare multipli lora per dire?

ricorda che in base al modello XL o no devi rispettare delle risoluzioni di generazione.

i modell SD 1.5 generano di solito :

-512x512;
-512x768 (e viceversa);
-512x1024 (e viceversa);

quelli xl sono piÙ stronzi perchè se generi a risoluzioni basse fanno cacare e devi usare una risoluzione supportata o vicina.

  • 640 x 1536: 10:24 or 5:12
  • 768 x 1344: 16:28 or 4:7
  • 832 x 1216: 13:19
  • 896 x 1152: 14:18 or 7:9
  • 1024 x 1024: 1:1
  • 1152 x 896: 18:14 or 9:7
  • 1216 x 832: 19:13
  • 1344 x 768: 21:12 or 7:4
  • 1536 x 640: 24:10 or 12:5

Si

Questo è la potenza di un modello XL per dire:

Fatta io settimana scorsa.
con AAM XL (Anime Mix) - v1.0 | Stable Diffusion Checkpoint | Civitai

altra domanda, c’e’ modo di dire ad a1111 di salvare una configurazione e/o caricarla come default?

si. ci dovrebbe essere il pulsante nei paraggi del prompt se non ricordo male.

MA ti consiglio di salvarti i json per le generazioni di successo.

1 Like

vabbe’ ormai e’ una chat :asd:

Ha senso fare in low res e poi magari upscalare? come dovrei fare in quel caso?

Segui le risoluzioni standard e poi vai di upscale.

Io non uso l’upscaler integrato di ED ma uso Upscayl

Comunque parti da modelli buoni per generare che non richiedono troppi sforzi.
Dreamshaper che avevo messo qualche post fa è ottimo in tutti i sensi.
Con pochi prompt tiri fuori roba pazzesca.

Edit:
Dreamshaper c’è sia la versione SD 1.5 , XL e XL Turbo (sconsigliata)

1 Like

Dreamshaper 1.5

Fatta qualche tempo fa

mh, provato con dreamshaper ma viene roba orrida con prompt anche semplici

young male, fighting monk, bald, black eyes, looking at viewer, hood, red shirt, collared shirt, upper body, standing, outdoors, small town, inn, tavern, night

no lora, no seed specifico, niente di particolare.

image

wtf :asd:

3 Likes

stessa identica config, model ssd-1b linkato sopra:

image

non ce la racconti giusta matsnake :asd:

Lol… Sicuramente qualche impostazione…

Inizia a mettere CLIP SKIP = 2 nelle impostazioni di SD

Poi se hai pazienza fino a stasera che torno a casa ti posso mettere qualche json di generazioni di successo che ho salvato nel pc.

Purtroppo è veramente tanto che non uso automatic e non saprei nemmeno dirti che cosa cliccare tra le varie cose dell’interfaccia.

1 Like

Ma si figurati, ci smanetto un po’ intanto cosi capisco il linguaggio da usare.

Aggiungendo sto pacco di negative: text, watermark, low-quality, oriental, signature, downsampling, aliasing, distorted, blurry, glossy, blur, jpeg artefacts, compression artefacts, poorly drawn, low-resolution, bad, distortion, twisted, excessive, exaggerated pose, exaggerated limbs, grainy, symmetrical, duplicate, error, pattern, beginner, pixelated, fake, hyper, glitch, overexposed, high-contrast, bad-contrast, blurry eyes piu’ il lora <lora:Concept Art Eclipse Style LoRA_Pony XL v6:1> anche se non c’entra un cazzo con SSD-1B, esce roba ancora piu’ precisa per dire

image

Non mi interessa roba iper realistica. Anzi se e’ drawing e’ decisamente meglio

voglio capire come editare solo parti dell’immagine tra l’altro, tipo vorrei schiaffargli un tattoo sulla fronte, pensavo fosse in qualche opzione dell’img2img ma non capisco quale

inpaint

2 Likes

DreamsharperXL_21Turbo è basato sul SDXL-Turbo è una versione distillata di SDXL che usa l’ADD una tecnica che gli permette di generare immagini in tempo reale.

Per usarlo al meglio devi impostare il sampling su DPM++ SDE Karras gli step tra 4-8 e CFG scale a 2 e poi ovviamente per sfruttarlo al massimo risoluzione a 1024x1024 e batch size a 4

3 Likes

ma non c’è scritto nella nostra guidina scusa? :thinking: