Generazione immagini ML based a casa - "We have Midjourney at home", letteralmente

si può fare avoglia, invece di 10s ad immagine ce ne metterà 30 o 40 o di più, ma si

1 Like

qui dicono che dovrebbe fare più di 2 it/s che non è male :sisi:

grazie a Kohya SS sono ritornato padrone del Dreambooth :lode:

Immagino convenga utilizzare Olive anche per NVIDIA no?

No ci ho provato e va una merda e scordati di usare i modelli .ckpt o .safetensor che già hai che Olive li deve riconvertire :ahsisi:

Ok tnx.
Poi è anche roba Microsoft: oggi la crea, domani la abbandona.

Cosa mi stavo perdendo, ho installato Stable diffusion, è fantastico :rotflfast: :unsisi: :asdlode:

1 Like

Nel caso di Nvidia riguarda TensorRT che converte i modelli da pytorch in Onnx e sfrutta i tensor core ma così facendo rompe la compatibilità con molta roba.

Su win ho provato con la versione apposita di webui e va una merda, a leggere in giro vedo che sotto Linux i boost fino a 2x sembra siano più visibili in determinate situazioni che coinvolgono anche la risoluzione e la precisione del modello se FP32 o FP16 insomma un casino :asd:

Convertire i modelli non mi interessa. Ho 12 GB di VRAM e per ora gira bene per come lo uso.
Mi interessava l’idea di boostare le performance.

Da quel punto di vista vi informo che per curiosità ho installato l’ultima versione di CUDA la 12.1 poi ho installato nella Webui l’ultima versione pytorch per la 12.1 e mi sono ricompilato da solo gli xformers dalle sorgenti per la 12.1 con tutti i flag specifici dell’architettura ed ho ottenuto un boost di prestazioni nullo :asd:

sembra un po’ lo stile degli sgorbios

é esattamente lo stile dei garbage pail kids/sgorbions è stato un casino trovare le immagini in alta definizione per fare il training.

Intanto Nvidia sta fixando la cosa dei TensorRT, bisogna installare gli ultimi driver e seguire questa guida : TensorRT Extension for Stable Diffusion Web UI | NVIDIA

Se avete già la webui 1.6 va bene quella, basta andare direttamente alla parte in cui installate la TensorRT l’extension garantito al green lime che riceverete un errore con le cudnn.dll eccovi la soluzione : Error loading script: trt.py, ModuleNotFoundError: No module named 'tensorrt_bindings' · Issue #27 · NVIDIA/Stable-Diffusion-WebUI-TensorRT · GitHub

Dopo tot di bestemmie ho risolto, ed ho covertito il modello di default 1.5 in TensorRT con le impostazioni di default, senza troppe sperimentazioni.

Ho notato con piacere che crea un U-Net a parte per il modello ( occupa 1.7GB ) che poi potrà essere selezionata nel menù a tendina che dovete abilitare nella Webui.

Ogni singolo modello deve avere la sua conversione, ogni coversione richiede qualche minuto, ma i modelli originali restano untouched.

Ho fatto un bench prima e dopo e sono passato da 24.36 it/s a 39.48 it/s senza batching :lode:

P.S.

Per ora funziona solo con SD 1.5, 2.x per la SDXL arriverà in futuro.

Ho testato A1111 sabato, su AMD è arrivato a non avere performance orribili (non so con cosa stia facendo 24 it/s LL ma io mi sento già messo bene a 2.5 it/s :asd:)

É solo un bench indicativo con tutto di default, quando inizi a buttarci dentro modelli differenti, abiliti la ControlNet, sali di risoluzione e metti il pc in risparmio energetico ( perché non vale la perna consumare 500w per generare :asd: ) vai a 7-8 it/sulla 1.5 e un 3-4 it/s su SDXL avere un boost del +50% è grasso che cola.

e niente, mi sa che mi tocca strisciare per un ssd capiente e una nuova scheda video, sappiate che vi odio tutti :asd:
penso che con una 1050ti 4gb e 32gb di ram ci faccio poco e niente vero?

Se installi la webui ed invece di usare il modello 1.5 di default usi questo che è leggero e di qualità puoi :sisi:

mi sa che a 1 it/s ci arrivi con qualche ottimizzazione, vuol dire un immagine ogni 20 secondi a parametri di default.

faro’ due prove appena ho un pochino di tempo libero, grazie :approved:
20 secondi non e’ poi cosi’ male dai per giocarci ogni tanto

Rimanendo in tema generazioni per tutti vi segnalo Fastsdcpu per poter generare con la CPU ciò avviente tramite i Latent Consistency Models

Si parla di un immagine 512x512 ogni 10 secondi ai parametri di default su un Core i7-12700 una CPU che fa circa 31K punti al Passmark se volete un indice di riferimento.

Come potete notare non ho accennato alle iterazioni al secondo (it/s) perché con gli LCM si generano immagini di qualità con solo 4 step rispetto ai 20 che generalmente si usano di default

Gli LCM applicati alle GPU arrivano a qualcosa come 10 IMMAGINI AL SECONDO su una 4090 ed è già disponibile l’extension per la Webui GitHub - 0xbitches/sd-webui-lcm: Latent Consistency Model for AUTOMATIC1111 Stable Diffusion WebUI

niente da vedere, circolare :asd:

1 Like