Generazione immagini ML based a casa - "We have Midjourney at home", letteralmente

il bench che in genere si faceva con la automatic1111 era quello di usare la v1-5-pruned-emaonly.safetensors lasciare tutto a default ( DPM++ 2M Karras, res 512x512, batch count/scale 1, CFG scale 7 ) e alzare i sampling steps a 200 dare Chair come prompt e vedere a quanti it/s arriva.

Riguardo alla versione di CUDA le ottimizzazioni della 12.x dovrebbero essere a beneficio solo degli ultimi modelli quando testai l’upgrade dagli 11.8 ai 12.1 con la mia 4080 ricompilandomi gli xformer per la automatic1111 non notai alcuna differenza in prestazioni su WIN10.

Coi parametri di bench che ho scritto prima, facevo circa 24.5it/s due-tre mesi fa con la automatic1111 v1.6 anche oggi con gli ultrimi driver vado uguale ( noto che ora c’é la v1.7 dopo faccio un test anche con quella )

il salto lo fai con i TensorRT ne ho parlato qualche post sopra con quelli ho quasi raddoppiato le prestazioni arrivando a 40.09it/s :lode:

1 Like

domanda da ignorante, esiste uno strumento (stable diffusion o altro) in grado di partecipare a un contest? mi vengono in mente contest epici come le gemelle k o anche le mozzarelle della libertà, esiste un sistema per digli: “questa è la foto, prendi belusconi con la mozzarella in bocca e mettigli in mano un mandolino”
ricordo che con la mia skill nulla ci misi una vita con gimp, per poi ovviamente tirare fuori una mezza merda :asd:

Automatic1111 e comfy ui col giusto workflow, ma è’ il solo che conosco

Ci saranno mille alternative più easy

aggiornato Automatic1111 alla 1.7 ( l’unica differenza che noto è lo slider dei sampling steps a 150 massimo ) per scrupolo ho scaricato anche le ultime .dll cuDNN e le ho poste nella subfolder di torch, stesse prestazioni, mi sa che ormai siamo al massimo raggiungibile con il metodo classico e si debba puntare su robe come TensoRT che ricompilano appositamente il modello sfruttando algoritmi più efficienti.

@geps ti posso dire che quello che hai descritto si chiama image inpainting putroppo gran parte dei tool online sono a pagamento, magari ne trovi qualcuno che da qualche demo gratuita per un tot di immagini :sisi:

Ma perchè switchare su windows quando puoi continuare ad usare il software per il sistema per cui è stato progettato semplicemente usando una distro rolling o più bleeding edge?

Il pc è dedicato allo scopo?
Installati openSUSE MicroOS e vai da dio. Installi Automatic nella tua HOME da git e ti usi tutta la roba più recente.

E se proprio vuoi continuare ad usare ubuntu puoi usare distrobox per crearti una scatolina con arch e farci girare tutto quello che ti serve con i repo di arch

no infatti io in realta’ non voglio switchare (che poi c’ho gia’ doppio boot) ero giusto curioso perche’ leggendo tutte le guide online la maggiorparte sono su windows per cui mi chiedevo come era la situazione li ma mi pare di capire che in realta’ c’ha gli stessi problemi

su ubuntu vs altre distro non ho preferenze, non sono linuxaro ma mi fa comodo avere una shell e preferisco programmare sotto linux e non sbattermi troppo per far funzionare steam
per il resto accendo il pc personale giusto per cazzeggiare con queste cose o prototipare qualche app/sito/etc.etc

pero’ sicuro provo con distrobox e arch, anche se penso che il problema specifico di dover usare i cuda 11.8 non dipenda tanto dalla distro

esiste qualcosa per creare video o animazioni?

si

qualcosa però tipo invideo.ai?

Pare un po’ meno avanzato di questo, diciamo

Lato stable diffusion hanno rilasciato stable cascade, qualcuno lo ha provato?

Stability AI annuncia Stable Diffusion 3

Volendo ottenere un’immagine 2k con stable diffusion bisogna creare l’immagine a 512 e poi upscalarla?
Non si crea direttamente a quella risoluzione perchè i modelli sono trainati per restituire ottimi risultati solo a risoluzioni basse?

è trainato con immagini di quelle dimensioni e chiedergli di fare immagini più grosse significa generare informazioni molto più inconsistenti rispetto a ciò che il modello permetta altrimenti

il training copre operazioni su matrici 512x512, se vuoi andare oltre serve “inventarsi” operazioni non registrate che siano consistenti col training

1 Like

dipende anche da cosa generi se è tipo una skyline di una città, una foresta, insomma soggetti con pattern ripetuti a 1024x512 non vengono male con SD 1.5 ma più sali e più gli elementi duplicati cuciti male diventano evidenti, poi puoi andare di SDXL che è addestrato a 1024x1024 di sicuro avrai maggiore consistenza/qualità e potrai eventualmente salire di risoluzione anche se sarà di una lentezza letale :asd:

1 Like

Mi fate un riassunto veloce di una versione/repo che posso facilmente installare sul pc con una scheda nvidia per generare immagini fantasy?

Scheda: 3070ti mobile
Serve per una campagna con dei ragazzini, non pagherei comunque nessun artista per farle, gia’ ho speso troppo del mio tempo personale possa un angelo biblicamente accurato farmi visita se mento

@char l’ultimo update e’ del 10/10/2023. E’ da aggiornare in caso o e’ la roba di riferimento ancora?

E’ uno wiki post, chiunque @here puo’ aggiornarlo eh.

hai ragione, i repo hanno un po’ di aggiornamenti ma quale sia l’attuale performance di SHARK e lo stato attuale delle AMD vs NVIDIA non so quanto sia cambiato.

per risponderti, penso sempre A1111 ?

per automatic1111, butta un occhio su comfyui che e’ una estensione che puoi aggiungere a a1111 per fare dei workflow

qui esempi di workflow

Questo quindi?

@matsnake86 avrebbe senso su un wsl invece che su windows schietto? Non voglio impestare windows e tutte le robe di codice etc tendo a infilarle sotto diverse istance wsl per facilita’ di pulizia.

Io sono un affezionato di easy diffusion.

È veramente no brain da far partire e mette già lui le cose giuste se hai AMD o Nvidia.

Per il modello se devi fare fantasy vai tranquillo con dreamshaper

I modelli xl ovviamente sono molto meglio rispetto a quelli di SD1.5. Capiscono molto meglio cosa gli chiedi.

Ma ocio che se hai meno di 10gb di vram probabilmente non ce la fa a generare.

Io con appunto 10GB su una AMD ci sto a filo e devo dirgli di stare attento all’uso di VRAM durante il processo

1 Like

Sì… anzi probabilmente gira meglio.

MA comunque non impesta granchè SD. Se cancelli la cartella il pc resta pulito.
A parte la cache di PIP

1 Like