ChatGPT e le LLM (Part 2)

Domandina,

per chi è povero ma volesse un llm in locale bello potente, è fattibile usare potenza di calcolo in affitto a tempo? Cioè esiste che uno compra solo potenza di calcolo dal cloud alla bisogna? Tipo mi serve x per 5 minuti. Paghi e amen.

qui c’è la risposta alla tua curiosità e la risposta è sì, e ci sono tagli per tutti i gusti/tasche/esigenze.
a quanto pare affittare una V100 costa circa 3$/ora, un bestio con 8 H100 circa 80$/ora ma ci sono anche soluzioni per povri da pochi centesimi/ora :sisi:

1 Like

Il punto è che locale, in senso stretto, esclude il cloud. A meno che non estendiamo il concetto a private cloud dove hostare un modello open weight, ma stai comunque trasferendo i tuoi dati sul cloud (anziché al provider del modello linguistico)

1 Like

si chiaro che un servizio basato su cloud computing a livello di privacy non è la stessa cosa di far girare in locale lo stesso modello, ma il senso della domanda di hans era quello, l’ha chiamato “modello locale” ma intendeva dire modello openweight da far girare in remoto su un server in affitto.

Domanda: mi serve una piattaforma IA (a pagamento) che mi consenta di dargli in pasto un breve testo e che mi crei un video a tema di un paio di minuti o meno. Ho visto roba tipo https://artlist.io/ che però non mi permette di fare una prova gratuita per capire la qualità dell’output.

Edit: e/o anche che io gli dò in pasto un jpg e lui me lo anima (se esiste qualcosa del genere).

Consigli?

Qualcuno ha fatto un paragone Gemma4 31B vs Qwen3.6 27B e 35B

Capita a fagiolo perché da poco unsolth ha annunciato la riquantizzazione dei modelloli Gemma4 a causa dell’update che Google ha fatto ai template jinja per migliorarne il tool usage.

Ed io per una giornata ho provato Gemma4 26B ( non è quella dei bench ) notando che anche se lievemente inferiore a Qwen3.6 35B usa veramente pochissimi token per dare delle risposte corrette.

Insomma quello che gli chiedevo magari andava corretto in un paio di round ma perdeva molto meno tempo nel thinking rispetto Qwen3.6 35B anche coi limiti al thinking di cui si è parlato qualche post sopra.

Inoltre alcune versioni a 4bit occupano sui 12GB e aprono le porte all’uso dei modelli draft in modo agevole per tech come MTP che Google ha rilasciato ieri per Gemma4

io uso higgsfield che è un aggregatore come artlist (hai accesso a piu modelli)
Per me le 2 soluzioni migliori

ci butto un occhio, grazie :approved:

Edit: checcazz, come per artlist è impossibile provare prima di acquistare :(

per dirti questo l’ho fatto con higgsfield

Statiche gpt image
animazione kling 2.5 (sostituzione scena)

https://www.instagram.com/p/DXMLaxGstqD/

https://www.instagram.com/p/DVL23JNjAxd/

Interessante. Il mio problema è che devo fare delle clip, portarle a chi sta sopra di me e dire: “guardate che bella l’AI, se cacate qualcosa di soldi possiamo fare questo, questo e quest’altro”, ma senza la possibilità di fare un paio di clip aggratis, che gli porto? :asd:

scrivimi che ti serve e provo a fartele

Ti ho mandato un PM :approved:

grazie :lode:

al momento diciamo che sono coperto perché uso account aziendale a consumo e non ho problemi, però volevo staccarmi dal mondo cloud e approfittare per farmi una workstation da riutilizzare eventualmente per un po’ di sano gaming :asd: per quello volevo farmi un’idea di massima di cosa serviva a livello HW per avere un setup decente.

al momento ho un macbookair m3 e mi sa che non ci gira un cazzo ma non ho ancora provato :asd:

Il problema è la RAM se hai solo 16gb stai stretto potrai usare solo modelli da sotto i 14B di parametri se hai 24gb ci metti un un Qwen3.6 quantizzato a 3bit MLX ci dovresti stare ma dubito possa fare oltre i 10 tok/s e sarebbe poco usabile.

Mentre modelli piccoli cone Gemma4 E2B/E4B per task generali, automatizzazioni, search, scripting, possono essere utili, potresti provare con Unsolth Studio che da questo punto di vista offre di più di LM Studio.

Per chi usa LLM al lavoro: vi consiglio di leggere questo saggio e riflettere bene.

1 Like

meanwhile io sto ancora sbroccando perchè qwen decide di interrompersi da solo mentre fa le cose. senza apparenti errori.

La cosa odiosa è che lo fa soltanto quando lavora come agente.

Leggevo in giro che questa cosa potrebbe dipendere dal fatto che per qualche ragione decide di fare tools calling nella fase di reasoning, e quindi va tutto a puttane.

Io sto usando Continue per VSCode come estensione per parlare col server di LM Studio.

Qualche esperienza in merito?

Prova ad usare l’estensione “roocode” con VSCode :sisi: Io non sto avendo particolari problemi.

Ve lo segnalo qui per chi vive a milano e dintorni.

Sabato 8, cioè domani, a Seregno nell’ambito del festival delle 12 lune ci sarà lo spettacolo di Andrea Cosentino “Trash Test”.

Se vi trovate in zona vi consiglio di andarlo a vedere perché è divertente, lui è molto bravo a improvvisare usando chatgpt come spalla comica evidenziando i suoi bias e i suoi limiti intrinseci, insomma oltre a divertire dopo fa anche pensare quindi per una volta tanto vale la pena alzare il culo e andate tutti a vedere di cosa si tratta :sisi: