ChatGPT e le LLM (Part 2)

Sennò vai a finire come i deliri di cosmologia che abbiamo già visto in questi lidi.

La radice del problema è che l’output delle LLM è verosimile. Ma c’è una bella differenza tra verosimile e vero; e un conto è se ci giochi per intrattenimento, un conto se finisci a far danni in azienda per via di analisi fuorvianti.

2 Likes

:rotfl:

Detto questo, come study buddy, tutor o per scoprire nomi di algoritmi utili o in quale libreria software si potrebbe annidare la funzionalità che fa al caso tuo (su domanda molto precisa) sono già estremamente utili.

Un altro consiglio è non riprendere sempre dall’ultima chatta che se l’avete convinto con una stronzata continuerà a riproporvela :asd:

Su un idea o una soluzione potete chiedergli di analizzarla con un prompt del tipo.

Il risultato sarà una confutatio socratica che potrebbe evidenziare carenze, punti deboli, scelte errate a cui non avevate pensato o semplicemente la LLM vi aveva convinto che fossero quelle giuste :sisi:

Non so se andava messo qui o nel thread della cybersecurity :asd:

Phortino sto mythos comunque, si spaccia per l’uber pro della cybersecurity pericolosissimo e poi si fa hackerare :sisi:

intanto hanno levato Claude Code dagli account Pro mi sa che stanno stanno sterzando verso chi ha le tasche piene: aziende, medie/piccole imprese, freelance ecc. insomma chi può spendere, evitando di correre dietro alla fascia dei 20$ che è bella satura con Gemini/OpenAI e i vari modelli cinesi che ormai propongono abbonamenti a quel prezzo.

P.S.

Qwen ha rilasciato il 3.6 da 27b denso

in realtà pare sia un test su alcuni, anche se son dell’idea che sul lungo periodo ridurranno sempre di più i piani bassi

aspetto a vedere i benchmark quando le quantizzazioni si stabilizzano, non ho un cazzo di voglia di scavare tra la merda di centinaia di post tipo “è un gamechanger” e poi scopri che hanno semplicemente incluso il pellicano del cazzo sulla bici nel training.

Ho appena provato Qwen3.6 27B-IQ3_XXS di unsloth anche perché non è che ho molte alternative con un modello denso e solo 16GB di VRAM. L’ho ottimizzato il più possibile abilitando quantizzazioni a 4bit pure sulla KV cache e al massimo riesco a impostarlo a 64k di contesto con 16GB pieni.

A funzionare funziona come la 35B ai vari prompt di test che gli ho dato è sugli stessi livelli solo che va 25-30tok/s ( anche dimezzando il context non va più di così ) rispetto ai 60-70tok/s della 35B la nota positiva che ne posso subito trarre è che un quantizzazione così spinta non sembra averlo rincoglionito, poi se è superiore alla 35B lo si potrà appurare alla lunga su più task ma di certo non lo potrò dire io che sono troppo al limite. :sisi:

Nell’ultima settimana ho usato massicciamente Qwen3.6 35B-A3B-IQ3_XXS vedendo veramente pochi errori e ho fatto anche un tentativo verso il basso come la IQ2_XXS che per 1GB in meno in uso agentico parte subito a fare errori, cazzate varie e si blocca senza motivo.

1 Like

Lamas riesci a quantizzare 30 tok al secondo in qualche task semplice a quanto tempo corrisponderebbero?
Sto leggendo un po’ sul sito di unsloth intanto

Quella è una misura indicativa perché quando si riempie il contesto diventano pure 20tok/s se non peggio perché con la VRAM sono veramente al limite e può capitare che inizi a rallentare tutto.

Con l’attuale setup di LM Studio non lo userei, perché è votato alla faciltià d’utilizzo e non al massimo dell’ottimizzazione in questo momento il 27B è un modello per chi ha 20GB di VRAM in su :sisi:

A livello di usabilità preferisco i 60-70tok/s della 35B sono un bel risultato sopratutto perché hai anche un PC perfettamnete usabile con quasi un 1GB di VRAM libero e mentre frulla l’agente col thinking ed il file edinting puoi quantomeno usare il browser, usare altre app non GPU intensive a livello di consumi la 4080 di picco fa 200w al massimi con una media di 150w sui 320w di TDP.

Per fare un esempio col prompt spec diven della pallina che rimbalza nell’esangono rotante

ci ha pensato su 1 minuto e 32 secondi e poi ha prodotto

ci ha impiegato totalmente 1 minuto e 48 secondi girando a 65tok/s per un totale di 7077 tokens generati incluso il thinking

Anthropic conferma tutte le ipotesi da bar sport sul calo delle performance: Hanno abbassato il resoning su medium per ridurre le latenze dovute ai sovraccarichi, per ottimizzare il caching hanno causato il bug che lo faceva sparire in 5 minuti con enorme spreco di token e per ridurre la verbosità di opus 4.7 che consumava troppo token l’hanno rincoglionito :asd:

P.S.

Intanto ho testato llama.cpp in versione server fuori da LM Studio praticamente usando quella che mi ha installato Unsloth Studio con una serie di flag ultra ottimizzati per la mia configurazione ora vado a 110 tok/s con Qwen3.6-35B-A3B@IQ3_XXS con 200k di contesto e occupazione della VRAM a nel range 15.2-15.8 GB a contesto pieno :lode:

racconta questi flags…

Domani posto tutto spiegando per filo e per segno ho già i file pronti sul PC ma su AMD non so quanto possa spremere in più.

Nel mio caso il collo di bottiglia della 4080 è far entrare tutto in VRAM ed evitare l’offload del layer sulla CPU è per quello che vola letteralmente, comunque sui modelli 4bit sono passato da 40 a 60 tok/s e sul 27B@IQ3_XXS dai 25-30 a 40 tok/s solidi con 131k di contesto.

Per AMD indagherò meglio sul laptop dove ho Ryzen AI 7 350 con 32 GB di memoria unificata, GPU/NPU con ROCm e Vulkan :sisi:

ha confermato pure di togliere Claude code dal pro

Confirmed that Anthropic - as of now - has removed Claude Code from new Pro signups. This is what the pricing page looks like.

Feels like Anthropic has the bet that those doing coding work will be willing and ready to pay at least $100/month, going forward.

For clarity, we’re running a small test on ~2% of new prosumer signups. Existing Pro and Max subscribers aren’t affected.

E OpenAI presenta GPT-5.5

https://openai.com/index/introducing-gpt-5-5/

Ieri ho dimenticato di menzionare che ero col settaggio al risparmio energetico per cui i token al secondo sarebbero 150 :rulez:

ho posto in questo repo il .bat con le info essenziali poi per chiarimenti basta chiedere :sisi:

P.S.

Ora va

404

Preview di DeepSeek V4 va quanto Opus ma è 1.6T di parametri :asd:

Screenshot-24-4-2026-21378-grok-com.jpg (778×800)

e non ho usato nessun prompt strano e nessun trucco, ma solo insistito che volevo una cosa più volte fino alla bestemmia finale…

3 Likes