ChatGPT e le LLM (Part 2)

ma ci sono problemi con le api di openai e codex?

stavo giocando con la generazione di image-2, fino a ieri molto veloce, 30 secondi o giù di lì, oggi 3 minuti…

in più codex su vscode provato 5.5 e poi 5.4, girava la rondella ma nessuna risposta.

lato status sembra tutto ok, codex ieri sera aveva un ticket.

ma ho dovuto abbandonarlo per gemini, che delle volte ti risponde con high demand try later, che non mi aspetto da Google, e che in caso di utilizzo per lavoro non è usabile.

tra l’altro è migliorato tantissimo

Ma qualcuno ha provato ad usare quei miniPC di AMD con la RAM unificata? 128GB? fanno merda a spruzzo o funzionano bene?

su quei mini pc basati su Stryx Halo mi ero informato e ho trovato varie info tipo questi bench

considera ché il modello più veloce grosso è gpt-oss-120b-mxfp4 che arriva a 50tok/s il resto si viaggia sui 20tok/s tipo step flash 3.5 196B quantizzato a Q4_K che occupa 100GB di VRAM

come hardware il migliore è il Bosgame M5 che forse forse trovi a 2300-2500€ spedito dal magazzino in EU in germania dal sito ufficiale, occhio che c’é un sito clone farlocco col nome molto simile che li vende a qualche centianio di euro in meno :asd:

i GMK ne parlano come fornetti più piccoli e rumorosi quando ho guardato io costavano 3000€ ora costano 4000€ su amazon.it :rotflfast:

Poi ci devi comuque smanettare tra ROCm e Vulkan i kernel ecc.

1 Like

https://openai.com/it-IT/index/introducing-workspace-agents-in-chatgpt/

Mia moglie mi ha chiesto:

“Ma chatgpt è google?”

no

“Ma se gli chiedo di fare una cosa, me la fa?”

Diciamo di si, ma la risposta è articolata.

“E google è meglio?”

ho il sospetto costeranno un rene

Disponibilità e tariffe

Gli agenti workspace sono disponibili in anteprima di ricerca per i piani ChatGPT Business, Enterprise, Edu e Teachers. Per i piani Enterprise ed Edu, gli amministratori possono abilitare gli agenti tramite controlli basati sui ruoli.

Gli agenti workspace saranno gratuiti fino al 6 maggio 2026, con tariffazione basata sui crediti a partire da tale data.

Google DeepMind Introduces Vision Banana: An Instruction-Tuned Image Generator That Beats SAM 3 on Segmentation and Depth Anything V3 on Metric Depth Estimation

Ho chiesto a chat gpt di impostare la voce da uomo: ha iniziato a parlare da donna ma con il “vocione”. Gli ho detto “cazzo fai” e mi ha risposto: è il massimo che posso fare :rotfl:

Quindi o parla con la voce femminile o femminile + qualche cose di testosterone. The fuck?

Ma con qwen 3.6, a te non capita mai che si interrompe mentre ragiona? forse perchè il contesto diventa troppo grosso o perchè sarcazzo boh? tipo a me arriva a 5000 token circa e poi muore male e la risposta si interrompe a metà.. solo che poi non riesci più a farlo ripigliare perchè ogni cosa che gli dici lui ricomincia a rimuginare su tutto quello che non ha finito prima e niente.. va tutto in vacca.

ma se ti facessi leggere i processi di reasoning… è una cosa da delirio.

devo fare così

aspetta.. no…

allora invece sì.. però…

Aspetta che ci ripenso

Un ultimo controllo

questo è davvero l’ultimo…

ma però…

e via.. poi alla lunga implode

Credo sia demenza vascolare, c’è l’ ha pure mio padre ma

arriva a più o meno 800 token.

Qwen3.6 ha questa tendenza ( col 3.5 era pure peggio ) al reasoning smodato, ma dipende anche dai settaggi che usi temperature, repetition ecc. poi dal template, contesto e quantizzazione usata.

Intanto dove lo stai usando in chat o da un agente ? c’è chi disabilità direttamente il reasoning mettendolo su off diventa un modello instruct.

Quando l’ho usato con LM Studio in modalità server con Opencode ho fatto lunghe sessioni con la versione Unsolth IQ3_XXS e il problema che si incantava ripetendo era raro in genere verso fine sessione quando il contesto era pieno però bastava a interromperlo, compattare e si riprendeva.

Ora considera che non voglio fartela lunga ma una soluzione per il reasoning interminabile potrebbe essere questo finetune te lo scarichi sempre in non meno di IQ3_XXS

mradermacher/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled-i1-GGUF

Questo distilled in pratica copia la chain-of-tough di Claude tramite una distillazione per dataset l’ho usato per un po notando che pensa molto meno rispetto alla versione regolare.

Mentre per il loop sincerati in LM Studio in App Setting > Runtime > Runtime Selection > GGUF

se è aggirnato all’ultima versione di llama.cpp e stai usando CUDA o CUDA 12 in genere il problema lo da CUDA liscio e il cambio al CUDA 12 risolve ma nel tuo caso potrebbe essere il contrario visto la GPU un po più vecchiotta prova a fare lo scambio e vedere se risolvi.

Oppure usare questi meccanismi

Vi propongo questo video del buon Tim Carambat, il programmatore di AnythingLLM, che dice cose assolutamente condivisibili sul fatto che l’IA basata su servizi cloud è tutta roba destinata a sicura merdificazione, cosa che con i modelli che girano in locale non può accadere :sisi:

E che quant usi te di Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled-i1-GGUF? sempre l’IQ3_XXS?

Sempre la IQ3_XXS però attualmente la uso con llama.cpp di Unsolth Studio che ogni volta che lo aggiorni tira giù anche l’ultima versione di llama.cpp

Che ti dà il vantaggio della tuning tramite batch e loro che ne tirano fuori 3-4 al giorno aggiungno features :lode: ma cambiano anche roba, ho già dovuto rimettere mano al batch due tre volte, ieri sono cambiati i parametri dello speculative decoding, domani aggiorno anche batch e info sul repo che ho linkato :sisi:

Comunque una curiosità ho fatto il solito test rapido del prompt della pallina che rimbalza nell’esagono rotante spec driven in python/pygame. La specifica di azione più grossa del risultato stesso, Borges in amused :snob:

Qwen3.6 35B liscio vs Qwen3.6 35B con reasoning budget a 1000 vs Qwen3.6 3B Claude distilled

Ed alla fine in questa prova one shot vince Qwen3.5 35B liscio perché ci impiega quasi 9000 token poi a un certo punto vedi il kick in dello speculative decoding ( lo vedi proprio nel log del terminale ) che è quello che fa salire la velocità da 120tok/s fino a 150tok/s perché sui prompt da vibecoder i 120tok/si non li supero mai.

Produce un codice perfettamente funzionante gli altri due invece ci lasciano qualche bug minore che non lo fa partire o parte e va in crash.

Questa cosa comunque è molto meno grave di quanto possa sembrare perché un agente come Opencode ha LSP e certi errori manco li vedi usa i tools interni di verifica di Python come pyright e può fare tool calling con i vari linter, type checker, formatter ecc.

:sisi:

Dopo che bestemmiavo da mezz’ora con excel ho fatto fare a Claude e in 5 minuti ha fatto tutto, GG, i 200 euro più isi del mese :lode:

ho una domanda per te visto che stai facendo esattamente quello che vorrei fare io (usare qwen 3.6 35B per coding): che macchina hai? vorrei farmi una workstation con quello scopo ma sono completamente a digiuno a riguardo. attualmente uso Claude via AWS Bedrock con Opencode (ho i miei agent/subagent ma tendenzialmente uso principalmente Sonnet e Opus solo come agent advisor)

Se hai una cpu decente ( ho un 5800x del 2020 ) e almeno un 32GB di ram di sistema basta una scheda video con 16GB di VRAM ( ho una 4080 con 16GB del 2022 ) con i modelli MoE come Qwen3.6-35B-A3B il vantaggio è che puoi sgravare sulla RAM di sistema e comuque riesci a stare sopra i 40-50tok/s anche con modelli quantizzati a 4bit per cui quanto meno puoi usarlo in modo decente.

Poi dipende da che budget hai, attualmente quando inizi ad andare sopra il 16GB di VRAM parte il delirio una AMD 9700 XT con 32GB costa 1600-1700€ una NVIDA 5090 con 32GB ormai stanno oltre i 3000€ non parliamo poi di quelli che vanno sulla NVIDIA RTX PRO 6000 da 96GB un mostro da 10k€ a salire ( se la trovi ) macina 2-300tok/s è una roba irreale :lode:

Se puoi provarlo su una macchina che già hai così ti fai un idea perché il salto rispetto ad altri modelli locali c’é, però a quelle cifre te ne paghi di abbonamenti.