ChatGPT e le LLM (Part 2)

Nightmare · April 24, 2026, 8:19pm

ma ci sono problemi con le api di openai e codex?

stavo giocando con la generazione di image-2, fino a ieri molto veloce, 30 secondi o giù di lì, oggi 3 minuti…

in più codex su vscode provato 5.5 e poi 5.4, girava la rondella ma nessuna risposta.

lato status sembra tutto ok, codex ieri sera aveva un ticket.

ma ho dovuto abbandonarlo per gemini, che delle volte ti risponde con high demand try later, che non mi aspetto da Google, e che in caso di utilizzo per lavoro non è usabile.

tra l’altro è migliorato tantissimo

Rampage · April 24, 2026, 8:53pm

Ma qualcuno ha provato ad usare quei miniPC di AMD con la RAM unificata? 128GB? fanno merda a spruzzo o funzionano bene?

LorenzoLamas · April 24, 2026, 9:32pm

su quei mini pc basati su Stryx Halo mi ero informato e ho trovato varie info tipo questi bench

considera ché il modello più veloce grosso è gpt-oss-120b-mxfp4 che arriva a 50tok/s il resto si viaggia sui 20tok/s tipo step flash 3.5 196B quantizzato a Q4_K che occupa 100GB di VRAM

come hardware il migliore è il Bosgame M5 che forse forse trovi a 2300-2500€ spedito dal magazzino in EU in germania dal sito ufficiale, occhio che c’é un sito clone farlocco col nome molto simile che li vende a qualche centianio di euro in meno

i GMK ne parlano come fornetti più piccoli e rumorosi quando ho guardato io costavano 3000€ ora costano 4000€ su amazon.it

Poi ci devi comuque smanettare tra ROCm e Vulkan i kernel ecc.

Nightmare · April 25, 2026, 3:26pm

https://openai.com/it-IT/index/introducing-workspace-agents-in-chatgpt/

HansWin · April 25, 2026, 3:53pm

Mia moglie mi ha chiesto:

“Ma chatgpt è google?”

no

“Ma se gli chiedo di fare una cosa, me la fa?”

Diciamo di si, ma la risposta è articolata.

“E google è meglio?”

Teocrazia · April 25, 2026, 5:15pm

ho il sospetto costeranno un rene

Disponibilità e tariffe

Gli agenti workspace sono disponibili in anteprima di ricerca per i piani ChatGPT Business, Enterprise, Edu e Teachers. Per i piani Enterprise ed Edu, gli amministratori possono abilitare gli agenti tramite controlli basati sui ruoli.

Gli agenti workspace saranno gratuiti fino al 6 maggio 2026, con tariffazione basata sui crediti a partire da tale data.

Nightmare · April 27, 2026, 12:14pm

Google DeepMind Introduces Vision Banana: An Instruction-Tuned Image Generator That Beats SAM 3 on Segmentation and Depth Anything V3 on Metric Depth Estimation

simone14000 · April 27, 2026, 1:28pm

Ho chiesto a chat gpt di impostare la voce da uomo: ha iniziato a parlare da donna ma con il “vocione”. Gli ho detto “cazzo fai” e mi ha risposto: è il massimo che posso fare

Quindi o parla con la voce femminile o femminile + qualche cose di testosterone. The fuck?

Rampage · April 28, 2026, 11:47pm

Ma con qwen 3.6, a te non capita mai che si interrompe mentre ragiona? forse perchè il contesto diventa troppo grosso o perchè sarcazzo boh? tipo a me arriva a 5000 token circa e poi muore male e la risposta si interrompe a metà.. solo che poi non riesci più a farlo ripigliare perchè ogni cosa che gli dici lui ricomincia a rimuginare su tutto quello che non ha finito prima e niente.. va tutto in vacca.

ma se ti facessi leggere i processi di reasoning… è una cosa da delirio.

devo fare così

aspetta.. no…

allora invece sì.. però…

Aspetta che ci ripenso

Un ultimo controllo

questo è davvero l’ultimo…

ma però…

e via.. poi alla lunga implode

Buccy · April 29, 2026, 5:18am

Credo sia demenza vascolare, c’è l’ ha pure mio padre ma

arriva a più o meno 800 token.

LorenzoLamas · April 29, 2026, 9:36am

Qwen3.6 ha questa tendenza ( col 3.5 era pure peggio ) al reasoning smodato, ma dipende anche dai settaggi che usi temperature, repetition ecc. poi dal template, contesto e quantizzazione usata.

Intanto dove lo stai usando in chat o da un agente ? c’è chi disabilità direttamente il reasoning mettendolo su off diventa un modello instruct.

Quando l’ho usato con LM Studio in modalità server con Opencode ho fatto lunghe sessioni con la versione Unsolth IQ3_XXS e il problema che si incantava ripetendo era raro in genere verso fine sessione quando il contesto era pieno però bastava a interromperlo, compattare e si riprendeva.

Ora considera che non voglio fartela lunga ma una soluzione per il reasoning interminabile potrebbe essere questo finetune te lo scarichi sempre in non meno di IQ3_XXS

mradermacher/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled-i1-GGUF

Questo distilled in pratica copia la chain-of-tough di Claude tramite una distillazione per dataset l’ho usato per un po notando che pensa molto meno rispetto alla versione regolare.

Mentre per il loop sincerati in LM Studio in App Setting > Runtime > Runtime Selection > GGUF

se è aggirnato all’ultima versione di llama.cpp e stai usando CUDA o CUDA 12 in genere il problema lo da CUDA liscio e il cambio al CUDA 12 risolve ma nel tuo caso potrebbe essere il contrario visto la GPU un po più vecchiotta prova a fare lo scambio e vedere se risolvi.

Tsunetomo · April 29, 2026, 10:34am

Oppure usare questi meccanismi

Tsunetomo · April 29, 2026, 10:36am

github.com/containers/ramalama

RFE: Add --reasoning-budget flag to control thinking in reasoning models

opened 05:55PM - 11 Nov 25 UTC

closed 06:44PM - 11 Dec 25 UTC

csoriano2718

## Summary Request to expose llama.cpp's `--reasoning-budget` flag in `ramalama …serve` to properly control reasoning/thinking behavior in models like DeepSeek-R1. ## Background - llama.cpp added the `--reasoning-budget` flag (PR [#13771](https://app.semanticdiff.com/gh/ggml-org/llama.cpp/pull/13771/overview)) to address issues where reasoning models continue generating thinking tokens even when disabled - The flag supports: `-1` (unrestricted, default) and `0` (disable thinking completely) - This flag is more effective than the older `--thinking` flag or `enable_thinking: false` API parameter ## Current Situation - Ramalama 0.13.0 currently exposes `--thinking THINKING` flag - The underlying llama-server in the container **does** support `--reasoning-budget` (verified with `llama-server --help`) - However, `--thinking 0` does **not** effectively prevent DeepSeek-R1 from generating reasoning tokens - Result: Users cannot disable thinking even when explicitly requested, wasting inference time ## Test Case ```bash # Current behavior with --thinking 0 $ ramalama serve --port 8080 --thinking 0 ollama://library/deepseek-r1:latest # Query: "What is 2+2?" # Result: Still generates 200+ reasoning_content chunks before answering ``` With logs showing hundreds of `reasoning_content` chunks being emitted despite `--thinking 0`. ## Proposed Solution Add a `--reasoning-budget` flag to `ramalama serve` that passes through to llama-server: ```bash ramalama serve --port 8080 --reasoning-budget 0 ollama://library/deepseek-r1:latest ``` **Alternative:** Update the existing `--thinking` flag to internally use `--reasoning-budget` instead of the legacy parameter. ## Benefits - Users can properly control reasoning model behavior - Aligns with upstream llama.cpp best practices - Fixes known limitation with DeepSeek-R1 and similar reasoning models - Improves inference efficiency when thinking is not desired ## References - llama.cpp issues: #13160, #13189, #15401 - llama.cpp PR: [#13771](https://app.semanticdiff.com/gh/ggml-org/llama.cpp/pull/13771/overview) - llama.cpp commit: [e121edc](https://app.semanticdiff.com/gh/ggml-org/llama.cpp/commit/e121edc4324a640be11b7e567edd39b721b0f8e4) ## Environment - Ramalama: 0.13.0-1.fc42 - Fedora: 42 - llama-server version in container: b52edd2

geps · April 29, 2026, 6:44pm

Vi propongo questo video del buon Tim Carambat, il programmatore di AnythingLLM, che dice cose assolutamente condivisibili sul fatto che l’IA basata su servizi cloud è tutta roba destinata a sicura merdificazione, cosa che con i modelli che girano in locale non può accadere

scarred_angel · April 29, 2026, 7:12pm

E che quant usi te di Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled-i1-GGUF? sempre l’IQ3_XXS?

LorenzoLamas · April 29, 2026, 10:05pm

Sempre la IQ3_XXS però attualmente la uso con llama.cpp di Unsolth Studio che ogni volta che lo aggiorni tira giù anche l’ultima versione di llama.cpp

Che ti dà il vantaggio della tuning tramite batch e loro che ne tirano fuori 3-4 al giorno aggiungno features ma cambiano anche roba, ho già dovuto rimettere mano al batch due tre volte, ieri sono cambiati i parametri dello speculative decoding, domani aggiorno anche batch e info sul repo che ho linkato

Comunque una curiosità ho fatto il solito test rapido del prompt della pallina che rimbalza nell’esagono rotante spec driven in python/pygame. La specifica di azione più grossa del risultato stesso, Borges in amused

Qwen3.6 35B liscio vs Qwen3.6 35B con reasoning budget a 1000 vs Qwen3.6 3B Claude distilled

Ed alla fine in questa prova one shot vince Qwen3.5 35B liscio perché ci impiega quasi 9000 token poi a un certo punto vedi il kick in dello speculative decoding ( lo vedi proprio nel log del terminale ) che è quello che fa salire la velocità da 120tok/s fino a 150tok/s perché sui prompt da vibecoder i 120tok/si non li supero mai.

Produce un codice perfettamente funzionante gli altri due invece ci lasciano qualche bug minore che non lo fa partire o parte e va in crash.

Questa cosa comunque è molto meno grave di quanto possa sembrare perché un agente come Opencode ha LSP e certi errori manco li vedi usa i tools interni di verifica di Python come pyright e può fare tool calling con i vari linter, type checker, formatter ecc.

cecio · April 30, 2026, 7:13am

Hickso · April 30, 2026, 7:54am

Dopo che bestemmiavo da mezz’ora con excel ho fatto fare a Claude e in 5 minuti ha fatto tutto, GG, i 200 euro più isi del mese

vine · April 30, 2026, 8:12am

ho una domanda per te visto che stai facendo esattamente quello che vorrei fare io (usare qwen 3.6 35B per coding): che macchina hai? vorrei farmi una workstation con quello scopo ma sono completamente a digiuno a riguardo. attualmente uso Claude via AWS Bedrock con Opencode (ho i miei agent/subagent ma tendenzialmente uso principalmente Sonnet e Opus solo come agent advisor)

LorenzoLamas · April 30, 2026, 6:44pm

Se hai una cpu decente ( ho un 5800x del 2020 ) e almeno un 32GB di ram di sistema basta una scheda video con 16GB di VRAM ( ho una 4080 con 16GB del 2022 ) con i modelli MoE come Qwen3.6-35B-A3B il vantaggio è che puoi sgravare sulla RAM di sistema e comuque riesci a stare sopra i 40-50tok/s anche con modelli quantizzati a 4bit per cui quanto meno puoi usarlo in modo decente.

Poi dipende da che budget hai, attualmente quando inizi ad andare sopra il 16GB di VRAM parte il delirio una AMD 9700 XT con 32GB costa 1600-1700€ una NVIDA 5090 con 32GB ormai stanno oltre i 3000€ non parliamo poi di quelli che vanno sulla NVIDIA RTX PRO 6000 da 96GB un mostro da 10k€ a salire ( se la trovi ) macina 2-300tok/s è una roba irreale

Se puoi provarlo su una macchina che già hai così ti fai un idea perché il salto rispetto ad altri modelli locali c’é, però a quelle cifre te ne paghi di abbonamenti.