ChatGPT e le LLM (Part 2)

scarred_angel · April 18, 2026, 7:59am

Beh, ma essendo un modello MoE, puoi farlo girare anche con poca VRAM, l’importante è che hai abbastanza RAM

Teocrazia · April 18, 2026, 8:02am

madonna claude design
inizia a starmi stretto il piano da 100 euro

Teocrazia · April 18, 2026, 8:02am

ma prenderti un mac mini che con la unified risolve sto problema?

Nyarlathothep · April 18, 2026, 9:17am

Ora, posto che per ragioni di architettura hardware non avrà la stessa velocità che un Apple Silicon, ma llamma.cpp dovrebbe supportare lla stessa cosa su Linux via CUDA unified memory, se usate GPU nvidia (A dire il vero, non ho controllato esplicitamente, ma mi sembra che ollama-cuda su arch la abiliti di default visto quello che faccio, dopo controllo).

The environment variable GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 can be used to enable unified memory in Linux. This allows swapping to system RAM instead of crashing when the GPU VRAM is exhausted. In Windows this setting is available in the NVIDIA control panel as System Memory Fallback.

Edit: non ho una GPU AMD ma sembra che ci siano possibilità simili, su Linux, anche in quel caso, googlando in giro.

Rampage · April 18, 2026, 11:27am

RAM ne ho.. ho 64GB, il problema è che la VGA ne ha solo 8.

Sto provando con LM Studio ma non so come calibrare bene il tutto per renderlo “usabile”

EDIT: ed infatti si pianta nelle fasi di reasoning anche più banali.

Nickolas · April 18, 2026, 4:26pm

Come mai?

Nightmare · April 18, 2026, 7:47pm

Today, we’re introducing GPT‑Rosalind, our frontier reasoning model built to support research across biology, drug discovery, and translational medicine. The life sciences model series is optimized for scientific workflows, combining improved tool use with deeper understanding across chemistry, protein engineering, and genomics.

https://openai.com/index/introducing-gpt-rosalind/

LorenzoLamas · April 18, 2026, 8:00pm

Come modello usa quello di unlosth qwen3.6-35b-a3b@iq3_xxs è quello che ho usato maggiormente e ne confermo la bontà per curiosità ho provato pure quello a 2bit ma è inutile si impalla subito.

Nel menù del modello abilita gli advanced settings imposti Context Length 128000 e lo slider del GPU offload 40 e poi vai alla voce sotto Number of Expert impostata a 8 imposta Numbers of layers for which to force MoE weights onto CPU 36

Con questi settaggi a me usa appena 7GB di VRAM ( incluso win11 ) e tutto il resto dell’utilizzo va sulla RAM di sistema poi non so che GPU hai e a quanto ti andrà

Nightmare · April 18, 2026, 8:17pm

When not using reasoning, repeating the input prompt improves performance for popular models (Gemini, GPT, Claude, and Deepseek) without increasing the number of generated tokens or latency.

Teocrazia · April 18, 2026, 9:06pm

perchè ha “pochi” crediti
son fermo fino a venerdì prox ora

Rampage · April 18, 2026, 10:20pm

proverò e ti faccio sapere grazie

comunque una 3070ti

EDIT: ho provato le cusrtomizzazioni che mi hai suggerito. Se spingo a 40 (il massimo), l’offload, nei calcoli che mi da sulla quantità di RAM della GPU diventano la totalità della grandezza del modello, quindi c.a. 22GB (o qualcosa del genere).
Ho dovuto tunare quel parametro parecchio al ribasso per farlo stare, però diciamo che funziona.. non è velocissimo, ma funziona, e le cose le fa. Unica cosa che noto è che sembra usare poco la GPU e un sacco la CPU, cosa che non capisco come mai.

Per ora sto solo chattando direttamente, non ho ancora provato ad usarlo con uno strumento di coding che mi gestisca lui il progetto.

A proposito, tu cosa usi?

LorenzoLamas · April 21, 2026, 2:22pm

attualmente ho creato un preset apposito per la modalità agentica ( quello nel pannello di destra ) con un nome tipo Qwen3.6-Agent ed un system prompt da software engineer che ovviamente potrai tweakarti a tuo piacere.

You are an expert software engineer and technical assistant. You write clean, efficient, and well-structured code. You prefer practical solutions over theoretical ones.

When answering:

Be concise. Skip unnecessary preamble.

Show code directly, with minimal explanation unless asked.

If multiple approaches exist, pick the best one and briefly mention the trade-offs.

Prefer modern best practices and idiomatic patterns for the language in use.

If something is unclear, ask one focused clarifying question before proceeding.

Point out potential bugs, edge cases, or security issues when relevant.

When asked to refactor, preserve the original behavior unless explicitly told otherwise.

Always consider readability and maintainability alongside performance.

You are comfortable with: JavaScript/TypeScript, Python, C/C++, shell scripting, Angular, Electron, Node.js, embedded systems (Arduino, ESP32), and local LLM tooling.

Ed i seguenti paramentri nei Settings

poi lo sto usando con codex ed opencode da linea di comando

gigawat · April 21, 2026, 4:54pm

Mi serve una mano che ho sfondato claude (ho esaurito il traffico settimanale, più un pacchetto extra da 20 euro, ho anche comprato 20 euro di token per elaborazione immagini)
Almeno al prossimo giro so meglio coisa indicargli, nel frattempo sono passato a gemini che vabbeh, fa cagare però mi ha dato alcune informazioni utili.
Io ho una serie di file.
Questi file hanno al loro interno i dati di antenne che mandano impulsi elettromagnetici.
Quando inviare questi impulsi elettromagnetici viene deciso da un encoder.
Antenna manda, antenna riceve: il tempo di ritorno è il dato.
Questo dato viene trasformato in pixel.
Su questo pixel io scelgo dei punti.

Ora, voglio automatizzare questo processo.
Con claude mi sono costruito una app che effettivamente apre tutto correttamente, ma il detecting automatico è nammerda perché prova a farlo cercando di applicare una formula matematica, ma sono uno scatafascio di segnali con una quantità immensa di rumore quindi da solo non ce la fa.

Al che mi è venuto in mente: ok faccio con deep learning, processo io una marea di dati nel corso delle prossime settimane e mi faccio il mio algoritmo da far applicare poi.

Bene, gemini mi ha dato delle dritte, e ci sono effettivamente dei sistemi di deep learning usati in ambito medico in cui si scelgono noi i picchi, che diventano una sorta di pattern, che poi vengono a quel punto individuati in automatico.
Questa parte nello specifico, da fare in locale (io apro i dati letti correttamente, scelgo i picchi, rinse e repeat fino allo sfinimento) avete idea di come costruirla?
Gemini ha consigliato cvat e salvare poi il processing compiuto in yolo pose
Però gemini non riesce a costruire seriamente l’interfaccia per aprire i dati (dati che invece claude ha aperto correttamente)

LorenzoLamas · April 21, 2026, 10:24pm

Ma perché farlo lavorare sui pixel e non sui dati direttamente ? Non li hai a disposizione ? Serve che venga imitata l’azione umana in modo fedele ?

gigawat · April 21, 2026, 10:33pm

Ho i dati, ma i dati sono comprensivi di una quantità smisurata di rumore.
Vengono trasformati in immagini perché la maggior parte non vengono esclusi, a quel punto visivamente individui i picchi (perché io che lo guardo so se un determinato insieme di pixel è un picco o un riflesso)
Fare una formula che prenda solo determinati insieme di valori su decine di migliaia di valori, che devono essere pure correlati tra loro (molteplici antenne ognuna con decine di migliaia di righe di valori) è un delirio.
Trasformato in immagini, e istruito a dovere, dovrebbe arrivare a selezionare solo i picchi che selezionerei io (dovrebbe)
(aggiungo, trasformati in immagini viene già attuato un processamento di filtraggio proprio per ricavare qualcosa che sia visivamente interpretabile. Al tool di processamento sono riuscito ad arrivarci, o almeno non sono lontano dall’avere un processamento apprezzabile e corretto)

LorenzoLamas · April 21, 2026, 11:12pm

E ma pure quello che vuoi fare non è una passeggiata devi preparare un dataset con i dati labeled e poi fare il supervised tuning

Se puoi lavorare sui dati chiedi alla LLM di usare sui i classificatori neurali ci sono quelli clustering, unsupervised e i self-supervised eviti sto casino.

Tsunetomo · April 22, 2026, 3:56am

Giga, così a naso ti direi prima di studiare delle buone basi di signal treatment e solo dopo di buttarti sulla parte di machine learning.

Estrarre features da segnali rumorosi è un tema ben sviscerato. Casomai usa le LLM come tutor, se proprio non riesci a vivere senza.

Trovati una copia pdf di “numerical recipes” e guardati le sezioni sui filtri di wiener e qualsiasi altra cosa si applichi al tuo caso.

Teocrazia · April 22, 2026, 5:24am

Mi è arrivato ChatGPT image 2

gigawat · April 22, 2026, 8:39am

Rispondo a entrambi. Quel libro sembra veramente una bibbia, ottimo.
Da quello che ho appreso (non ho sviluppato io l’algoritmo di processamento) si usano degli algoritmi ormai consolidati (a livello costruttivo e di principio fisico gli strumenti sono fondamentalmente uguali da 30 anni), quindi dewow, migrazione kirchhoff, collasso parabola eccetera.
Partendo da alcuni dati noti (costante dielettrica, frequenza dell’impulso, materiale) si applicano questi calcoli (che matematicamente NON conosco, quindi sicuramente approfondisco questi, immagino saranno trattati nel libro pure)
Il rapporto tra questi elementi crea l’immagine.
Elementi in più da far considerare alla llm ora ne ho, nel frattempo approfondisco che fino a venerdì ho esaurito il consumo.

Tsunetomo · April 22, 2026, 8:44am

Sì, quello che voglio dire è che le LLM non ti sostituiscono per quanto riguarda la comprensione del problema e il framing della domanda.

Studia, capisci, documenta, riassumi e solo alla fine di questi 4 passaggi diventa ragionevole pensare a quale strumento utilizzare.