ChatGPT e le LLM (Part 2)

bel video di Flora in merito

Lo chiamano sempre Agentic RAG comuque è una vettorializzazione pure quella come lo è un embedding.

Un po’ come noi umani prendiamo appunti e ci facciamo i cheat sheet senza conoscere a memoria tomi di testo le LLM conservano così la persistenza mnemonica per fare fronte alla la loro “limitata” context size, che poi 200k token pochi non sono.

Nei vari usi multiagentici ( belli costosi ) oltre agli architect, orchestrator, coder/worker c’è chi usa a supporto agenti apposta che gestiscono la memoria: memory manager, summarizer, validator ecc. insomma un vero team.

L’esperimento di Cursor ne è stato un esempio già il fatto che siano riusciti a coordinare 3000 agenti a produrre 3 milioni di LOC in due settimane ed il codice compila… Poi avrà una marea di problemi ma :lode:

Se non mi sbaglio la context size de default di Ollama è 4096 è potresti provare a impostarlo a 16k e abbassare i parametri di temperature.

Lo sto usando come agente in server mode con lmstudio con i parametri appositi per agentici per il plug-in Roo in Vscode che è e dunque non è in modalità chat.

mah,

la mia è al momento una curiosità. Di fatto non credo ci metterei piede.

A me tutto il tech arriva ormai come problematico per default e alla fine rinuncio ad adottare le novità anche le più elementari certe volte, per svariati motivi.

È come aver rinunciato a nerdare nella mia testa.

Mi arriva tutto effimero, transitorio, immerdato, vacuo, fine solo a generare cervelli bruciati.

Oltre ai rischi di questa iper esposizione che oramai mi pare incontrollabile.

Resta lontana nei ricordi l’epoca in cui si credeva davvero che l’IT avrebbe migliorato il pianeta.

Per chi se la ricorda è durata il tempo di un gettone.

No no, senza vector DB.

Do al mio agent dei tool (list_files, search_index, parser, etc…) e gli faccio fare reasoning sul mio prompt per andare iterativamente a esplorare parti del documento per ottenere la risposta.

Senza dover impazzire a decidere la logica di chunking, ottimizzare il prompt utente, quale vector DB utilizzare, se e quali metadati appendere, se ricerca pura semantica o ibrida, come fare reranking, interrogarmi se domanda e risposta sono semanticamente collegate, decidere il topK e ottimizzare la soglia, fare re-ranking sì/no e come, etc…

Nel 99% dei nostri casi d’uso abbiamo dismesso l’architettura RAG per questo motivo. Consumiamo più token per ogni interrogazione, sì, ma ne guadagniamo in traceability, in un’infrastruttura più snella con meno pezzi da mantenere (indici Pinecone…) e quasi sempre in performance di retrieval

Noi umani classifichiamo le cose per attinenza informata dall’esperienza e dal ragionamento, non per vicinanza semantica in uno spazio vettoriale a 1000 dimensioni popolato a forza bruta su campioni statistici enormi e non necessariamente rilevanti.

3 Likes

Ma se devi spiegarla in termini umani come fanno decine/centinaia di agenti a coordinarsi ed a scrivere codice con delle context size limitate e riesci a spiegarlo meglio sei il benvenuto, perché a dire che allucinano, degradano e perdono il contesto siamo d’accordo.

Dico solo che magari non è una buona idea suggerire che i processi cognitivi nel biologico (10W di consumo totale, con processing neuronale con rate limitato dalla tempistica dei canali ionici, ma di contro complessità enorme di topologia) siano analoghi a quello che agisce negli LLM.

Sono due cose completamente diverse, e infatti le difficoltà che si trovano sul problema della memoria (RAG o mica RAG) discendono dal fatto che nonostante i megawatt e i nanosecondi come diceva Quelo “il problema è malposto”, o anche “la risposta è dentro di te, ma è sbagliata”.

3 Likes

Si però noi 10 watt dopo un paio di decenni di training qualche migliaio di anni a raccogliere il dataset :asd:

Ho provato il nuovo video generation di Grok.
Porca paletta

1 Like

Stesse sensazioni qui, ormai quasi tutto quello che mi scorre davanti è un noioso deja vu e le poche cose che riconosco come nuove sono colorate di marrone e puzzano.

L’unico motivo per cui continuo a provare interesse e curiosità nelle cose nuove è la paura di rimanere indietro e di non essere più in grado di cavarmela da solo.
Il motivo per cui ho installato openclaw alla fine è proprio questo: la paura di non essere più nemmeno in grado di capire cosa fa, a cosa serve e come funziona un programma del 2026.

2 Likes

comprati una chitarra, inizia a dipingere miniature, dedicati al giardinaggio o inizia a intagliare il legno :sisi:

3 Likes

Checkmate diritto!

shhh lascia fare a me

Geps, ragazzo mio sei super intelligente

c’è un forum da portare avanti tenendolo sempre a passo con i tempi

1 Like

Sono tutte attività che non risolvono il problema di fondo, che è la paura di rincoglionire, di rimanere indietro e di non essere più al passo con i tempi.

Penso proprio che continuerò a giocare con il mio bot, che non reca danni a nessuno e mi fa sentire ancora intellettualmente attivo, senza nulla togliere a chi preferisce pitturare le miniature.

Io penso sia inevitabile, per quello ho comprato una chitarra, sistemato il mio giardinetto e iniziato a dipingere miniature :asd:

4 Likes

Il primo passo è accettare che non hai il controllo
Il secondo è trovare qualcosa da fare per pensarci il meno possibile :asd:

3 Likes

Bravo. Arrendetevi alla vecchiaia.
Ogni resistenza è inutile, verrete assimilati :sisi:

The crude biomass of humanrells gazing into the worksites

1 Like