Microsoft presenta un modello quantizzato nativamente con bitnet a 1bit e i risultati sono a dir poco sorprendenti
Già Google con Gemma quantizzato nativamente a 4bit aveva mostrato la bontà di questo nuovo approccio con una qualità molto vicina ai 16bit nativi.
Ma qui siamo veramente oltre, si parla di costumi e dimensioni di almeno almeno un decimo più bassi, il che vuol dire modelli da 70 miliardi di parametri che potrebbero occupare meno di 14gb di vram
Ho da poco fatto la subscription per provare Chatgpt a pagamento. Non mi è chiara però una cosa: tra i vari modelli (Chatgpt 4o, 4o mini, 4.5, etc.), qual’è il migliore se io voglio porgli domande politiche, geopolitiche, o di fare ragionamenti storici e sociali? Forse Chatgpt non è l’AI migliore nel campo delle scienze sociali e ci sono soluzioni migliori? Leggendo in giro mi pare di capire che la maggior parte delle review dei vari modelli vengono spesso basate usando casistiche e potenzialità legate al coding o materie STEM.
Se hai bisogno di fact-checking e non ragionamenti generali su correnti di pensiero (es: “raccontami i principi cardine dell’Illuminismo”), il problema non è la variante di modello ma la modalità d’uso.
Non puoi fidarti dell"'internal knowledge" del modello, poiché l’AI può inventarsi avvenimenti e concetti, inserendotoli tra l’altro in un’argomentazione più che verosimile, col rischio di pigliarti grosse cantonate. Al momento, la modalità migliore per ridurre il rischio (ma non azzerarlo) è di usare Deep Research: un’AI agent istruito per simulare il comportamento di ricerca di un umano sul web, dato un set di istruzioni che gli dai tu in input.
La ricerca web riduce il rischo di allucinazioni, ancorando i ragionamenti successivi alla “conoscenza” che il modello ha acquisito durante quella ricerca web approfondita.
In alternativa, se quella la domanda è contenuta o desumibile da una specifica knowledge base, puoi caricare l’eventuale PDF e - come prima - forzare il modello a vincolare i propri ragionamenti attorno al contenuto del documento allegato
ok grazie. La “fregatura” è ovviamente che si hanno limitate (10) deep search a disposizione con l’abbonamento base. Ma ho un dubbio: poniamo il caso io faccia fare una deep search chiedendo “le possibili motivazioni sociali e politiche turche verso l’implementazione delle politiche migratorie degli ultimi 15 anni”. Chatgpt ci pensa e mi da una risposta corposa, verosimile, etc. Dopo due giorni voglio tornare sull’argomento, ma ora ovviamente partendo da una base che è quella “più ricercata” che mi ha prodotto dall’ultima deep search. Devo copiargli-incollargli ultima nostra discussione affinchè lui capisca che il livello di dettaglio che desidero è quello, o ha “già imparato” che quando gli chiedo dettagli su quell’argomento, deve già partire da quanto avevamo precedentemente detto (non so se mi sono spiegato)?
Devi ripartire dalla stessa conversazione e lui userà la history conversazionale di quella stessa chat come “contesto” per continuare la conversazione.
Fai conto che questi modelli hanno una finestra di contesto che è cresciuta parecchio dalle prime versioni, ma non è infinita. Ad un certo punto dimenticherà ciò che vi siete detti, semplicemente perché il corpus documentale che deve gestire è diventato troppo ampio.
Anche qui semplificando, ma non di tanto, il modello non fa altro che predire la prossima parola, dato l’input. E fa questa operazione ricorsivamente nel generarti la risposta (ogni nuova parola generata entra a parte parte dell’input per la generazione della parola successiva).
L’input è composto dalla tua query, dalla history conversazionale di quella chat e da eventuali documenti allegati (oltre ad altri input di sistema che però per te sono trasparenti e che possiamo ignorare).
Arrivata alla finestra massima gestibile da quel modello (es: 100.000 token, dove un token è un pezzo di parola), la finestra diventa “mobile” e, per generare la prossima parola (token), dimentica la prima parola (token) che ha in input. E così via.
Poi ci sono diverse strategie che si possono adottare e che presumibilmente ChatGPT adotta per ovviare a queste limitazioni, come banalmente pre-processare l’history conversazionale per crearne una sintesi e usare solo la sintesi come input.
Però inevitabilmente, prima o poi, su testi molto lunghi il modello tenderà a perdere consistenza perché “dimenticherà” ciò che vi siete detti.
dopo i consigli sull’upgrade della scheda video, ho appena trovato un altro utilizzo utile di chatgpt: mi sono fatto consigliare cosa regalare per il compleanno di un anziano parente acquisito che non vedo e non sento da un sacco di tempo.
tirare fuori un’idea per un regalo carino e originale è una di quelle cose in cui io faccio veramente cacare e su questa roba gli llm sono davvero una manna dal cielo
perché la faccina triste Godot?
in realtà mi ha davvero aiutato a trovare un regalo meno banale e che apprezzerà di più, chatgpt inizialmente mi ha vomitato fuori una lista infinita di regali inutili, ma ad un certo punto se ne è uscito con una roba tipo: al posto di un unico regalo più costoso, potresti regalargli una scatola contenente più oggetti simpatici ma di minor valore.
l’idea mi è piaciuta subito e le cazzatine da metterci dentro le ho scelte io insieme a mia moglie e ora siamo molto contenti del regalo che gli faremo.
Ero indeciso fra la faccina triste e quella triggerata.
Sulla GPU mi sembra più un modo per sentirsi dire quello che ti volevi sentir dire invece di stare appresso a Drest e Amon. I benchmark li conosciamo tutti, le disponibilità economiche personali le conosci bene tu e così quanto sei scimmiato o meno.
Per il regalo, boh, per come l’avevi scritta all’inizio sembrava davvero che avessi scelto una roba a caso giusto perché te l’aveva detto l’LLM. Leggendo quanto hai scritto ora invece vedo che ti ha letteralmente suggerito “è il pensiero quello che conta”, e anche qua 'sta manna del cielo non ce la vedo.
È un tipo di brainstorming che preferisco fare con un amico o un appassionato, sia in un caso che nell’altro.