ChatGPT e le LLM (Part 2)

beh magari in un futuro prossimo negli US questi comportamenti saranno corretti con una bella defenestrazione russian style :sisi:

comunque sul tema AI e impiego segnalo

No va beh semplicemente nel senso di come sopravvivere al board che ti cambia al volo appena apri becco e perdi i soldi.

trovato questo fatto da un utente su nano banana 2

ci ho appena fatto roba x un progetto e boh, mi pare identico al pro

intanto post commento di Oath ho fatto dare una ripulita a claude (nulla di def ma sticazzi) :asd:

1 Like

Hai descritto il lavoro che fa un senior coordinando n junior (o degli esterni) :asdsad:

ho appena passato un paio di ore molto piacevoli dando in pasto le domande di questo test a vari modelli locali e non, claude sonnet 4.6 rompe il culo anche a mia moglie, che sulle sequenze di numeri manco ci si mette e su quelle di logica ogni tanto toppa clamorosamente mentre claude è sempre sul pezzo e scrive le spiegazioni pure meglio di come potrei fare io :asd:

edit: nel provare i vari modelli online su perplexity ho disattivato la ricerca web, quindi i modelli in teoria mi hanno risposto con quello che già conoscono e non cercando la soluzione online. altra cosa che ho notato. è che con claude se il prompt è di quelli che richiedono “ragionamento”, si dimentica che mi dovrebbe rispondere come Elgoog e dovrebbe perlomeno insultarmi un pochino, invece è concentratissimo nel rispondere al test :asd:

si, e conoscono anche i test :asd:

infatti ci son dei test appositi, mi sembra last human exam, che non sono pubblici.

si ma anche no

sì, nel senso che conosco last human exam e quello che stanno facendo, ma quello che ho fatto io ovviamente non c’entra nulla con quella roba, mi serviva solo per capire meglio i limiti logici e di comprensione di un testo di minstral, gpt-oss, deepseek e soci rispetto ai grossi modelli online a pagamento.

anche no, nel senso che nessuno, tranne forse chi ha addestrato claude ma manco è detto, può sapere se durante l’addestramento gli sia stato dato esattamente quel pdf che ho likato, ma in ogni caso la cosa è irrilevante. le risposte vengono comunque ricalcolate da claude, non esiste un database con tutte le risposte possibili a tutte le domande possibili, ll modello o è in grado di comprendere esattamente cosa gli sto chiedendo, riconoscere la natura del problema e di calcolarmi l’unica risposta logica possibile, oppure non è in grado.

Si che è ancora peggio perché hai a che fare con altri esseri umani :sisi:

Non sapevo bene dove postarlo, ha una visione interessante e un po’ diversa sull’evoluzione dell’AI, e di Internet (dal minuto 11 mi pare)

condivido qui un test di comprensione del testo e logica su modelli locali, magari a qualcuno può interessare.

la domanda è abbastanza stronzetta, secondo me un sacco di umani non ci arrivano nemmeno dopo che gliela spieghi e sono pronto a scommettere che, a giudicare da come fanno la differenziata, meno della metà di quelli che abitano il mio palazzo sono in grado di rispondere correttamente :asd:

gpt-oss 20B risponde correttamente e come suo solito nella risposta riesce anche questa volta a infilarci una cazzo di tabellina :asd:

DeepSeek R1 14B risponde correttamente anche se come al solito prima traduce il mio prompt in inglese, poi lo lavora e solo alla fine lo ritraduce in italiano. paradossalmente se gli fai prima tradurre il prompt in inglese e poi gli dai quello, lavora meglio. cmq risponde bene.

Ministral 8B, il modello che muove il mio bot openclaw, lui poverino avrebbe pure capito che si tratta di una domanda di quelle stronze e ci si impegna pure a rispondere usando la logica, però gli mancano le risorse e finisce che spara cazzate :asd:

Gemma 3 8B (il modello openweight di google), a mani basse il miglior Elgoog in assoluto tra i modelli piccoli da 8B, lui manco ci prova a fare un ragionamento logico, si limita semplicemente a rispondere cose per sentito dire, però se non altro è simpatico e in finale anche se ha sbagliato ha ragione lui :asdlode:

1 Like

Trump ha mandato affanculo Anthropic dichiarandola un rischio per la sicurezza, e OpenAI si è buttata tipo avvoltoio e l’ha rimpiazzata, con Altman che fa il bravo sicofante.

1 Like

By the way, chi di voi sta pagando soldi a OpenAI?

Come vi sentite all’idea che ora faranno quello che Anthropic ha rifiutato, cioè armi e sorveglianza di massa?

personalmente non ho mai tirato fuori 1 euro per avere servizi IA e conto di proseguire su questa strada virtuosa il più a lungo possibile, provo tutte le IA che mi passano sotto mano ma solo se lo posso fare a scrocco :asd:

nel caso specifico, bella merda usare l’IA in quel modo, cmq nella classifica di chi fa più schifo al cazzo, dato che amodei giustamente si è tirato indietro, meglio che quella roba finisca in mano ad altman che a musk.

mi sembra un’asticella molto molto bassa

2 Likes

Stavo venendo a postarlo. Assolutamente da boicottare, considerando che Anthropic comunque già lavora con Palantir, quindi non oso immaginare neanche di cosa si stesse parlando come possibili utilizzi per causare quella decisione da parte di Amodei et al.

Noto ora che hanno anche punito Anthropic: Hegseth declares Anthropic a supply chain risk, restricting military contractors from doing business with AI giant - CBS News .

1 Like

Uno dei punti previsti da Ardoino è che secondo lui per forza di cose il modello attuale dei colossi che cercano di costruire la propria AI privata è destinato a fallire proprio perché è necessario ed implicito un continuo aggiornamento; e che quindi il modello verso cui si arriverà sarà una super AI diffusa sulla rete globale ed in costante aggiornamento, in modello peer to peer

non ci avevo mai pensato in questi termini, voi come la vedete?

il sapere è comunque diffuso liquido ed in confinato, conseguentemente in effetti al netto di altre considerazioni parrebbe logico che lo diventi anche la ai

Vedo che va contro le due spinte del capitalismo delle grandi imprese, e dell’autoritarismo in aumento dei governi.

Guardando al settore tech/computing, mi pare che la tendenza sia quella di controllare sempre di più quello che uno possa fare con i propri computer.

Per i primi, la cosa è esemplificata nel il concetto di software-as-a-service, i.e. non puoi più usare il programma come vuoi, quando vuoi, per fare quello che vuoi, ma è un servizio a cui accedi da remoto dove io posso sempre controllare quello che fai e cambiare anche quello che puoi fare, anche a posteriori (vedi Adobe e Pantone per dire con i colori che sono stati sostituiti con il nero se non pagavi .Adobe Just Held a Bunch of Pantone Colors Hostage | WIRED). Chiaramente in un modello peer-to-peer dove l’utente finale ha controllo/è parte di un sistema, non puoi fare questi giochi. Lato hardware, il sogno di ogni azienda sarebbe ovviamente quello di limitare l’ecosistema software a quello che va bene a te per pillare, vedi Apple.

Per i secondi, mi pare evidente che i governo, o meglio certe elite che sono incistate nella classe politica, temono una qualche perdita del loro status, e puntano sempre di più a limitare cosa uno possa fare con i computer (“per la nostra sicurezza :dentone:”), oltre che a cercare di identificare con sistemi di sorveglianza di massa ogni possibile interazione. Giusto ieri vedevo che la California ha introdotto una legge che impone la verifica delle età a tutti i sistemi operativi al setup (Reddit - The heart of the internet) . L’unica ragione per una cosa del genere è la schedatura di massa.

Insomma, sviluppi nella direzione di maggior potere/controllo agli utenti finali trovano di fronte due nemici formidabili.

Vero, però bitcoin è un progetto che è nato diffuso ed attecchito. Loro (e se non loro, sarà qualcun altro) stanno lavorando ad una AI open source decentralizzata su tutta la rete; al netto di tutte le considerazioni tecniche su cui sono assolutamente ignorante, mi pare che come modello possa avere dei plus, proprio perché molto in linea con le caratteristiche del sottostante del “sapere”, che è appunto liquido in continuo miglioramento ed in una certa misura open source

Certo dall’altro ci sono trilioni di dollari contro, ma che vantaggio concreto possono apportare sul medio lungo termine? La capacità di calcolo?