Ma quindi è possibile che Deepseek sia stato allenato utilizzando ChatGPT come sostenuto nel video e se così fosse non è violazione bella e buona del diritto d’autore?
Usare un modello più grande per fare distillation o synthetic data generation è pratica ormai consolidata in ricerca e letteratura. A OpenAI rode il culo che per la prima volta un modello open source (e che non sia Llama del suo “amico” LeCun) abbia performance comparabili a modelli closed.
Di fatto OpenAI è nella merda in ottica prospettica.
Il loro vantaggio competitivo si sta assottigliando sempre di più e il contenuto innnovativo dei loro modelli non è più state-of-the-art. Questo unito al fatto che già così OpenAI non è profittevole, nemmeno sui costi variabili dei suoi modelli flagship, è un bel grattacapo per Altman.
Si al di la’ delle considerazioni tecniche, il fatto che chatGPT frigni perche’ potrebbero aver usato la loro roba per trainare DS e’ una storia che andrebbe solo raccontata dopo un ecocardiogramma perche’ rischia di ammazzare dalle risate.
Non lo so, per allenare OpenAI si son passati praticamente l’intero internet, col gpt 3.5 riuscivi pure a tirarti giù le robe di questo forum prima che implementassero le dinamiche antiplagio. Poi sai in Cina che problemi si fanno sul diritto d’autore
No, credo che nel caso di Deepseek - poiché l’architettura di OpenAI non è open e non si riesca a fare distillation - abbiano semplicemente fatto synthetic data generation. Cosa che puoi fare anche tu chiedendo a ChatGPT di generarti dati (etichettati e non) per finalità di addestramento/fine tuning di un tuo modello.
@cecio mi sei venuto in mente, tra un mese a inizio semestre tengo un corso di artificial intelligence e sono alla disperata ricerca di dataset pubblici da usare per fargli vedere come funziona scikit-learn.
No seriamente, io andrei su Kaggle e prenderei un qualche dataset da lì, così hai anche tutta la community che ci ha lavorato su in termini di analisi descrittive e modelli predittivi
No, hai ragione, ho usato un’accezione troppo ristretta di distillation che non comprendeva la generazione di dati sintetici come esempio di distillation
Però la pratica è quella: usi un modello più grande o potente (vedi GPT-4o o o1) per far fare delle previsioni su un dataset e istruisci il tuo modello affinché approssimi la distribuzione di probabilità delle previsioni del modello potente
Come alternativa (che in genere usavo nei processi di recruitment per l’assignment a casa, così da non avere rotture di cazzo con NDA e robe simili), mi facevo generare un dataset con un package qualsiasi di Structural Equation Modelling, conoscendo la struttura dei dati.
Operavo qualche trasformazione per rendere le distribuzioni un po’ più brutte, aggiungevo dei missing qua e là e via.
Poi che la cosa fosse robusta a livello metodologico non lo so, perché le mie conoscenze di statistica sono quelle di un data scientist, cioè abbastanza elementari Però per lo scopo, funzionava
Intanto: quella è una copia del libro in meno che l’autore ha venduto.
Secondo: non si tratta di “riassumi” perché se spingi ChatGPT un pochino riesci a fargli generare testi ed immagini che sono esattamente quelli su cui è stato addestrato. Ma pari pari, eh.
Suvvia, un pochino di onestà intellettuale.
(E non parliamo del fatto che usare le AI generative è un modo per eliminare posti di lavoro, che è anche il punto più importante.)
Non ho idea della legislazione in merito o se è per questo della fattibilità tecnica, ma moralmente OpenAI per quanto mi riguarda può solo puppare, Sam Altman è stato il primo a fregarsene del diritto d’autore quando era lui quello che doveva farci i miliardi.