Deepseek è stato allenato usando ChatGPT?

Ho visto oggi questo interessante video su youtube: https://www.youtube.com/watch?v=9fP_vjl3WyQ&t=722s

Ma quindi è possibile che Deepseek sia stato allenato utilizzando ChatGPT come sostenuto nel video e se così fosse non è violazione bella e buona del diritto d’autore?

letta anch’io giorni fà

so cinesi, tutto pò esse

Direi di no.

Usare un modello più grande per fare distillation o synthetic data generation è pratica ormai consolidata in ricerca e letteratura. A OpenAI rode il culo che per la prima volta un modello open source (e che non sia Llama del suo “amico” LeCun) abbia performance comparabili a modelli closed.

Di fatto OpenAI è nella merda in ottica prospettica.

Il loro vantaggio competitivo si sta assottigliando sempre di più e il contenuto innnovativo dei loro modelli non è più state-of-the-art. Questo unito al fatto che già così OpenAI non è profittevole, nemmeno sui costi variabili dei suoi modelli flagship, è un bel grattacapo per Altman.

3 Likes

il diritto d’autore che OpenAI non paga alle fonti da cui attinge, dici?

13 Likes

Si al di la’ delle considerazioni tecniche, il fatto che chatGPT frigni perche’ potrebbero aver usato la loro roba per trainare DS e’ una storia che andrebbe solo raccontata dopo un ecocardiogramma perche’ rischia di ammazzare dalle risate.

9 Likes

Cioè io posso liberamente utilizzare il codice scritto da qualcun altro per produrre un suo clone? Questa cosa non mi torna per niente…

Non lo so, per allenare OpenAI si son passati praticamente l’intero internet, col gpt 3.5 riuscivi pure a tirarti giù le robe di questo forum prima che implementassero le dinamiche antiplagio. Poi sai in Cina che problemi si fanno sul diritto d’autore :asd:

1 Like

questo però è diversissimo da quanto si legge su “deepseek” >>>> Chatgpt

“Suggeriscimi un libro che parli di A B C”

“Libro X Y Z”

“Ah ok riassumimi capitolo per capitolo i libri X Y Z”

“Prego boss”

Ehhhhh my frudum, my spic

:asd:

1 Like

No, credo che nel caso di Deepseek - poiché l’architettura di OpenAI non è open e non si riesca a fare distillation - abbiano semplicemente fatto synthetic data generation. Cosa che puoi fare anche tu chiedendo a ChatGPT di generarti dati (etichettati e non) per finalità di addestramento/fine tuning di un tuo modello.

@cecio mi sei venuto in mente, tra un mese a inizio semestre tengo un corso di artificial intelligence e sono alla disperata ricerca di dataset pubblici da usare per fargli vedere come funziona scikit-learn.

Titanic dataset :unsisi:

:asd:

1 Like

Nel video che ho linkato invece si sostiene che si riesca a distillation anche se il codice di Open AI non è accessibile. Dicono il falso?

No seriamente, io andrei su Kaggle e prenderei un qualche dataset da lì, così hai anche tutta la community che ci ha lavorato su in termini di analisi descrittive e modelli predittivi

No, hai ragione, ho usato un’accezione troppo ristretta di distillation che non comprendeva la generazione di dati sintetici come esempio di distillation :asd:

Però la pratica è quella: usi un modello più grande o potente (vedi GPT-4o o o1) per far fare delle previsioni su un dataset e istruisci il tuo modello affinché approssimi la distribuzione di probabilità delle previsioni del modello potente

Come alternativa (che in genere usavo nei processi di recruitment per l’assignment a casa, così da non avere rotture di cazzo con NDA e robe simili), mi facevo generare un dataset con un package qualsiasi di Structural Equation Modelling, conoscendo la struttura dei dati.

Operavo qualche trasformazione per rendere le distribuzioni un po’ più brutte, aggiungevo dei missing qua e là e via.

Poi che la cosa fosse robusta a livello metodologico non lo so, perché le mie conoscenze di statistica sono quelle di un data scientist, cioè abbastanza elementari :asd: Però per lo scopo, funzionava

Intanto: quella è una copia del libro in meno che l’autore ha venduto.

Secondo: non si tratta di “riassumi” perché se spingi ChatGPT un pochino riesci a fargli generare testi ed immagini che sono esattamente quelli su cui è stato addestrato. Ma pari pari, eh.

Suvvia, un pochino di onestà intellettuale.

(E non parliamo del fatto che usare le AI generative è un modo per eliminare posti di lavoro, che è anche il punto più importante.)

1 Like

c’è un progetto in corso mi pare via r/dataisbeautiful che offre settimanalmente dataset da presentare

edit: @Pjem mi ricordavo male, non era reddit, era questo

1 Like

Spingitori di spingitori di cavalieri.

1 Like

Non ho idea della legislazione in merito o se è per questo della fattibilità tecnica, ma moralmente OpenAI per quanto mi riguarda può solo puppare, Sam Altman è stato il primo a fregarsene del diritto d’autore quando era lui quello che doveva farci i miliardi.

1 Like