Deepseek è stato allenato usando ChatGPT?

Pompolus · February 4, 2025, 12:46pm

Si ok il procedimento mi é chiaro, ma come possono fare una roba del genere senza avere in locale il modello? Di sicuro non possono usare le API di openai per una roba del genere, oltre a costare uno sproposito li sgamerebbero in tempo zero

LorenzoLamas · February 4, 2025, 1:36pm

Ci sono tier da 200k al mese per chatgpt che anche con gli alti costi che ha per milione comunque potrebbe generare 5-10 miliardi di token di sintesi ad account.

Sullo sgamare ho dei dubbi forti, le domande per i dati di sintesi alla fine sono simili a gran parte delle task che vengono assegnate da chi usa già l’API non c’è modo di saperlo.

Solo il traffico potrebbe insospettirli ma basterebbe usare più account, ip diversi ecc.

Alla fine salterà fuori che la prima fonte di profitto sono quelli che gli ciucciano i dati di sintesi

Ænigma · February 4, 2025, 1:47pm

Ho capito, ma usare l’accesso in questo modo sono sicuro che violi il ToS dell’ applicazione, da qui discende la mia argomentazione che si stia violando il diritto d’autore di chi ne ha scritto il codice. In pratica sto usando il codice scritto da qualcun altro e protetto da copyright per generarne uno mio.

Inoltre credo che i costi reali di sviluppo di Deepseek, se si tenesse conto anche del costo degli accessi sarebbe molto più alto di quello sbandierato, sbaglio?

geps · February 4, 2025, 2:07pm

Imho tu hai una concezione un po’ troppo ampia del diritto di autore.

gnr · February 4, 2025, 2:11pm

TOS e diritto d’autore non c’entrano assolutamente niente tra di loro

Ænigma · February 4, 2025, 2:13pm

Ok, riformulo, a mio avviso questa condotta viola sia il ToS quindi aprendo alla possibilità di una richiesta di risarcimento da parte di CChatGPT a chi ha usato le sue API in quel modo che la legge sul diritto d’autore.

gnr · February 4, 2025, 2:24pm

Un ToS apre proprio un bel niente se non il fatto che ti terminano l’accesso

cecio · February 4, 2025, 2:29pm

Ma poi vallo a dimostrare che quelle N-mila/milioni di chiamate API servivano per generare dati sintetici/etichettati per fare distillation o solo per fare benchmarking o per altri motivi non correlati al training di un modello concorrente.

E’ semplicemente non deducibile, anche avendo accesso ai log, poichè non sai l’uso che DeepSeek ha fatto degli output.

Pompolus · February 4, 2025, 6:12pm

Capisco le risposte di Lamas ma a me continua a sembrare assurdo che qualcuno faccia cosí tante chiamate alle API e quelli di OpenAI non investighino.

Un conto é un benchmark, un conto é distillation dove servono ordini di grandezza di chiamate maggiori. Boh, resto dubbioso

geps · February 4, 2025, 6:45pm

ma magari hanno pure investigato, il punto è che cambia nulla eh.
mi hai venduto un servizio e io l’ho usato per fare le cose mie, che cazzo vuoi ora da me?

i ToS (per fortuna) non sono legge quindi il massimo che puoi fare è smettere di vendermi il servizio.
cosa diversa sarebbe se DeepSeek fosse un plagio spudorato del codice di OpenAI, in questo caso il diritto d’autore proteggerebbe l’opera d’ingegno di OpenAI, ma non è questo il caso.

insomma non capisco perché ti stai stracciando le vesti per difendere OpenAI, non ha molto senso.

LorenzoLamas · February 4, 2025, 8:09pm

Ho chiesto al diretto interessato

Ok ma come ha fatto DeepSeek farti generare dati che poi ha usato ?

DeepSeek ha probabilmente usato una strategia indiretta per generare dati sintetici da modelli come GPT-4, senza violare apertamente i Termini di Servizio di OpenAI. Ecco alcune possibilità su come potrebbero aver fatto:

Prompt Engineering Avanzato – Potrebbero aver usato GPT-4 o modelli simili per generare risposte in modo non esplicito, evitando di fare milioni di richieste dirette per dataset. Ad esempio, invece di dire “Genera 10.000 risposte per un dataset di QA”, potrebbero aver chiesto risposte più contestualizzate e sparse nel tempo.

Rielaborazione dei Dati – Anche se OpenAI vieta l’uso diretto degli output per il training, non può impedire di parafrasare, riformulare o filtrare i dati. DeepSeek potrebbe aver generato contenuti, poi rielaborati e mescolati con altre fonti.

Uso di Modelli Intermedi – Potrebbero aver usato GPT-4 per generare dati e poi addestrato un modello intermedio (una sorta di proxy). Questo modello poi avrebbe generato altri dati per il vero training di DeepSeek.

Sfruttamento di Modelli Open-Source Pre-Addestrati – Magari hanno usato GPT-4 per generare dati, ma poi hanno affinato un modello open-source su quei dati, così da renderlo meno riconoscibile come “distillazione diretta”.

Raccolta Indiretta di Contenuti Simili – Potrebbero aver preso dataset già disponibili (ad esempio, dataset QA basati su GPT-4 pubblicati da altri) e usati per l’addestramento.

Alla fine, OpenAI non ha un meccanismo perfetto per impedire queste pratiche, quindi aziende come DeepSeek possono trovare modi per aggirare i vincoli legali senza farsi bloccare.

Nikita · February 5, 2025, 8:58am

Intanto la comunità europea risponde in modo deciso al finanziamento da 500 miliardi del progetto Stargate americano con ben 37 milioni di euro per creare OpenEuroLLm. Alla domanda “ma non vi sembrano pochini?” uno dei responsabili ha risposto “ma sai quante chiamate ci facciamo con 37 milioni di euro a Chagpt?”

Ænigma · February 5, 2025, 10:22am

Ah ah ah… rido per non piangere.

LorenzoLamas · February 5, 2025, 10:51am

Lo Stargate sono tutti fondi privati di sicuro saranno i soliti petrodollari che ritornano a casa.

cecio · February 5, 2025, 10:58am

Comunque rumors ristimano il costo di training di Deepseek attorno al miliardo di €, ma non sono riuscito ancora a capire quanto siano robuste queste stime

LeChuck · February 5, 2025, 11:02am

Praticamente gli hai chiesto quali sono le falle del sistema e lui te le ha date.

Ænigma · February 5, 2025, 11:25am

Molto interessante, così le cose mi sembrano molto più realistiche, riesci a fornire qualche link per approfondire?

cecio · February 5, 2025, 11:47am

Mah, la fonte primaria non so quanto sia affidabile, anche se viene riportata da testate più riconosciute.

Il punto in sintesi è:

The $6M cost in the paper is attributed to just the GPU cost of the pre-training run, which is only a portion of the total cost of the model. Excluded are important pieces of the puzzle like R&D and TCO of the hardware itself.

Che grazie al cazzo, lo sappiamo anche noi che il costo di sviluppo del modello non sono solo GPU/hours ma R&D, infrastruttura, personale, etc…

Fire_Phoenix · February 5, 2025, 12:04pm

Avrà banfato, però il flex di Xi è stato troppo bello.

Gli scammoni che fanno le conferenze coi billionaires, bullandosi che investono 500 miliardi, che per fare sta roba cutting edge ci vogliono le ultime schede nvidia “che ai cinesi non gliele diamo hahaha”…

5 minuti dopo arriva Xi con la trollface:
“A cojoni, me l’ha fatta il mio falegname con 30mila lire e una scheda Voodo del 1998, eccovela aggratise L’Ai!”.

PEM, la finanza nel caos, Openai e Nvidia che s’abbracciano piangendo…

LorenzoLamas · February 5, 2025, 1:27pm

Riguardo agli investimenti in EU

European AI startups raised $8 billion in 2024

Curioso di vedere che combinano

https://www.igenius.ai/