Deepseek è stato allenato usando ChatGPT?

Si ok il procedimento mi é chiaro, ma come possono fare una roba del genere senza avere in locale il modello? Di sicuro non possono usare le API di openai per una roba del genere, oltre a costare uno sproposito li sgamerebbero in tempo zero

Ci sono tier da 200k al mese per chatgpt che anche con gli alti costi che ha per milione comunque potrebbe generare 5-10 miliardi di token di sintesi ad account.

Sullo sgamare ho dei dubbi forti, le domande per i dati di sintesi alla fine sono simili a gran parte delle task che vengono assegnate da chi usa già l’API non c’è modo di saperlo.

Solo il traffico potrebbe insospettirli ma basterebbe usare più account, ip diversi ecc.

Alla fine salterà fuori che la prima fonte di profitto sono quelli che gli ciucciano i dati di sintesi :asd:

Ho capito, ma usare l’accesso in questo modo sono sicuro che violi il ToS dell’ applicazione, da qui discende la mia argomentazione che si stia violando il diritto d’autore di chi ne ha scritto il codice. In pratica sto usando il codice scritto da qualcun altro e protetto da copyright per generarne uno mio.

Inoltre credo che i costi reali di sviluppo di Deepseek, se si tenesse conto anche del costo degli accessi sarebbe molto più alto di quello sbandierato, sbaglio?

Imho tu hai una concezione un po’ troppo ampia del diritto di autore.

TOS e diritto d’autore non c’entrano assolutamente niente tra di loro

Ok, riformulo, a mio avviso questa condotta viola sia il ToS quindi aprendo alla possibilità di una richiesta di risarcimento da parte di CChatGPT a chi ha usato le sue API in quel modo che la legge sul diritto d’autore.

Un ToS apre proprio un bel niente se non il fatto che ti terminano l’accesso

Ma poi vallo a dimostrare che quelle N-mila/milioni di chiamate API servivano per generare dati sintetici/etichettati per fare distillation o solo per fare benchmarking o per altri motivi non correlati al training di un modello concorrente.

E’ semplicemente non deducibile, anche avendo accesso ai log, poichè non sai l’uso che DeepSeek ha fatto degli output.

1 Like

Capisco le risposte di Lamas ma a me continua a sembrare assurdo che qualcuno faccia cosí tante chiamate alle API e quelli di OpenAI non investighino.

Un conto é un benchmark, un conto é distillation dove servono ordini di grandezza di chiamate maggiori. Boh, resto dubbioso

ma magari hanno pure investigato, il punto è che cambia nulla eh.
mi hai venduto un servizio e io l’ho usato per fare le cose mie, che cazzo vuoi ora da me?

i ToS (per fortuna) non sono legge quindi il massimo che puoi fare è smettere di vendermi il servizio.
cosa diversa sarebbe se DeepSeek fosse un plagio spudorato del codice di OpenAI, in questo caso il diritto d’autore proteggerebbe l’opera d’ingegno di OpenAI, ma non è questo il caso.

insomma non capisco perché ti stai stracciando le vesti per difendere OpenAI, non ha molto senso.

Ho chiesto al diretto interessato :asd:

Intanto la comunità europea risponde in modo deciso al finanziamento da 500 miliardi del progetto Stargate americano con ben 37 milioni di euro per creare OpenEuroLLm. Alla domanda “ma non vi sembrano pochini?” uno dei responsabili ha risposto “ma sai quante chiamate ci facciamo con 37 milioni di euro a Chagpt?”

3 Likes

Ah ah ah… rido per non piangere.

Lo Stargate sono tutti fondi privati di sicuro saranno i soliti petrodollari che ritornano a casa.

Comunque rumors ristimano il costo di training di Deepseek attorno al miliardo di €, ma non sono riuscito ancora a capire quanto siano robuste queste stime

Praticamente gli hai chiesto quali sono le falle del sistema e lui te le ha date. :asd:

1 Like

Molto interessante, così le cose mi sembrano molto più realistiche, riesci a fornire qualche link per approfondire?

Mah, la fonte primaria non so quanto sia affidabile, anche se viene riportata da testate più riconosciute.

Il punto in sintesi è:

The $6M cost in the paper is attributed to just the GPU cost of the pre-training run, which is only a portion of the total cost of the model. Excluded are important pieces of the puzzle like R&D and TCO of the hardware itself.

Che grazie al cazzo, lo sappiamo anche noi che il costo di sviluppo del modello non sono solo GPU/hours ma R&D, infrastruttura, personale, etc…

Avrà banfato, però il flex di Xi è stato troppo bello.

Gli scammoni che fanno le conferenze coi billionaires, bullandosi che investono 500 miliardi, che per fare sta roba cutting edge ci vogliono le ultime schede nvidia “che ai cinesi non gliele diamo hahaha”…

5 minuti dopo arriva Xi con la trollface:
“A cojoni, me l’ha fatta il mio falegname con 30mila lire e una scheda Voodo del 1998, eccovela aggratise L’Ai!”.

PEM, la finanza nel caos, Openai e Nvidia che s’abbracciano piangendo…

8 Likes

Riguardo agli investimenti in EU

European AI startups raised $8 billion in 2024

Curioso di vedere che combinano :sisi:

https://www.igenius.ai/