Si ok il procedimento mi é chiaro, ma come possono fare una roba del genere senza avere in locale il modello? Di sicuro non possono usare le API di openai per una roba del genere, oltre a costare uno sproposito li sgamerebbero in tempo zero
Ci sono tier da 200k al mese per chatgpt che anche con gli alti costi che ha per milione comunque potrebbe generare 5-10 miliardi di token di sintesi ad account.
Sullo sgamare ho dei dubbi forti, le domande per i dati di sintesi alla fine sono simili a gran parte delle task che vengono assegnate da chi usa già l’API non c’è modo di saperlo.
Solo il traffico potrebbe insospettirli ma basterebbe usare più account, ip diversi ecc.
Alla fine salterà fuori che la prima fonte di profitto sono quelli che gli ciucciano i dati di sintesi
Ho capito, ma usare l’accesso in questo modo sono sicuro che violi il ToS dell’ applicazione, da qui discende la mia argomentazione che si stia violando il diritto d’autore di chi ne ha scritto il codice. In pratica sto usando il codice scritto da qualcun altro e protetto da copyright per generarne uno mio.
Inoltre credo che i costi reali di sviluppo di Deepseek, se si tenesse conto anche del costo degli accessi sarebbe molto più alto di quello sbandierato, sbaglio?
Ok, riformulo, a mio avviso questa condotta viola sia il ToS quindi aprendo alla possibilità di una richiesta di risarcimento da parte di CChatGPT a chi ha usato le sue API in quel modo che la legge sul diritto d’autore.
Ma poi vallo a dimostrare che quelle N-mila/milioni di chiamate API servivano per generare dati sintetici/etichettati per fare distillation o solo per fare benchmarking o per altri motivi non correlati al training di un modello concorrente.
E’ semplicemente non deducibile, anche avendo accesso ai log, poichè non sai l’uso che DeepSeek ha fatto degli output.
ma magari hanno pure investigato, il punto è che cambia nulla eh.
mi hai venduto un servizio e io l’ho usato per fare le cose mie, che cazzo vuoi ora da me?
i ToS (per fortuna) non sono legge quindi il massimo che puoi fare è smettere di vendermi il servizio.
cosa diversa sarebbe se DeepSeek fosse un plagio spudorato del codice di OpenAI, in questo caso il diritto d’autore proteggerebbe l’opera d’ingegno di OpenAI, ma non è questo il caso.
insomma non capisco perché ti stai stracciando le vesti per difendere OpenAI, non ha molto senso.
Intanto la comunità europea risponde in modo deciso al finanziamento da 500 miliardi del progetto Stargate americano con ben 37 milioni di euro per creare OpenEuroLLm. Alla domanda “ma non vi sembrano pochini?” uno dei responsabili ha risposto “ma sai quante chiamate ci facciamo con 37 milioni di euro a Chagpt?”
Comunque rumors ristimano il costo di training di Deepseek attorno al miliardo di €, ma non sono riuscito ancora a capire quanto siano robuste queste stime
Mah, la fonte primaria non so quanto sia affidabile, anche se viene riportata da testate più riconosciute.
Il punto in sintesi è:
The $6M cost in the paper is attributed to just the GPU cost of the pre-training run, which is only a portion of the total cost of the model. Excluded are important pieces of the puzzle like R&D and TCO of the hardware itself.
Che grazie al cazzo, lo sappiamo anche noi che il costo di sviluppo del modello non sono solo GPU/hours ma R&D, infrastruttura, personale, etc…
Avrà banfato, però il flex di Xi è stato troppo bello.
Gli scammoni che fanno le conferenze coi billionaires, bullandosi che investono 500 miliardi, che per fare sta roba cutting edge ci vogliono le ultime schede nvidia “che ai cinesi non gliele diamo hahaha”…
5 minuti dopo arriva Xi con la trollface:
“A cojoni, me l’ha fatta il mio falegname con 30mila lire e una scheda Voodo del 1998, eccovela aggratise L’Ai!”.
PEM, la finanza nel caos, Openai e Nvidia che s’abbracciano piangendo…