Pare anche a me.
Se capisco bene la vicenda DeepSeek per come si sta sviluppando
finora mi pare che i chatbot e in generale gli LLM:
1) risulterebbero di difficile escludibilità, sia per il training
(il modello può essere esfiltrato) che per il serving (può girare
on-premises) che per i prompt (a meno di sistemi artificiosi [1]);
2) non seguono le economie di scala dei social network (gli utenti
non hanno motivo di andare dove ci sono altri utenti).
Non si sono viste nemmeno applicazioni di piattaforme già esistenti che godano sostanziali benefici dall'uso degli LLM.
Di conseguenza mi pare che la monetizzabilità non possa seguire
il facile modello di business del surveillance capitalism in copia
carbone, e questo renderebbe dubbio il vantaggio a finanziare
indiscriminatamente.
In generale con queste premesse mi pare difficile la costruzione
di un mercato vero e proprio attorno agli LLM.
Prevedibilmente la ricerca si concentrerà sulla creazione di copyright traps (analogamente a quanto faceva la defunta industria della cartografia [3]), canary-tokens e watermarking [2] ma tutto questo avrà i suoi inconvenienti e una certa incertezza giuridica, specie quando fosse dubbio l'uso legittimo del materiale originario per costruire il modello.
Alberto
[1] <https://arxiv.org/pdf/2306.06297>
[2] <https://arxiv.org/pdf/2412.03824>
[3] <https://en.wikipedia.org/wiki/Agloe,_New_York>
ma direi nemmeno concorrenza sleale.
solo violazione dei terms of service che pero' va capito se sono leciti
da qualche parte ho letto che deepseek avrebbe usato escamotage per aggirare delle protezioni (rate limiting?)
forse cercano di buttarla sulla violazione di TPM, ma (IANAL) AFAIK l'output di un LLM non è protetto da copyright a meno che non ci sia un sostanziale contributo umano.
forse cercano che un giudice dica che c'e' ujn sostanziale contributo umano nell'output degli LLM e quindi sono tuttelati e quindi deepseek ha violato misure di protezione ? mi sembra un long shot
piu' FUD che altro
On 30/01/25 22:31, GC F wrote:
Se il claim è solo distillazione, così a occhio non può essere violazione di segreto industriale ma solo concorrenza sleale (magari mi sbaglio). Giusto anche l'articolo che ha postato Marco di Lemley. Le lagnanze di OpenAI sono comunque poco sostenibili.
Giancarlo
On Thu, Jan 30, 2025 at 8:52 PM Stefano Quintarelli <stefano@quintarelli.it <mailto:stefano@quintarelli.it>> wrote:
non capisco la questione dataset riseptto alla distillazione
puoi espandere, per piacere ?
On 30/01/25 20:53, GC F wrote:
> Immagino si lamentino di violazione di segreti industriali
(teoricamente
> il dataset può essere oggetto di protezione da SI) e competizione
> sleale, non di violazione dei diritti autoriali di cui invece si è
> discusso molto finora.
>
> Giancarlo
>
> On Thu, Jan 30, 2025 at 7:14 AM J.C. DE MARTIN
> <juancarlos.demartin@polito.it
<mailto:juancarlos.demartin@polito.it>
<mailto:juancarlos.demartin@polito.it
<mailto:juancarlos.demartin@polito.it>>>
> wrote:
>
> __
> *OpenAI Furious DeepSeek Might Have Stolen All the Data
OpenAI Stole
> From Us*
>
> /OpenAI shocked that an AI company would train on someone else's
> data without permission or compensation./
>
> Jason Koebler
>
> Jan 29, 2025 at 9:43 AM
>
> The narrative that OpenAI, Microsoft, and freshly minted
White House
> “AI czar” David Sacks are now pushing to explain why DeepSeek was
> able to create a large language model that outpaces OpenAI’s
while
> spending orders of magnitude less money and using older chips is
> that DeepSeek used OpenAI’s data unfairly and without
compensation.
> Sound familiar?
>
> Both Bloomberg and the Financial Times are reporting that
Microsoft
> and OpenAI have been probing whether DeepSeek improperly
trained the
> R1 model that is taking the AI world by storm on the outputs of
> OpenAI models.
>
> [...]
>
> continua qui: https://www.404media.co/openai-furious-
deepseek-might- <https://www.404media.co/openai-furious-deepseek-might->
> have-stolen-all-the-data-openai-stole-from-us/ <https://
> www.404media.co/openai-furious-deepseek-might-have-stolen-all-
the- <http://www.404media.co/openai-furious-deepseek-might-have-
stolen-all-the->
> data-openai-stole-from-us/>
>
-- You can reach me on Signal: @quinta.01 (no Whatsapp, no Telegram)