watermarking AI-generatet content
Buongiorno, condivido un pezzo di newsletter di Andrea Ng sul watermarking dei contenuti generati automaticamente (THE BATCH, 26-07-2023, DeepLearning.AI). Dear friends, Last week, the White House announced voluntary commitments by seven AI companies, as you can read below. Most of the points were sufficiently vague that it seems easy for the White House and the companies to declare success without doing much that they don’t already do. But the commitment to develop mechanisms to ensure that users know when content is AI-generated, such as watermarks, struck me as concrete and actionable. While most of the voluntary commitments are not measurable, this one is. It offers an opportunity, in the near future, to test whether the White House’s presently soft approach to regulation is effective. I was pleasantly surprised that watermarking was on the list. It’s beneficial to society, but it can be costly to implement (in terms of losing users). As I wrote in an earlier letter, watermarking is technically feasible, and I think society would be better off if we knew what content was and wasn’t AI-generated. However, many companies won’t want it. For example, a company that uses a large language model to create marketing content may not want the output to be watermarked, because then readers would know that it was generated by AI. Also, search engines might rank generated content lower than human-written content. Thus, the government’s push to have major generative AI companies watermark their output is a good move. It reduces the competitive pressure to avoid watermarking. All the companies that agreed to the White House’s voluntary commitments employ highly skilled engineers and are highly capable of shipping products, so they should be able to keep this promise. When we look back after three or six months, it will be interesting to see which ones: - Implemented a robust watermarking system - Implemented a weak watermarking system that’s easy to circumvent by, say, paying a fee for watermark-free output - Didn’t implement a system to identify AI-generated content To be fair, I think it would be very difficult to enforce watermarking in open source systems, since users can easily modify the software to turn it off. But I would love to see watermarking implemented in proprietary systems. The companies involved are staffed by honorable people who want to do right by society. I hope they will take the announced commitments seriously and implement them faithfully. I would love to get your thoughts on this as well. How can we collectively hold the U.S. government and AI companies to these commitments? Please let me know on social media! Keep learning, Andrew
Il giorno gio 27 lug 2023 alle ore 12:11 Andrea Bolioli <andrea.bolioli@gmail.com> ha scritto:
[...] I was pleasantly surprised that watermarking was on the list. It’s beneficial to society, [...]
[...] I think society would be better off if we knew what content was and wasn’t AI-generated.
Posso agilmente comprendere quali benefici il watermarking dei contenuti generati da un'AI avrebbe per il training di ulteriori modelli, ma non mi appaiono così evidenti i benefici per la società in senso lato, e ogni beneficio va controbilanciato col suo opposto, chiamiamolo "maleficio", per poter decidere che vale la pena proseguire in una data direzione. Nella lettera non ho trovato menzione di questi benefici, quali sono? Fabio
eh è una storia lunga, ho riportato la lettera di Ng perché finalmente ha scritto la sua posizione (che condivido) in modo chiaro. Il mio punto di vista in sintesi è che se i contenuti generati automaticamente sono una merce, allora serve una sorta di "codice a barre", il nome del produttore/coautore, o almeno l'indicazione del tipo di merce. Andrea Il giorno gio 27 lug 2023 alle ore 13:05 Fabio Alemagna <falemagn@gmail.com> ha scritto:
Il giorno gio 27 lug 2023 alle ore 12:11 Andrea Bolioli <andrea.bolioli@gmail.com> ha scritto:
[...] I was pleasantly surprised that watermarking was on the list. It’s beneficial to society, [...]
[...] I think society would be better off if we knew what content was and wasn’t AI-generated.
Posso agilmente comprendere quali benefici il watermarking dei contenuti generati da un'AI avrebbe per il training di ulteriori modelli, ma non mi appaiono così evidenti i benefici per la società in senso lato, e ogni beneficio va controbilanciato col suo opposto, chiamiamolo "maleficio", per poter decidere che vale la pena proseguire in una data direzione. Nella lettera non ho trovato menzione di questi benefici, quali sono?
Fabio
Il giorno gio 27 lug 2023 alle ore 16:24 Andrea Bolioli <andrea.bolioli@gmail.com> ha scritto:
eh è una storia lunga, ho riportato la lettera di Ng perché finalmente ha scritto la sua posizione (che condivido) in modo chiaro.
Il mio punto di vista in sintesi è che se i contenuti generati automaticamente sono una merce, allora serve una sorta di "codice a barre", il nome del produttore/coautore, o almeno l'indicazione del tipo di merce.
Per quale ragione serve avere queste informazioni specificatamente per i contenuti generati dalle AI, mentre non servirebbero per i contenuti analoghi non generati dalle AI? Fabio
Buongiorno Fabio, non ho capito la domanda. In generale i documenti (testi, video, immagini) hanno un autore, o un creatore, editore, proprietario, o qualcosa del genere, dal riassunto del bambino a scuola al report della grande azienda di consulenza, così come le foto, i video, le serie Tv, le sceneggiature , ecc Chi ha fatto la foto, ha scritto il post, l’email, un qualunque testo. Le lettere anonime sono poche. Nel caso degli LLM, il produttore di contenuti metterebbe una sorta di firma sul contenuto. Mi rendo conto che il tema è complesso. Son contento che sia stato posto. Magari possono esserci soluzioni migliori. Molte aziende e persone singole stanno generando contenuti con LLM, ad es in una azienda che conosco la newsletter interna viene generata automaticamente e viene scritto esplicitamente che è stata generata con GPT. Diversi report vengono generati con l’aiuto di GPT. Serve il watermark anche nella descrizione dell’appartamento in vendita in un annuncio immobiliare? Mah, non so rispondere. Andrea Il giorno gio 27 lug 2023 alle 16:30 Fabio Alemagna <falemagn@gmail.com> ha scritto:
Il giorno gio 27 lug 2023 alle ore 16:24 Andrea Bolioli <andrea.bolioli@gmail.com> ha scritto:
eh è una storia lunga, ho riportato la lettera di Ng perché finalmente
ha scritto la sua posizione (che condivido) in modo chiaro.
Il mio punto di vista in sintesi è che se i contenuti generati
automaticamente sono una merce, allora serve una sorta di "codice a barre", il nome del produttore/coautore, o almeno l'indicazione del tipo di merce.
Per quale ragione serve avere queste informazioni specificatamente per i contenuti generati dalle AI, mentre non servirebbero per i contenuti analoghi non generati dalle AI?
Fabio
Il giorno ven 28 lug 2023 alle ore 10:06 Andrea Bolioli <andrea.bolioli@gmail.com> ha scritto:
Buongiorno Fabio, non ho capito la domanda. In generale i documenti (testi, video, immagini) hanno un autore, o un creatore, editore, proprietario, o qualcosa del genere, dal riassunto del bambino a scuola al report della grande azienda di consulenza, così come le foto, i video, le serie Tv, le sceneggiature , ecc Chi ha fatto la foto, ha scritto il post, l’email, un qualunque testo.
Hanno l'autore, certo, non per questo l'autore è riportato con un watermark, o affatto. Spesso l'autore è un Tizio che viene pagato per creare qualcosa, che poi vende il prodotto a qualcun altro senza che questo qualcun altro abbia l'obbligo di specificare che l'autore originale fosse Tizio. Io stesso sono autore di centinaia di migliaia di linee di codice scritte di mio pugno, alcune delle quali hanno il mio nome cognome collegato ad esse (nei progetti Open Source a cui ho partecipato e partecipo) altre no, per via di accordi di lavoro. La domanda è per quale ragione i contenuti prodotti con l'ausilio delle AI dovrebbero avere un trattamento speciale. Oltretutto, per quale ragione considerare "merce" ciò che viene prodotto con le AI, a prescindere dall'uso che se ne fa? E, in generale, quali sarebbero i vantaggi per la società di cui si parla?
Molte aziende e persone singole stanno generando contenuti con LLM, ad es in una azienda che conosco la newsletter interna viene generata automaticamente e viene scritto esplicitamente che è stata generata con GPT.
Sì, io stesso ho scritto cose con GPT in questa mailing list, e per trasparenza l'ho specificato, ma è stata una mia scelta, non un obbligo. C'è gente che si fa scrivere i testi dai ghostwriter: watermark pure in quel caso? E se no, perché no? Fabio
Ciao Andrea, una domanda: prima di discutere sull'utilità/opportunità di marcare l'output del software programmato statisticamente, una domanda sulla fattibilità tecnica On Thu, Jul 27, 2023 at 12:11:23PM +0200, Andrea Bolioli wrote:
As I wrote in an earlier letter, watermarking is technically feasible,
in che modo? Qualunque marcatura, per essere efficace, dovrebbe: - non essere rimuovibile - non essere falsificabile sul falsificabile si può facilmente pensare a qualcosa basato sulla crittografia asimmetrica, ma questo impedirebbe di affermare che un certo contenuto è stato prodotto dal servizio di un certo fornitore, ma la sua assenza non garantirebbe che tale contenuto non sia stato prodotto da un software programmato statisticamente eseguito da terzi. A meno, ovviamente, di non aver già assunto ed accettato l'esistenza di un oligopolio dei software programmati statisticamente, per il cui consolidamento la presenza dei watermark potrebbe in effetti essere un cavallo di troia. Ma nulla impedirebbe di rimuovere il watermark. Immaginate un testo prodotto da ChatGPT: basta un copia incolla con al massimo un tr per rimuovere i caratteri invisibili ed il gioco è fatto. Mi chiedo dunque quali tecniche abbiano in mente per questi watermark dei dati. Suona molto di DRM: non può funzionare, ma tutti devono far finta che possa perché alcune leggi scritte da persone incompetenti e/o in mala fede si basano sul fatto che funzioni. Giacomo
Grazie per le risposte. In effetti anche mia moglie a pranzo mi ha detto che l’idea del watermarking è molto discutibile. Quindi mi sbaglierò sicuramente ;-) L’oligopolio mi inquieta. Non so che cosa abbia in mente Andrew Ng. Andrea Il giorno ven 28 lug 2023 alle 16:48 Giacomo Tesio <giacomo@tesio.it> ha scritto:
Ciao Andrea,
una domanda: prima di discutere sull'utilità/opportunità di marcare l'output del software programmato statisticamente, una domanda sulla fattibilità tecnica
On Thu, Jul 27, 2023 at 12:11:23PM +0200, Andrea Bolioli wrote:
As I wrote in an earlier letter, watermarking is technically feasible,
in che modo?
Qualunque marcatura, per essere efficace, dovrebbe: - non essere rimuovibile - non essere falsificabile
sul falsificabile si può facilmente pensare a qualcosa basato sulla crittografia asimmetrica, ma questo impedirebbe di affermare che un certo contenuto è stato prodotto dal servizio di un certo fornitore, ma la sua assenza non garantirebbe che tale contenuto non sia stato prodotto da un software programmato statisticamente eseguito da terzi.
A meno, ovviamente, di non aver già assunto ed accettato l'esistenza di un oligopolio dei software programmati statisticamente, per il cui consolidamento la presenza dei watermark potrebbe in effetti essere un cavallo di troia.
Ma nulla impedirebbe di rimuovere il watermark.
Immaginate un testo prodotto da ChatGPT: basta un copia incolla con al massimo un tr per rimuovere i caratteri invisibili ed il gioco è fatto.
Mi chiedo dunque quali tecniche abbiano in mente per questi watermark dei dati. Suona molto di DRM: non può funzionare, ma tutti devono far finta che possa perché alcune leggi scritte da persone incompetenti e/o in mala fede si basano sul fatto che funzioni.
Giacomo
participants (3)
-
Andrea Bolioli -
Fabio Alemagna -
Giacomo Tesio