Re: [nexa] l'output e le fonti [era Triste Annuncio (a proposito di Chat GPT)]

Feb. 20, 2023

      Marco hai scritto:

"Non hai nessun motivo per pensare o pretendere che il dato esatto, se è stato fornito, torni fuori. "

Ti ho risposto:

"Beh, non hai nemmeno alcun modo di escluderlo. "

Mi hai chiesto cosa centra e ho provato mostrartelo (violazione del copyright)

Hai erroneamente inteso il mio messaggio come un tentativo di falsificare la tua affermazione, 
ma in realtà la stavo solo completando (e chiarificando).

Non solo non c'è motivo di credere di poter estrarre il dato esatto,ma non c'è 
nemmenio motivo di escuderlo.

Il che limita ulteriormente l'utilità del giocattolo.

D'altro canto cercare un significato nel output di ChatGPT è del tutto analogo a cercarlo 
nei fondi di caffé.

Giacomo

Il 20 Febbraio 2023 18:36:43 UTC, "Marco A. Calamari" <marcoc_maillist@marcoc.it> ha scritto:
...
On lun, 2023-02-20 at 16:29 +0100, Giacomo Tesio wrote:
...
On Mon, 20 Feb 2023 16:15:37 +0100 Marco A. Calamari wrote:
...
On lun, 2023-02-20 at 15:09 +0100, Giacomo Tesio wrote:
...
On Mon, 20 Feb 2023 12:59:06 +0100 Marco A. Calamari wrote:

...
Non hai nessun motivo per pensare o pretendere che il dato
esatto, se è stato fornito, torni fuori. 
Beh, non hai nemmeno alcun modo di escluderlo. 
Mi sembra una risposta cosiddetta "a pipa di cocco" - vedi Braccio di
Ferro.
Mi spiegheresti il rovesciamento di argomento cosa c'entra?
Te lo mostro:
https://peertube.opencloud.lu/w/eW497u3UYXmQwcQu9LYEDR
Qui vedi GitHub CopyALot distribure una copia esatta del codice di
Quake III Arena (sotto GPLv3), ma con una licenza permissiva ed una
attribuzione sbagliata.
Il codice però era esattamente quello usato come sorgente della
programmazione statistica.
In altri termini affermare che "in una IA generativa, un sistema di Deep
Learning, un modello linguistico, GPT-3 in particolare, una volta
addestrato IL DATO NON ESISTE PIU'" è inesatto.
Il dato può esistere o meno.
Non funziona così. 
La tokenizzazione delle IA generative avviene a diversi livelli, non
necessariamente di parola.
La lunga sequenza di codice non corrisponde necessariamente, in altre parole,
alla comprensione
 della logica interna alla sequenza, cioè che rappresenta qualcosa di diverso
dalla sequenza di parole;
 può semplicemente essere un token.
In ogni caso stai procedendo dal particolare al generale, con un ragionamento
intrinsecamente scorretto.
Tutte le informazioni usate per alimentare un modello linguistico
generativo POSSONO essere recuperate? 
NO.
Se qualcosa riappare, è un effetto "del secondo ordine"
Non diffondere UD.
...
Ciò che è sparito completamente è il significato di quel dato.
...
Anche nella Biblioteca di Babele potrei imbattermi nel catalogo
completo della Biblioteca di Babele, questo non rende il suo metodo
di archiviazione un esempio da seguire od un metodo affidabile.
:-D
La differenza sostanziale è che la Biblioteca di Babele non esiste.
Né qualcuno si preoccupa di cantarne le lodi o difenderne l'output.
Giacomo