Re: [nexa] ‘Biggest act of copyright theft in history’: thousands of Australian books allegedly used to train AI model | Australia news | The Guardian (Giancarlo Frosio)
Date: Sat, 30 Sep 2023 14:11:14 +0000 From: Giancarlo Frosio <gcfrosio@gmail.com> To: Giacomo Tesio <giacomo@tesio.it>, "nexa@server-nexa.polito.it" <nexa@server-nexa.polito.it> Subject: Re: [nexa] ‘Biggest act of copyright theft in history’: thousands of Australian books allegedly used to train AI model | Australia news | The Guardian
Incredibile..."non capisco il senso di questa rsposta" era una affermazione retorica per evidenziarne la pretestuosità, non una richiesta di chiarimenti. Lei ha seri problemi di comprensione delle logiche e meccaniche del linguaggio.
La Sua convinzione di comprendere tutto più di altri che dedicano anni di studio a certe tematiche rasenta la follia...tanto quanto i suoi deliri tecnocratici.
Giancarlo
Buonasera, sì, Giacomo. Leggendoti ho (spesso) una sensazione analoga a quella segnalata da Giancarlo: sei davvero convinto di comprendere tutto più di chiunque altro? Maddai... tutti cretini? tutti in malafede? Ohibò, che caso strano! Forse non cogli l'ironia, il sarcasmo, il ricorso a figure retoriche in alcune frasi? O forse scegli deliberatamente di ignorarle per reiterare la questione dell'imparare l'informatica, e in particolare di imparare a scrivere codice? A scrivere codice come dici tu, perché un sacco di gente impara a scrivere codice, da vent'anni a questa parte sempre di più, eppure le cose non sono migliorate granché, mi pare! (immagino che ribatterai con qualche migliaio di parole a questa evidente imprecisione e voluta confusione di piani :D ) Personalmente mi trovo d'accordo sul fondo del tuo ragionamento, se l'ho inteso bene. Politicamente mi colloco in netta opposizione a questa ennesima truffa spacciata per grande innovazione (mi riferisco alle cosiddette IA). Persino legalmente (non sono legalista in alcun modo, e ci capisco poco di legislazione) non mi sembra così impossibile evidenziare l'esproprio appena mascherato da gioco delle tre carte a livello di copyright: ma come, decenni di legislazioni liberticide a difesa del copyright, e ora passa tutto in giudicato perché l'hanno fatto passare attraverso un tot di strati nascosti? (hidden layer nelle reti neurali)? A saperlo, invece di far copyleft ecc. avremmo investito in black box che mescolano le carte in tavola! tuttavia, caro Giacomo, continuare a dire agli altr* con uno sproposito di parole che non hanno capito nulla tende ad alienare anche le persone meglio disposte (mi ritengo fra queste) nei confronti delle tue argomentazioni l'aspetto più inquietante è sottolineato dall'aggettivo "tecnocratico", che mi pare azzeccato. Fai cadere le cose dall'alto e ciò IMHO è problematico e toglie molta forza ai tuoi ragionamenti. Ci sono già abbastanza tecnocrati, e molti sono pure miliardari e padroni. A mio parere è importante limitare le dichiarazioni apodittiche e cercare un confronto franco e aperto, senza scrivere come se volessi sotterrare l'interlocutore/trice. Magari nn vuoi farlo, ma a me questo sembra. A cercare il pelo nell'uovo, molti dei termini a cui fai ricorso sono assai vaghi, e sono abbastanza convinto che persone diverse li intendono in maniera molto differente. Parole a caso: "forma", "modello" (intendi aristotelicamente? platonicamente? ci vuol poco a mettere in difficoltà, volendo. ma non aiuta nessuno). Per non parlare di "dato". La tua definizione di "dato" è condivisibile, IMHO. Ma è TUA. Forse altr* la condividono (io, abbastanza). Beh, non è un granché. Non che la verità e la giustezza siano questione di maggioranze, però a mo' di aneddoto, una storiella sui dati: tre anni fa sono stato relatore con alcune colleghe qui https://www.anthropocene-curriculum.org/project/parallax-lisboa/lisboa-paral... fuffa? non fuffa? come vi pare. sparare sull'accademia è come sparare sulla croce rossa. ad ogni modo, c'erano una trentina di ricercatori e professori da tutto il mondo, perlopiù hard science: fisica, biologia, ecc. e ciascun* mi pareva piuttosto competente nel proprio campo. Se non lo era (ne dubito, mi ritengo piuttosto allenato), mi hanno imbrogliato per bene. cercando di spiegare quel che facciamo, come funziona la "pedagogia hacker", ho detto qualcosa tipo: "you know, technical and digital systems are increasingly complex, complicated indeed, with many layers. In fact, these systems tend to manipulate us while we're feeding them by interacting with them. We are manipulated by how systems are designed, by the default UI etc." sì, si parlava in finto inglese. sì, sono scarso in inglese e anche in finto inglese. cmq volevo proprio dire "manipulated", "manipolati" apriti cielo. Gli scienziati ci hanno attaccati, verbalmente aggrediti, al limite dell'aggressione fisica. Gente che non si conosceva, discipline lontanissime, continuavano a ripetere che i "dati" sono cose "oggettive". Stavo forse sostenendo che loro venivano manipolati dai "dati"? Stavo forse suggerendo che i loro "dati" non erano corretti? I "dati" non manipolano, e loro si occupavano di "dati". Sarà. Si sono calmati solo quando una collega ha preso in mano la situazione e ha fatto vedere la pagina principale di Google... ripetendo che l'apparenza inganna, "many layers", etc. ha digitato "Ctrl+u" sulla tastiera. Di fronte al JavaScript offuscato gli scienziati si sono calmati. Pensavo l'avrebbero sbranata, invece si sono acquietati. Valli a capire, è un giochino introduttivo per spiegare l'idea di "sollevare gli strati" che facciamo di solito nei laboratori... Quindi, il giorno dopo abbiamo proposto un pad aperto per l'occasione, a libero accesso, e abbiamo chiesto di scrivere la definizione di "data". Dopo un quarto d'ora c'erano una trentina di definizioni parecchio distanti fra loro, molte del tutto incompatibili. Ora... assumendo per un istante che quegli studiosi fossero un ragionevole campione di studiosi in "scienze dure", ci siamo portate a casa l'idea che non sia affatto chiaro cosa sono questi fantomatici dati. è una storia realmente accaduta, dal mio punto di vista, s'intende; per me non c'è da discutere sul vero o falso, sul giusto e lo sbagliato, su chi è scemo e chi intelligente, ma sul fatto che intendersi è complicato, provenendo da culture diverse in lingue malparlate e malcomprese ancora di più, nonostante tutto, IMHO si può capirsi, al di là delle differenze di diversità e varietà, più ce n'è, meglio è. le cosiddette IA sono, guarda caso, l'esatto opposto, cioè un esempio di omologazione, perché si pongono come "dato di fatto" indiscutibile e ineluttabile. ma... si può capirsi, con calma, e gentilezza ciao k. -- "tecnologie conviviali - https://tc.eleuthera.it" "tecnologie appropriate - https://alekos.net" "pedagogia hacker - https://circex.org"
Ciao Karlessi! Il 30 Settembre 2023 17:47:06 UTC, karlessi <karlessi@alekos.net> ha scritto:
Buonasera,
sì, Giacomo. Leggendoti ho (spesso) una sensazione analoga a quella segnalata da Giancarlo: sei davvero convinto di comprendere tutto più di chiunque altro?
No, non tutto. Sono molto curioso in effetti, ma sono certo che esistano persone più curiose di me.
Forse non cogli l'ironia, il sarcasmo, il ricorso a figure retoriche in alcune frasi? O forse scegli deliberatamente di ignorarle per reiterare la questione dell'imparare l'informatica, e in particolare di imparare a scrivere codice?
Più semplicemente, assumo sempre buona fede. È doppiamente utile: permette di aiutare chi è in difficoltà e di smascherare rapidamente chi assume malafede nell'interlocutore. Chi me l'ha insegnato la chiamava "hacker ingenuity" ;-)
Personalmente mi trovo d'accordo sul fondo del tuo ragionamento, se l'ho inteso bene.
Non mi sorprende: conosci bene come me la realtà di cui stiamo parlando.
Politicamente mi colloco in netta opposizione a questa ennesima truffa spacciata per grande innovazione (mi riferisco alle cosiddette IA).
Persino legalmente (non sono legalista in alcun modo, e ci capisco poco di legislazione) non mi sembra così impossibile evidenziare l'esproprio appena mascherato da gioco delle tre carte a livello di copyright: ma come, decenni di legislazioni liberticide a difesa del copyright, e ora passa tutto in giudicato perché l'hanno fatto passare attraverso un tot di strati nascosti? (hidden layer nelle reti neurali)? A saperlo, invece di far copyleft ecc. avremmo investito in black box che mescolano le carte in tavola!
Amen! :-D
tuttavia, caro Giacomo, continuare a dire agli altr* con uno sproposito di parole che non hanno capito nulla tende ad alienare anche le persone meglio disposte (mi ritengo fra queste) nei confronti delle tue argomentazioni
Per la verità Karlessi ho semplicemente risposto ad una mail che mi citava espressamente.
l'aspetto più inquietante è sottolineato dall'aggettivo "tecnocratico", che mi pare azzeccato.
La società in cui viviamo è tecnocratica. Io mi limito a farlo notare meglio che posso. E voglio diffondere la nostra conoscenza in modo che i nostri figli possano tornare a vivere in una democrazia. La vivo come un urgenza terribile in effetti, forse perché di figli ne ho diversi. Che qualcuno la definisca "delirio tecnicratico" non offende: sarei felicissimo se lo fosse! Ma ahimé, come sai, non lo è.
Fai cadere le cose dall'alto e ciò IMHO è problematico e toglie molta forza ai tuoi ragionamenti.
Faccio del mio meglio. Poco o tanto che sia è meglio di niente. Anche perché i tecnocrati, loro sì gentili ed inclusivi, mica si fanno scrupoli! D'altro canto, già solo aver stimolato la tua risposta è una vittoria. Giancarlo potrà ignorare facilmente le mie parole da bifolco informatico in preda ad un delirio tecnocratico, ma riuscirà a far altrettanto con le tue, coltissime e gentili ma assolutamente affini nel merito?
A cercare il pelo nell'uovo, molti dei termini a cui fai ricorso sono assai vaghi, e sono abbastanza convinto che persone diverse li intendono in maniera molto differente. Parole a caso: "forma", "modello" (intendi aristotelicamente? platonicamente? ci vuol poco a mettere in difficoltà, volendo. ma non aiuta nessuno).
Concordo! Infatti metto sempre "modello" fra virgolette a sottolineare l'inadeguatezza del termine. Una matrice numerica non è un modello se non sai attribuire un significato a ciascuno dei numeri che contiene! Ma di nuovo, l'ho usato in risposta al mio interlocutore per spiegare l'assurdità della locuzione "istruire un modello" (con "modello" usato senza virgolette e senza ironia!).
Per non parlare di "dato". La tua definizione di "dato" è condivisibile, IMHO. Ma è TUA. Forse altr* la condividono (io, abbastanza). Beh, non è un granché. Non che la verità e la giustezza siano questione di maggioranze, però a mo' di aneddoto, una storiella sui dati [...]
Storiella interessante e divertente. Se ho capito però in quella occasione non partiste dalla definizione di "dato". Partire da definizioni chiare aiuta a evitare inutili malintesi, esattamente come partire da definizioni evocative ed ambigue li alimenta.
Ora... assumendo per un istante che quegli studiosi fossero un ragionevole campione di studiosi in "scienze dure", ci siamo portate a casa l'idea che non sia affatto chiaro cosa sono questi fantomatici dati.
Non lo è infatti. L'informatica è ancora talmente primitiva che molti la chianano ancora "computer science"!
nonostante tutto, IMHO si può capirsi, al di là delle differenze
Naturalmente! A questo servono le definizioni. ;-)
con calma,
e gentilezza
Sei sicuro? Quanto tempo abbiamo? Quante risorse? Quante ne hanno i nostri avversari? Giacomo
Ciao karlessi, karlessi <karlessi@alekos.net> writes: [...]
tre anni fa sono stato relatore con alcune colleghe qui https://www.anthropocene-curriculum.org/project/parallax-lisboa/lisboa-paral...
per favore, che tu sappia gli atti del convegno https://www.anthropocene-curriculum.org/project/parallax-lisboa/lisboa-paral... sono stati pubblicati da qualche parte? Su quel sito riesco a trovare solo le descrizioni dei vari seminati, come quello del quale sei stato relatore, ma non trovo i contenuti di dettaglio Grazie! 380° [...] -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
Ciao karlessi, grazie infinite per l'aneddoto di pedagogia hacker che hai condiviso! Lo riporto sotto. Ritengo che l'esperienza che racconti sia perfetta per la lista di discussione sulla "scienza aperta" di AISA (https://aisa.sp.unipi.it/seguici/), per questo mi permetto di inoltrarla lì, citando le parti pertinenti del tuo messaggio. Chiedo perdono per il cross-posting e per l'OT in lista Nexa: abbiamo concordato che non è questo il "luogo" per discutere di (meta)scienza, ma trattandosi di informatica (che ovviamente è meta-scienza) forse ci rientra di sponda. In estrema sintesi, il "problema dato" è ampiamente sottovalutato, anche dagli scienziati. karlessi <karlessi@alekos.net> writes: [...]
a mo' di aneddoto, una storiella sui dati:
tre anni fa sono stato relatore con alcune colleghe qui https://www.anthropocene-curriculum.org/project/parallax-lisboa/lisboa-paral...
fuffa? non fuffa? come vi pare. sparare sull'accademia è come sparare sulla croce rossa. ad ogni modo, c'erano una trentina di ricercatori e professori da tutto il mondo, perlopiù hard science: fisica, biologia, ecc. e ciascun* mi pareva piuttosto competente nel proprio campo. Se non lo era (ne dubito, mi ritengo piuttosto allenato), mi hanno imbrogliato per bene.
cercando di spiegare quel che facciamo, come funziona la "pedagogia hacker", ho detto qualcosa tipo: "you know, technical and digital systems are increasingly complex, complicated indeed, with many layers. In fact, these systems tend to manipulate us while we're feeding them by interacting with them. We are manipulated by how systems are designed, by the default UI etc."
sì, si parlava in finto inglese. sì, sono scarso in inglese e anche in finto inglese. cmq volevo proprio dire "manipulated", "manipolati"
apriti cielo. Gli scienziati ci hanno attaccati, verbalmente aggrediti, al limite dell'aggressione fisica. Gente che non si conosceva, discipline lontanissime, continuavano a ripetere che i "dati" sono cose "oggettive".
Seriamente? «Why Data Is Never Raw - On the seductive myth of information free of human judgment» by Nick Barrowman, 2018 (sottolineo judgment, si veda in conclusione la nota su Kant, n.d.r) https://www.thenewatlantis.com/publications/why-data-is-never-raw «data is derived from the Latin meaning “given” [...], instead of considering data as given it would be more appropriate to think of it as taken, for which the Latin would be capta» [1] Come se cose come queste non fossero mai state dette? Come se cose come queste non riguardassero /anche/ loro?
Stavo forse sostenendo che loro venivano manipolati dai "dati"? Stavo forse suggerendo che i loro "dati" non erano corretti? I "dati" non manipolano, e loro si occupavano di "dati". Sarà.
Si sono calmati solo quando una collega ha preso in mano la situazione e ha fatto vedere la pagina principale di Google... ripetendo che l'apparenza inganna, "many layers", etc. ha digitato "Ctrl+u" sulla tastiera. Di fronte al JavaScript offuscato gli scienziati si sono calmati. [...]
Secondo me non è un caso che abbiate dovuto mostrare /codice/ offuscato per evidenziare come l'apparenza dei _dati_ inganni...
Quindi, il giorno dopo abbiamo proposto un pad aperto per l'occasione, a libero accesso, e abbiamo chiesto di scrivere la definizione di "data". Dopo un quarto d'ora c'erano una trentina di definizioni parecchio distanti fra loro, molte del tutto incompatibili.
Ora... assumendo per un istante che quegli studiosi fossero un ragionevole campione di studiosi in "scienze dure", ci siamo portate a casa l'idea che non sia affatto chiaro cosa sono questi fantomatici dati.
Ehrm: ni... Nel senso che credo sia perfettamente chiaro almeno cosa NON sono i "fantomatici" dati, almeno che non sono affatto fantomatici :-D ...sembra poco ma non lo è affatto. Cosa sia "dato", "codice" *e* la possibilità di essere trattato in modo /omoiconico/ [2] da linguaggi sufficientemente evoluti, agli informatici (e ai linguisti) è _abbastanza_ chiaro, credo... no? Gli informatici-linguisti hanno /sofferto/ così tanto su questo problema che sono arrivati _addirittura_ a cogitare un sistema di rappresentazione che si chiama Resource Description Framework (e molto prima un'intera classe di linguaggi: Lisp, Prolog, ecc.), per poterli _meglio_ "gestire" 'sti dati... e /manipolare/ i "codici" manipolandoli come se fossero dei "dati". (E ancora ce n'è da fare!) Il fatto è che agli scienziati, anche (specie?) quelli esperti in "scienze dure", frega oggettivamente poco di fare /esperienza/ nella meta-scienza, perché sono convinti - grazie alla loro grande intelligenza, specializzazione ed esperienza - di aver già capito tutto di cos'è la scienza... /data/. ...in altre parole, essendo esperti in scienze più o meno dure, letteralmente _schifano_ la scienza /soft/ per antonomasia: la meta-fisica (della quale fa parte la meta-scienza). Anche la scienza soft(ware), cioè l'informatica, ha più a che fare con il lato /meta/ che non quello /dato/ della fisica, il meta-dato appunto (ma senza mai trascurare la fisicità delle macchine!). Capita poi che, se "per caso" si avesse voglia di approfondire la seguente definizione di omoiconicità [2]: --8<---------------cut here---------------start------------->8--- A language is homoiconic if a program written in it can be manipulated as data using the language, and thus the program's internal representation can be inferred just by reading the program itself. This property is often summarized by saying that the language treats code as data. In a homoiconic language, the primary representation of programs is also a data structure in a primitive type of the language itself. --8<---------------cut here---------------end--------------->8--- ci si potrebbe perfino domandare se la limitazione ai linguaggi per "computer programming" non sia troppo /ristretta/, perché credo sia facilmente comprensibile come tutto il "codice" in senso _ampio_ (dal latino codex [3]), quando espresso in linguaggio naturale abbia la fondamentale caratteristica di essere manipolabile come dato utilizzando il linguaggio naturale stesso. Quindi: il dato è codice e il codice è dato [4] (anzi _capta_). E attenzione che qui stiamo parlando "solo" di dato, immaginati il Vaso di Pandora che si aprirebbe introducendo il concetto di /misurazione/, con tutti i criteri meta-metrologici del caso [5]. Ho l'impressione che, detta così, io possa far incazzare più di uno scienziato :-(... purtroppo non sono capace di dirlo diversamente.
è una storia realmente accaduta, dal mio punto di vista, s'intende; per me non c'è da discutere sul vero o falso,
No dai, non ci credo... o meglio, credo che questa ti sia sfuggita ma non intendevi quello che capisco io :-)
sul giusto e lo sbagliato,
Concordo: al massimo si può (anzi si /deve/) discutere sulla "relativity of wrong" [...]
ma sul fatto che intendersi è complicato, provenendo da culture diverse in lingue malparlate e malcomprese ancora di più,
nonostante tutto, IMHO si può capirsi, al di là delle differenze
di diversità e varietà, più ce n'è, meglio è.
Sì concordo, ciascuno di noi deve fare del nostro meglio per "venirsi incontro", altrimenti le cose si complicano più di quanto già non lo siano. Spero vivamente che questo "venirsi incontro" tenga presente il nocciolo del problema filosofico (idealista?) che Kant ha così descritto nella "Critica del Giudizio": --8<---------------cut here---------------start------------->8--- Sebbene vi sia un incommensurabile abisso tra il dominio del concetto della natura o il sensibile, e il dominio del concetto della libertà o il soprasensibile, in modo che nessun passaggio sia possibile dal primo al secondo (mediante l'uso teoretico della ragione) quasi fossero due mondi tanto diversi che l'uno non potesse avere alcun influsso sull'altro... tuttavia il secondo [il mondo della libertà] deve avere un influsso sul primo [il mondo della necessità], cioè il concetto della libertà deve realizzare nel mondo sensibile lo scopo posto mediante le sue leggi e la natura deve poter essere pensata in modo che la conformità alle leggi che costituiscono la sua forma possa accordarsi con la possibilità degli scopi che in esse debbono essere effettuati secondo leggi della libertà. (I. Kant, La Critica del giudizio, Bari 1964) --8<---------------cut here---------------end--------------->8--- (https://it.wikipedia.org/wiki/Critica_del_Giudizio) Nota mia: sensibile = fisico; soprasensibile = meta-fisico. [...]
ma... si può capirsi,
con calma,
e gentilezza
e tanta, tanta /divertente/ fatica :-D [...] Ciao! 380° [1] mumble... capta, capture, /captive/. Non divaghiamo! [2] https://en.wikipedia.org/wiki/Homoiconicity [3] https://it.wikipedia.org/wiki/Codice_(filologia) [4] proprio perché "the book IS a program": https://docs.racket-lang.org/pollen/ [5] vorrà pur dire qualcosa che una non trascurabile realtà /ipotizzata/ dell'universo sia definita "materia oscura" e "energia oscura" dagli stessi scienziati "duri", no? P.S.: ora è assolutamente fuori luogo ma ho in mente tre o quattro cosine che farebbero incazzare gli scienziati "duri e puri" ancora di più dell'"accusa" di essere manipolati attraverso i dati. -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
participants (3)
-
380° -
Giacomo Tesio -
karlessi