[nexa] una riflessione sul lavoro di Timnit Gebru ed una prospettiva che mi ha sorpreso

Dec. 9, 2020

      Quando ho letto di Timnit Gebru licenziata da Google ho pregiudizievolmente
pensato che, poichè lei stesse in AI Ethics di Google, fosse una foglia di
fico. Un'utile idiota sfruttata in un periodo di tempo, nella quale avrebbe
creduto di poter cambiare la compagnia dell’interno, ed una volta
esauritasi qualcun’altra avrebbe preso il suo ruolo. Quindi: partecipare a
meeting, pubblicare articoli carichi di buone intenzioni, fare conferenze
in cui si mescola la sua autocoscienza con la politica di google, che
chiaramente nel frattempo non sarà cambiata di una virgola e il circolo
della tokenizzazione* sarebbe continuato.

E invece leggendo l'articolo e la spiegazione del paper (
https://www.technologyreview.com/2020/12/04/1013294/google-ai-ethics-researc...),
devo riconoscere che ho davvero rispettato la direzione della sua attività,
se specialmente se messe in prospettiva con alcuni problemi irrisolti.

Volevo condividere queste riflessioni, non so dire quanto siano scontate né
quanto siano accurate, commenti sono benvenuti anche se puramente
speculativi. E se avete poco tempo, leggete solo la parte "Dicembre 2020".

flashback n.1: 2016

Google e Facebook rivoluzionano l'uso delle artificial intelligence quando
rilasciano rispettivamente Tensor Flow e Caffe2|pyTorch. Sono dei framework
open source di deep learning. Siccome sono open source è chiaro che non sia
lì l'intelligenze, bensì in un altro componente che con questi framework
puoi creare, si chiama "modello". I modelli si addestrano con enormi moli
di dati, e se consideriamo che da quel momento inizia una stampa favorevole
all'AI che la dipinge come salvifica e rivoluzionaria, il sottotesto mai
messo in discussione è: "per avere un'AI accurata devi avere un sacco di
dati". o anche "La tua azienda può avere un'ottima AI, se e solo se
collezioni e studi grandi quantità di dati". E' un modo per legittimare e
consolidare questo trend intrinseco del capitalismo della sorveglianza.

Questo approccio porta con sé due problemi che non sono immediatamente
visibili, uno è il cosiddetto bias. Questa parola ha un significato tecnico
ben preciso, ma in pratica nel gergo non specialistico di chi commenta
l'AI, si intendono i pregiudizi, le imprecisioni apprese dal modello
durante l'addestramento, perchè derivate da peculiarità inattese dei dati.
Queste hanno poi conseguenze sociali difficilmente evidenziabili. L'altro
problema è la totale mancanza di rendicontabilità (AI accountability), che
rende sia i bias meno ovvi, sia le compagnie più scaricate di
responsabilità.

Durante il processo di addestramento, il modello acquisisce le informazioni
e le snatura del loro senso originale. Il deep learning dopo il 2016
sviluppa diversi modelli, tra cui alcuni specializzati per la generazione e
l'interpretazione del testo scritto. I modelli stessi possono essere
venduti o dati in licenza. Di noto c'è GPT, GPT-2 e GPT-3 di OpenAI, ma
Google ha BERT di molto simile, che già è integrato nel del motore di
ricerca. La dottoressa Gebru si concentra(va) sugli aspetti etici di questi
modelli, e quindi, ridurre il bias.

flashback n.2: (a memoria, tra 2016 e 2018)

Google si fa forte di https://ai.google/principles, i suoi principi etici
per l'AI giusta. Naturalmente etica in questo caso è il termine ampio e
flessibile che permette loro di rimanere nel campo
dell'autoregolamentazione. a.k.a. discendente edulcorato e specializzato di
"don't be evil".

flashback n.3: 2018

Mark Zuckerberg, interrogazione del senato U.S. gli viene costantemente
chiesto come mai ci siano espressioni d'odio su facebook. La sua risposta è
presa dal manualetto del sogno americano: "Senatore, quando ho creato
Facebook nel dormitorio dell'università non pensavo avremmo raggiunto
questo livello. Stiamo assumendo molti content moderators, ma si tratta di
un problema irrisolto nel mondo. Noi grazie al progresso tecnologico, in 5
anni avremo sistemi di intelligenza artificiale che ci permetteranno di
individuare ogni espressione d'odio e bloccarla subito".

Sono, ero, sempre rimasto scettico di questa affermazione perché il
linguaggio muta nel tempo, il contesto e le sfumature regionali, le
dinamiche di potere tra le persone, sono elementi che rendono la stessa
espressione d'odio o anche no.

La risposta tecnosoluzioni sta di facebook mi pareva una supercazzola.
Amenochè, Mark Z. non fosse così convinto di avere abbastanza dati da poter
creare un modello per ogni contesto culturale. Sembra che l'obiettivo fosse
avere abbastanza modelli da saper coprire le diverse sfumature che prende
il linguaggio, tenendo in considerazione la sua costante evoluzione e anche
le differenze regionali/provinciali. Avere tanti modelli e quindi
realizzare la profezia "con abbastanza dati e potenza di calcolo possiamo
interpretare il mondo correttamente".

Faccio il primo esempio che mi viene in mente. Un ipotetico modello
addestrato sul il milanese storico, leggerebbe "pirla" con il significato
di "trottola", mentre in altre regioni sarebbe interpretato come un
insulto. E' chiaro che questo non possa seguire le sfumature lessicali che
rendono una sequenza di parole un'espressione d'odio. Del resto che ne sai
di come mi offendo io se mi dicono pirla? se me lo dicesse la mia capa o un
vecchio amico gli attribuirò un significato diverso, ma forse a Mark
interessava almeno evitare le cose più imbarazzanti ed eclatanti che la
stampa nordamericana poteva trovare. (del resto, è l'unica stampa che conta
per FB, non perdetevi:
https://www.buzzfeednews.com/article/craigsilverman/facebook-ignore-politica...
)

flashback n.4: 2019

Addestrare un modello di AI può causare emissioni pari a 5 automobili in
tutta la loro vita (
https://www.technologyreview.com/2019/06/06/239031/training-a-single-ai-mode...
).

Definizione del problema irrisolto

Comprendere e rispettare le sfumature culturali, linguistiche, delle
demografiche non dominanti. Possiamo anche fare una riflessione geografica:
se la capitale culturale usa un certo slang, questo sarà riproposto alle
periferie, risultando inevitabilmente meno adeguato, inclusivo, se non
addirittura fuori luogo o colonizzatore.

Non parliamo poi della chiara impossibilità che avrebbe un sistema così
egemonico a rispettare le differenze personali.

In sintesi, i significati del linguaggio maggioritari, usati della
demografica dominante, sarebbero quelli appresi dal modello e riproposti in
ogni contesto, indipendentemente se il contesto sia o meno quello che ha
partecipato all'addestramento.

Nel paper in lavorazione, menzionano come il movimento metoo abbia fatto
cambiare il linguaggio e, quantomeno, facevano capire che questi modelli
non possono essere ne eterni ne assoluti (es, non esisterà mai il modello
"Inglese giusto")

Dicembre 2020 (il paper ed il licenziamento)

Timnit Gebru stava lavorando ad un paper che spiegava l'impatto ambientale
dell'addestramento dei modelli:
https://www.technologyreview.com/2020/12/04/1013294/google-ai-ethics-researc...
se la teoria di Mark Z. fosse anche quella perseguita da Google, per la
quale abbassare i bias significa addestrare modelli costantemente, per ogni
contesto culturale, tenendo in considerazione ogni differenza sensibile che
avrebbe potuto urtare gli utenti, si avrebbe avuto un dispendio energetico
significativo.

In pratica: "AI etica" e sostenibilità ambientale sono incompatibili.

E questo, davanti all'inevitabile catastrofe climatica, è un assioma
inaccettabile per Google, no?

Poi su come si sia consumato il licenziamento, ci sono articoli più
accurati che evidenziano la reazione molto inusuale di google sul
trattamento del paper di ricerca (tra cui anche un twitter tread del
manager che l’ha licenziata e la sua email interna). Le posizioni
inizieranno gradualmente ad estremizzarsi anche perchè la licenziata/"we
accept your resignation" aveva un background di attivismo tecno-politico
non sottostimabile, e il movimento dei google walkout non ha atteso ad
affezionarsi alla causa (
https://googlewalkout.medium.com/setting-the-record-straight-isupporttimnit-...
)

Quindi, a dispetto del fatto che in un primo momento mi fosse sembrate
l'utile idiota usata da Google per fare un po' di ethic-washing, questa
donna e le sue ricerche meritano il rispetto di chi dall'interno di una
corporation stava per sollevare un deadlock logico che ancora non si era
visto, e che connette due problemi politici complessi attualmente irrisolti.

ciao,

Claudio

* tokenizzazione significa "rendere una persona un token". E' un'ipotesi di
sospetto diretta alle compagnie facoltose, che possano permettersi di avere
persone appartenenti a categorie più rare (es, Timnit Gebru è una donna
Eritrea-Statunitense, con tanti successi accademici alle spalle). In questo
modo la compagnia può rivendicare una diversità esemplare. E' un
peggiorativo, ma non è inteso nei confronti della persona-token, quanto più
nell'azienda il quale management rimane della demografica dominante e non
cambia veramente politiche in inclusività. Semplicemente, si compra i token
e così si pulisce la coscienza in pubblico.

Claudio Agosti, https://tracking.exposed, @_vecna
PGP keybase.io/vecna - Research Associate - DATACTIVE
University of Amsterdam https://data-activism.net