Quando ho letto di Timnit Gebru licenziata da Google ho pregiudizievolmente pensato che, poichè lei stesse in AI Ethics di Google, fosse una foglia di fico. Un'utile idiota sfruttata in un periodo di tempo, nella quale avrebbe creduto di poter cambiare la compagnia dell’interno, ed una volta esauritasi qualcun’altra avrebbe preso il suo ruolo. Quindi: partecipare a meeting, pubblicare articoli carichi di buone intenzioni, fare conferenze in cui si mescola la sua autocoscienza con la politica di google, che chiaramente nel frattempo non sarà cambiata di una virgola e il circolo della tokenizzazione* sarebbe continuato. E invece leggendo l'articolo e la spiegazione del paper ( https://www.technologyreview.com/2020/12/04/1013294/google-ai-ethics-researc...), devo riconoscere che ho davvero rispettato la direzione della sua attività, se specialmente se messe in prospettiva con alcuni problemi irrisolti. Volevo condividere queste riflessioni, non so dire quanto siano scontate né quanto siano accurate, commenti sono benvenuti anche se puramente speculativi. E se avete poco tempo, leggete solo la parte "Dicembre 2020". flashback n.1: 2016 Google e Facebook rivoluzionano l'uso delle artificial intelligence quando rilasciano rispettivamente Tensor Flow e Caffe2|pyTorch. Sono dei framework open source di deep learning. Siccome sono open source è chiaro che non sia lì l'intelligenze, bensì in un altro componente che con questi framework puoi creare, si chiama "modello". I modelli si addestrano con enormi moli di dati, e se consideriamo che da quel momento inizia una stampa favorevole all'AI che la dipinge come salvifica e rivoluzionaria, il sottotesto mai messo in discussione è: "per avere un'AI accurata devi avere un sacco di dati". o anche "La tua azienda può avere un'ottima AI, se e solo se collezioni e studi grandi quantità di dati". E' un modo per legittimare e consolidare questo trend intrinseco del capitalismo della sorveglianza. Questo approccio porta con sé due problemi che non sono immediatamente visibili, uno è il cosiddetto bias. Questa parola ha un significato tecnico ben preciso, ma in pratica nel gergo non specialistico di chi commenta l'AI, si intendono i pregiudizi, le imprecisioni apprese dal modello durante l'addestramento, perchè derivate da peculiarità inattese dei dati. Queste hanno poi conseguenze sociali difficilmente evidenziabili. L'altro problema è la totale mancanza di rendicontabilità (AI accountability), che rende sia i bias meno ovvi, sia le compagnie più scaricate di responsabilità. Durante il processo di addestramento, il modello acquisisce le informazioni e le snatura del loro senso originale. Il deep learning dopo il 2016 sviluppa diversi modelli, tra cui alcuni specializzati per la generazione e l'interpretazione del testo scritto. I modelli stessi possono essere venduti o dati in licenza. Di noto c'è GPT, GPT-2 e GPT-3 di OpenAI, ma Google ha BERT di molto simile, che già è integrato nel del motore di ricerca. La dottoressa Gebru si concentra(va) sugli aspetti etici di questi modelli, e quindi, ridurre il bias. flashback n.2: (a memoria, tra 2016 e 2018) Google si fa forte di https://ai.google/principles, i suoi principi etici per l'AI giusta. Naturalmente etica in questo caso è il termine ampio e flessibile che permette loro di rimanere nel campo dell'autoregolamentazione. a.k.a. discendente edulcorato e specializzato di "don't be evil". flashback n.3: 2018 Mark Zuckerberg, interrogazione del senato U.S. gli viene costantemente chiesto come mai ci siano espressioni d'odio su facebook. La sua risposta è presa dal manualetto del sogno americano: "Senatore, quando ho creato Facebook nel dormitorio dell'università non pensavo avremmo raggiunto questo livello. Stiamo assumendo molti content moderators, ma si tratta di un problema irrisolto nel mondo. Noi grazie al progresso tecnologico, in 5 anni avremo sistemi di intelligenza artificiale che ci permetteranno di individuare ogni espressione d'odio e bloccarla subito". Sono, ero, sempre rimasto scettico di questa affermazione perché il linguaggio muta nel tempo, il contesto e le sfumature regionali, le dinamiche di potere tra le persone, sono elementi che rendono la stessa espressione d'odio o anche no. La risposta tecnosoluzioni sta di facebook mi pareva una supercazzola. Amenochè, Mark Z. non fosse così convinto di avere abbastanza dati da poter creare un modello per ogni contesto culturale. Sembra che l'obiettivo fosse avere abbastanza modelli da saper coprire le diverse sfumature che prende il linguaggio, tenendo in considerazione la sua costante evoluzione e anche le differenze regionali/provinciali. Avere tanti modelli e quindi realizzare la profezia "con abbastanza dati e potenza di calcolo possiamo interpretare il mondo correttamente". Faccio il primo esempio che mi viene in mente. Un ipotetico modello addestrato sul il milanese storico, leggerebbe "pirla" con il significato di "trottola", mentre in altre regioni sarebbe interpretato come un insulto. E' chiaro che questo non possa seguire le sfumature lessicali che rendono una sequenza di parole un'espressione d'odio. Del resto che ne sai di come mi offendo io se mi dicono pirla? se me lo dicesse la mia capa o un vecchio amico gli attribuirò un significato diverso, ma forse a Mark interessava almeno evitare le cose più imbarazzanti ed eclatanti che la stampa nordamericana poteva trovare. (del resto, è l'unica stampa che conta per FB, non perdetevi: https://www.buzzfeednews.com/article/craigsilverman/facebook-ignore-politica... ) flashback n.4: 2019 Addestrare un modello di AI può causare emissioni pari a 5 automobili in tutta la loro vita ( https://www.technologyreview.com/2019/06/06/239031/training-a-single-ai-mode... ). Definizione del problema irrisolto Comprendere e rispettare le sfumature culturali, linguistiche, delle demografiche non dominanti. Possiamo anche fare una riflessione geografica: se la capitale culturale usa un certo slang, questo sarà riproposto alle periferie, risultando inevitabilmente meno adeguato, inclusivo, se non addirittura fuori luogo o colonizzatore. Non parliamo poi della chiara impossibilità che avrebbe un sistema così egemonico a rispettare le differenze personali. In sintesi, i significati del linguaggio maggioritari, usati della demografica dominante, sarebbero quelli appresi dal modello e riproposti in ogni contesto, indipendentemente se il contesto sia o meno quello che ha partecipato all'addestramento. Nel paper in lavorazione, menzionano come il movimento metoo abbia fatto cambiare il linguaggio e, quantomeno, facevano capire che questi modelli non possono essere ne eterni ne assoluti (es, non esisterà mai il modello "Inglese giusto") Dicembre 2020 (il paper ed il licenziamento) Timnit Gebru stava lavorando ad un paper che spiegava l'impatto ambientale dell'addestramento dei modelli: https://www.technologyreview.com/2020/12/04/1013294/google-ai-ethics-researc... se la teoria di Mark Z. fosse anche quella perseguita da Google, per la quale abbassare i bias significa addestrare modelli costantemente, per ogni contesto culturale, tenendo in considerazione ogni differenza sensibile che avrebbe potuto urtare gli utenti, si avrebbe avuto un dispendio energetico significativo. In pratica: "AI etica" e sostenibilità ambientale sono incompatibili. E questo, davanti all'inevitabile catastrofe climatica, è un assioma inaccettabile per Google, no? Poi su come si sia consumato il licenziamento, ci sono articoli più accurati che evidenziano la reazione molto inusuale di google sul trattamento del paper di ricerca (tra cui anche un twitter tread del manager che l’ha licenziata e la sua email interna). Le posizioni inizieranno gradualmente ad estremizzarsi anche perchè la licenziata/"we accept your resignation" aveva un background di attivismo tecno-politico non sottostimabile, e il movimento dei google walkout non ha atteso ad affezionarsi alla causa ( https://googlewalkout.medium.com/setting-the-record-straight-isupporttimnit-... ) Quindi, a dispetto del fatto che in un primo momento mi fosse sembrate l'utile idiota usata da Google per fare un po' di ethic-washing, questa donna e le sue ricerche meritano il rispetto di chi dall'interno di una corporation stava per sollevare un deadlock logico che ancora non si era visto, e che connette due problemi politici complessi attualmente irrisolti. ciao, Claudio * tokenizzazione significa "rendere una persona un token". E' un'ipotesi di sospetto diretta alle compagnie facoltose, che possano permettersi di avere persone appartenenti a categorie più rare (es, Timnit Gebru è una donna Eritrea-Statunitense, con tanti successi accademici alle spalle). In questo modo la compagnia può rivendicare una diversità esemplare. E' un peggiorativo, ma non è inteso nei confronti della persona-token, quanto più nell'azienda il quale management rimane della demografica dominante e non cambia veramente politiche in inclusività. Semplicemente, si compra i token e così si pulisce la coscienza in pubblico. Claudio Agosti, https://tracking.exposed, @_vecna PGP keybase.io/vecna - Research Associate - DATACTIVE University of Amsterdam https://data-activism.net