Re: [nexa] Big bad data: We don't trust AI to make good decisions

Sept. 18, 2020

      On Fri, 18 Sep 2020 15:35:24 +0200
Giovanni Biscuolo <giovanni@biscuolo.net> wrote:
...
Per poterci essere davvero trasparenza, anche e soprattutto
all'interno della comunità scientifica, ogni sistema AI dovrebbe
essere fornito con le 4 libertà definite per il software libero *e*
con i dati utilizzati per addestrarlo.
Una nota su questo:

Se parliamo di "reti neurali artificiali" o sistemi statistici affini,
il codice ed i dati di calibrazione non sono sufficienti a garantire
trasparenza.

Per avere una _minima_ trasparenza servono:

- il codice
- la documentazione
- i dati di calibrazione (malamente detta "training")
  - anche per tutti i modelli alternativi provati
- i valori iniziali delle reti prima della calibrazione
  - anche per tutti i modelli alternativi provati
- i dati di cross validation [1]
- i dati di test

Questo per:
- evidenziare bias nei dati di calibrazione
- evidenziare bias nei dati di cross-validation
- evidenziare bias nei dati di test (che oltre a poter smentire i
  successi vantati dal marketing, potrebbero evidenziare scelte
  consapevoli nella determinazione dei bias suddetti)
- evidenziare anomalie (volontarie o meno) nei valori iniziali delle
  reti testate

Parliamo comunque di una trasparenza minima perché:

- queste informazioni permettono AL MASSIMO di verificare le
  affermazioni degli sviluppatori sulla metodologia di realizzazione
  del sistema replicandone il processo di creazione
  (una sorta di build replicabile per l'AI)
- il costo energetico e l'hardware necessario per questa verifica è
  comparabile a quello usato durante la sua realizzazione, ma non può
  essere messo a disposizione dal "fornitore" perché potrebbe alterarlo.

Dunque in questo caso, le 4 libertà non bastano.

Giacomo
1) https://en.wikipedia.org/wiki/Cross-validation_(statistics)

Re: [nexa] Big bad data: We don't trust AI to make good decisions

Giacomo Tesio