On Fri, 18 Sep 2020 15:35:24 +0200 Giovanni Biscuolo <giovanni@biscuolo.net> wrote:
Per poterci essere davvero trasparenza, anche e soprattutto all'interno della comunità scientifica, ogni sistema AI dovrebbe essere fornito con le 4 libertà definite per il software libero *e* con i dati utilizzati per addestrarlo.
Una nota su questo: Se parliamo di "reti neurali artificiali" o sistemi statistici affini, il codice ed i dati di calibrazione non sono sufficienti a garantire trasparenza. Per avere una _minima_ trasparenza servono: - il codice - la documentazione - i dati di calibrazione (malamente detta "training") - anche per tutti i modelli alternativi provati - i valori iniziali delle reti prima della calibrazione - anche per tutti i modelli alternativi provati - i dati di cross validation [1] - i dati di test Questo per: - evidenziare bias nei dati di calibrazione - evidenziare bias nei dati di cross-validation - evidenziare bias nei dati di test (che oltre a poter smentire i successi vantati dal marketing, potrebbero evidenziare scelte consapevoli nella determinazione dei bias suddetti) - evidenziare anomalie (volontarie o meno) nei valori iniziali delle reti testate Parliamo comunque di una trasparenza minima perché: - queste informazioni permettono AL MASSIMO di verificare le affermazioni degli sviluppatori sulla metodologia di realizzazione del sistema replicandone il processo di creazione (una sorta di build replicabile per l'AI) - il costo energetico e l'hardware necessario per questa verifica è comparabile a quello usato durante la sua realizzazione, ma non può essere messo a disposizione dal "fornitore" perché potrebbe alterarlo. Dunque in questo caso, le 4 libertà non bastano. Giacomo 1) https://en.wikipedia.org/wiki/Cross-validation_(statistics)