A me pare che lo stato di diritto sia in forte crisi avviata prima ancora della transizione digitale, quest'ultima la accentua e potrebbe dargli il colpo finale.

[Qual'è il potere di un stato (Italia, ma anche Cina, Ue, Usa) di fronte alla "fattualità" dei colossi digitali? Parafrasando Manzoni, parlerei di "grida" che inutilmente cercano di arginare i fatti]

Con questi timori si deve insistere per rendere completamente verificabile e riproducibile l'intero processo di programmazione.

Cordialmente

Duccio (Alessandro Marzocchi)

Date: Thu, 13 Apr 2023 10:49:17 +0000
From: Giacomo Tesio <giacomo@tesio.it>
To: Guido Vetere <vetere.guido@gmail.com>, 380° <g380@biscuolo.net>
Il 12 Aprile 2023 14:28:03 UTC, Guido Vetere <vetere.guido@gmail.com> ha scritto:
>Giacomo,
>anche il LM più puri usati per il più innocente task di classificazione
>potrebbero essere stati addestrati con dati ottenuti senza il consenso
>esplicito di chi li ha condivisi, dunque in violazione del GDPR.
>Che vogliamo fare?

Nella peggiore delle ipotesi, quello che si fa con l'Eternit, per esempio.
Possibilmente prima che faccia troppi danni alle persone e alla società.
Però la questione che poni sul dataset usato per la programmazione statistica ha una soluzione
estremamente semplice.
Basta imporre che tutti i dataset utilizzati durante la programmazione statistica
("training" nella vulgata), inclusi quelli usati per la cross validation e il test, nonché tutti gli
altri dati necessari a riprodurre esattamente il processo ed ottenere esattamente il modello
in produzione (e le sue alternative scartate), siano preservati per tutta la durata della sua permanenza in produzione e diciamo 20 anni dopo (in caso di aggiornamento). [1]
Rendendo verficabilmente e completamente riproducibile il processo di programmazione
statistica, Open AI (come chiunque altro) potrà facilmente dimostrare di non aver utilizzato dati
ottenuti in violazione di qualsisi Legge.
Più costoso (ma spesso possibile) sarà dimostrare che la selezione del dataset
o il processo di programnazione utilizzato non abbia prodotto specifiche discriminazioni.
Molto più complesso e costoso, dimostrare di non aver voluto imporre al modello alcuna discriminazione intenzionale.
Tuttavia parliamo di cose perfettamente fattibili sul piano tecnico, ancorché costose.
Ma si sa: l'innovazione costa.
E al DARPA hanno un sacco di soldi per finanziarla. ;-)
L'importante è impedire che qualsiasi tecnologia possa essere usata per violare i diritti delle persone
(a vantaggio di altre persone, per altro)
Perché se passasse questo principio, dovremmo dire addio allo Stato di Diritto,
con tutto ciò che questo comporta.
Inclusa, ad esempio, l'abolizione del diritto alla proprietà privata.
Si può fare eh!
Ma sei sicuro che sia ciò a cui aspiri?
Giacomo
[1]: inclusi ovviamente vettori di inizializzazione, valori ottenuti da sorgenti randomiche,
ordine esatto e contenuto dei batch di vettori usati durante il processo di
programmazione statistica etc... tutto insomma ciò che serve a riottenere esattamente
quel binario codato come matrice.
------------------------------