On 15 Oct 2023, at 12:00, nexa-request@server-nexa.polito.it wrote:
Tutto questo per dirvi cosa? Che alla fine, per un informatico, il "chissà che altro" che rimanda a qualcosa di "magico", di segreto industriale, ecc. è inammissibile. E' vero, ad oggi è così, ma, come giustamente ha scritto Guido Vetere "fare un LLM di qualche decina di miliardi di parametri magari solo per l'italiano è alla portata perfino del più sgangherato dei carrozzoni pubblici italiani”.
Ben venga lo sviluppo di LLM alternativi. Secondo me ciascuno dovrebbe avere il suo personale, calibrato sui suoi interessi e le conoscenze sui suoi campi di interesse: un po’ come ci sono tanti giornali che rappresentano diversi punti di vista. C’è persino un progetto finanziato dalla CE che intende fare centinaia di LLM: https://hplt-project.org/ Peccato che il finanziamento totale sia di 4 milioni €, con cui ci si fa poco. Mistral.AI, una startup francese, ha ottenuto 100 milioni di investimento e utilizza Leonardo di Cineca per sviluppare LLM: https://mistral.ai/news/announcing-mistral-7b/ Che sono sempre pochi rispetto a quanto spendono OpenAI, Google e Meta in risorse di calcolo. Perché la questione di fondo, è quella delle “emergent abilities” che i LLM cominciano ad esibire quando superano una certa dimensione: https://www.jasonwei.net/blog/emergence Ossia un modello diventa in grado di svolgere compiti per i quali non era stato allenato, come nei sistemi complessi. — Beppe
Buon giorno Giuseppe, Il 16 Ottobre 2023 02:59:49 UTC, Giuseppe Attardi ha scritto:
Perché la questione di fondo, è quella delle “emergent abilities” che i LLM cominciano ad esibire quando superano una certa dimensione: https://www.jasonwei.net/blog/emergence Ossia un modello diventa in grado di svolgere compiti per i quali non era stato allenato, come nei sistemi complessi.
Anche questo va dimostrato, riproducendo esattamente il processo di programmazione statistica (quello che tu antropomorfizzi come "allenamento") fino ad ottenere esattamente lo stesso software ("modello" nella tua parlata). A quel punto sapremo se si tratta davvero di abilità emergenti o di semplice ricostruzione lossy di testi usati per la programmazione stessa. Per parlare di "emergent abilities" in un software senza disporre di perfetta riproducibilità della sua programmazione è necessario abbandonare ogni rigore scientifico e ogni senso critico. Non a caso quando Microsoft ha iniziato a propagandare la nascita del AGI in GPT4 [1] ha dovuto fare dichiaratamente cherry-picking di output "ottimizzati" e non riproducibili. Ma senza perfetta riproducibilità, per ragioni di costo o perché dettagli fondamentali non vengono pubblicati, le "emergent abilities" non passano il rasoio di Occam Giacomo [1] https://arxiv.org/abs/2303.12712
Il 16/10/23 04:59, Giuseppe Attardi ha scritto:
[...] Peccato che il finanziamento totale sia di 4 milioni €, con cui ci si fa poco. [...]
4 milioni di €, *PUBBLICI*, sono una quantita' *ENORME* di denaro. Mi sanguina il cuore ad osservare la "leggerezza" con la quale tale somma di denaro viene sminuita. Perché sono pochi? Cosa cambierebbe, rispetto al progetto HPLT, se fossero di piu'? Ma, soprattutto, cosa "torna indietro", precisamente, HPLT, a fronte di quei 4M€.... soprattutto in considerazione del fatto che mi aspetto che i 4M€ sia una percentuale alta di quello che loro stessi hanno chiesto? Detto in altri termini: non solo i 4M€ a HPLT sono tantissimi... ma io, terzo, voglio pure capire BENISSIMO cosa ci hanno fatto / stanno facendo... (il sito [1], fortunatamente, aiuta) Non sono domande "cattive"... Se volessi essere cattivo, ed utilizzassi il suo stesso approccio quando altri entrano pesantemente nella sua sfera di competenza.... avrei potuto risponderle con: "Sono pochi? Allora ne aggiunga lei, altri!". Ma qui, siamo tra adulti teste-pensanti e quindi... non lo faccio. Per meglio esplicitare il mio punto di vista sul tema "denaro pubblico" (e "rendicontazione"), aggiungo alcune considerazioni: * quando Grillo --in epoca ante-parlamentare-- sbandierava alla stampa che il "bilancio" del suo movimento era "pubblico", io rimasi esterrefatto dal constatare che quello che lui chiamava "bilancio" stava in mezza pagina A4, con interlinea neanche troppo stretta. Si trattava di un movimento che, dietro, aveva 8 milioni di elettori.... Pensavo a quella mezza pagina A4 e, di fianco, avevo il PDF della mia societa' (una micro-SRL da 10k€ di capitale sociale) che era, nella forma "sintetica", un foglio di calcolo che stava su 3 x A4 e, nella sua forma piu' "verbose" (la relazione annessa) di oltre 10 pagine A4; * nel 2023, un "avviso di accertamento" che un Comune da 8K abitanti manda ad una sua cittadina per chiedere l'IMU non pagata... è un documento da 7 pagine A4 con, dentro, una quantita' di testo e di numeri che è impossibile da gestire da parte di un ultra-settantacinquenne (mia madre), e non solo. Il totale è dell'ordine dei 1000 €; * nel 2015, per supportare un'azienda terza a partecipare ad una gara ICT della locale ASL (del valore di ~400k€), dovetti processare un disciplinare (amministrativo) da 23 pagine A4 + un capitolato (tecnico) da 18 pagina A4. La nostra "offerta" richiese un preliminare foglio di calcolo piuttosto complesso e, soprattutto, un "progetto" e un "allegato", rispettivamente da 38 e 32 pagine A4. Il tutto, ripeto... per ~400K€ "pubblici" (per inciso: la gara... la perdemmo); * nel 2004 contribuii a TOSSAD (Towards Open Source Software Administration and Dissemination), un progetto finanziato dalla UE nell'ambito del 6° programma quadro per ~750K€. La DoW (Description of Work) era un documento da 87 pagine A4 (io contribuii al solo WP3). ...e potrei continuare. Tutto questo per dire che, quando lei parla di 4 milioni (pubblici) come se fossero i soldi del "monopoli"... la cosa è decisamente antipatica. Sono *TANTI* ed il loro utilizzo va *ARGOMENTATO*. Io, dall'alto della mia ignoranza, non ho la presunzione di evidenziare che 4M€ siano pochi o molti per il progetto HPLT. E accetto anche il fatto che, per lei e per altri possano essere "pochi". Quello che, pero', mi aspetto (da ambienti come questo, che non sono e non possono essere assimilati ad un thread su Twitter), che la cosa venga minimamente argomentata. Senza tale argomentazione, la frase andrebbe significativamente riformulata. Senza tale riformulazione, rischiamo di alimentare.... il rumore di fondo. Saluti, DV [1] https://hplt-project.org/about P.S.:
[...mistral.ai...] Che sono sempre pochi rispetto a quanto spendono OpenAI, Google e Meta in risorse di calcolo. [...] Su questo, evito di commentare... perché non mi pare che "mistral.ai" sia concorrente di Alphabet e Meta (e Microsoft) e quindi confrontarli non ha alcun senso. Sull'eventuale confronto con OpenAI, sono (io) ignorante.
-- Damiano Verzulli e-mail:damiano@verzulli.it --- possible?ok:while(!possible){open_mindedness++} --- "...I realized that free software would not generate the kind of income that was needed. Maybe in USA or Europe, you may be able to get a well paying job as a free software developer, but not here [in Africa]..." -- Guido Sohne - 1973-2008 http://ole.kenic.or.ke/pipermail/skunkworks/2008-April/005989.html
Il 16/10/23 09:02, Damiano Verzulli ha scritto:
Il 16/10/23 04:59, Giuseppe Attardi ha scritto:
[...] Peccato che il finanziamento totale sia di 4 milioni €, con cui ci si fa poco. [...]
4 milioni di €, *PUBBLICI*, sono una quantita' *ENORME* di denaro.
Come informazione di contesto aggiungiamo che, come ha più volte giustamente lamentato lo stesso professor Attardi, la medesima università che fa questa destinazione di spesa ha dismesso il proprio Owncloud per spostarci su cloud Google e Microsoft, fa gestire la posta degli studenti - per ora solo quella - direttamente da Microsoft e fa usare Microsoft Teams per la teledidattica - quando potremmo disporre dell'ottimo Big Blue Button del Garr.. Lo stesso professor Attardi aveva rilevato, in una bellissima teleconferenza pisana, che tutte queste funzioni che ora sono state delegate a G---M una volta erano oggetto di sviluppo e sperimentazione nelle università. E che dovrebbero rimanere tali, perché l'insegnamento - e la ricerca sulle sue modalità - non è una funzione accidentale dell'università, che possa essere data in appalto a terzi, ma una delle sue funzioni specifiche. Delegarla è pericoloso, perché espone l'università stessa al rischio di apparire - e di diventare effettivamente - superflua. Fra queste due scelte c'è un nesso? A presto, MCP
A parte la questione delle 'emergent abilities' che è alquanto controversa e a me fa venire la pelle d'oca (cosa potrebbe emergere? come facciamo a saperlo?) credo che la (vera) 'democratizzazione' (so to say) dei LLM sia un processo già in atto, e che per trarne benefici non serva tanto denaro, ma tanta volontà politica. Ad esempio: sono convinto (su basi empiriche) che un Llama2 70B, ben fine-tunato (perdonatemi!), sia già adatto a tante cose come summarization, ner, topic analysis, ecc, (NB: compiti analitici, non 'stricto sensu' generativi), i quali potrebbero essere utilissimi per gestire meglio i sistemi informativi ad es. della PA. Per mettere in esercizio e adattare un modello del genere 4M bastano e avanzano, senza neanche scomodare Leonardo e Cineca. Si potrà fare? Cioè: gli executive di MS, Google e Meta che finanziano le fondazioni dei politici che nominano i vertici della PA saranno d'accordo? Scusate lo sfogo aggressivo-passivo :-) G. On Mon, 16 Oct 2023 at 05:00, Giuseppe Attardi <attardi@di.unipi.it> wrote:
On 15 Oct 2023, at 12:00, nexa-request@server-nexa.polito.it wrote:
Tutto questo per dirvi cosa? Che alla fine, per un informatico, il "chissà che altro" che rimanda a qualcosa di "magico", di segreto industriale, ecc. è inammissibile. E' vero, ad oggi è così, ma, come giustamente ha scritto Guido Vetere "fare un LLM di qualche decina di miliardi di parametri magari solo per l'italiano è alla portata perfino del più sgangherato dei carrozzoni pubblici italiani”.
Ben venga lo sviluppo di LLM alternativi. Secondo me ciascuno dovrebbe avere il suo personale, calibrato sui suoi interessi e le conoscenze sui suoi campi di interesse: un po’ come ci sono tanti giornali che rappresentano diversi punti di vista.
C’è persino un progetto finanziato dalla CE che intende fare centinaia di LLM: https://hplt-project.org/
Peccato che il finanziamento totale sia di 4 milioni €, con cui ci si fa poco. Mistral.AI, una startup francese, ha ottenuto 100 milioni di investimento e utilizza Leonardo di Cineca per sviluppare LLM: https://mistral.ai/news/announcing-mistral-7b/
Che sono sempre pochi rispetto a quanto spendono OpenAI, Google e Meta in risorse di calcolo.
Perché la questione di fondo, è quella delle “emergent abilities” che i LLM cominciano ad esibire quando superano una certa dimensione: https://www.jasonwei.net/blog/emergence Ossia un modello diventa in grado di svolgere compiti per i quali non era stato allenato, come nei sistemi complessi.
— Beppe
_______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
On 16 Oct 2023, at 10:09, Guido Vetere <vetere.guido@gmail.com> wrote:
A parte la questione delle 'emergent abilities' che è alquanto controversa e a me fa venire la pelle d'oca (cosa potrebbe emergere? come facciamo a saperlo?) credo che la (vera) 'democratizzazione' (so to say) dei LLM sia un processo già in atto, e che per trarne benefici non serva tanto denaro, ma tanta volontà politica.
Ad esempio: sono convinto (su basi empiriche) che un Llama2 70B, ben fine-tunato (perdonatemi!), sia già adatto a tante cose come summarization, ner, topic analysis, ecc, (NB: compiti analitici, non 'stricto sensu' generativi), i quali potrebbero essere utilissimi per gestire meglio i sistemi informativi ad es. della PA. Per fare queste cose semplici, bastano i word embeddings (vedi l’articolo di Collobert che ho citato). È per fare tutto il resto che servono i LLM (dove Large sta, per definizione, oltre i 10^10 parametri).
Per mettere in esercizio e adattare un modello del genere 4M bastano e avanzano, senza neanche scomodare Leonardo e Cineca. Si potrà fare? Cioè: gli executive di MS, Google e Meta che finanziano le fondazioni dei politici che nominano i vertici della PA saranno d'accordo?
Per fare il fine tuning di Llama 2 70B, servono almeno 4 GPU Nvidia, solo per caricare il modello in memoria: poi si può usare LoRA per le modifiche. Occorrono 4 giorni di elaborazione. E un server con 4 GPU Nvidia costa intorno ai 40.000 €. Del resto, delle due l’una: o i LLM sono insufficienti e criticati per i loro limiti, o persino quelli più piccoli sono meravigliosi. — Beppe
Scusate lo sfogo aggressivo-passivo :-)
G.
On Mon, 16 Oct 2023 at 05:00, Giuseppe Attardi <attardi@di.unipi.it <mailto:attardi@di.unipi.it>> wrote:
On 15 Oct 2023, at 12:00, nexa-request@server-nexa.polito.it <mailto:nexa-request@server-nexa.polito.it> wrote:
Tutto questo per dirvi cosa? Che alla fine, per un informatico, il "chissà che altro" che rimanda a qualcosa di "magico", di segreto industriale, ecc. è inammissibile. E' vero, ad oggi è così, ma, come giustamente ha scritto Guido Vetere "fare un LLM di qualche decina di miliardi di parametri magari solo per l'italiano è alla portata perfino del più sgangherato dei carrozzoni pubblici italiani”.
Ben venga lo sviluppo di LLM alternativi. Secondo me ciascuno dovrebbe avere il suo personale, calibrato sui suoi interessi e le conoscenze sui suoi campi di interesse: un po’ come ci sono tanti giornali che rappresentano diversi punti di vista.
C’è persino un progetto finanziato dalla CE che intende fare centinaia di LLM: https://hplt-project.org/
Peccato che il finanziamento totale sia di 4 milioni €, con cui ci si fa poco. Mistral.AI, una startup francese, ha ottenuto 100 milioni di investimento e utilizza Leonardo di Cineca per sviluppare LLM: https://mistral.ai/news/announcing-mistral-7b/
Che sono sempre pochi rispetto a quanto spendono OpenAI, Google e Meta in risorse di calcolo.
Perché la questione di fondo, è quella delle “emergent abilities” che i LLM cominciano ad esibire quando superano una certa dimensione: https://www.jasonwei.net/blog/emergence Ossia un modello diventa in grado di svolgere compiti per i quali non era stato allenato, come nei sistemi complessi.
— Beppe
_______________________________________________ nexa mailing list nexa@server-nexa.polito.it <mailto:nexa@server-nexa.polito.it> https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
i LLM sono meravigliosi o insufficienti a seconda del task a cui li applichi basta essere d'accordo sul fatto che la loro è una "intelligenza aliena" che ha ben poco a che fare con la cognitività umana, ad es la loro 'semantica' non c'entra nulla con quella umana d'altra parte possono essere apprezzati proprio per la loro diversità G. On Mon, 16 Oct 2023 at 11:06, Giuseppe Attardi <attardi@di.unipi.it> wrote:
On 16 Oct 2023, at 10:09, Guido Vetere <vetere.guido@gmail.com> wrote:
A parte la questione delle 'emergent abilities' che è alquanto controversa e a me fa venire la pelle d'oca (cosa potrebbe emergere? come facciamo a saperlo?) credo che la (vera) 'democratizzazione' (so to say) dei LLM sia un processo già in atto, e che per trarne benefici non serva tanto denaro, ma tanta volontà politica.
Ad esempio: sono convinto (su basi empiriche) che un Llama2 70B, ben fine-tunato (perdonatemi!), sia già adatto a tante cose come summarization, ner, topic analysis, ecc, (NB: compiti analitici, non 'stricto sensu' generativi), i quali potrebbero essere utilissimi per gestire meglio i sistemi informativi ad es. della PA.
Per fare queste cose semplici, bastano i word embeddings (vedi l’articolo di Collobert che ho citato). È per fare tutto il resto che servono i LLM (dove Large sta, per definizione, oltre i 10^10 parametri).
Per mettere in esercizio e adattare un modello del genere 4M bastano e avanzano, senza neanche scomodare Leonardo e Cineca. Si potrà fare? Cioè: gli executive di MS, Google e Meta che finanziano le fondazioni dei politici che nominano i vertici della PA saranno d'accordo?
Per fare il fine tuning di Llama 2 70B, servono almeno 4 GPU Nvidia, solo per caricare il modello in memoria: poi si può usare LoRA per le modifiche. Occorrono 4 giorni di elaborazione. E un server con 4 GPU Nvidia costa intorno ai 40.000 €.
Del resto, delle due l’una: o i LLM sono insufficienti e criticati per i loro limiti, o persino quelli più piccoli sono meravigliosi.
— Beppe
Scusate lo sfogo aggressivo-passivo :-)
G.
On Mon, 16 Oct 2023 at 05:00, Giuseppe Attardi <attardi@di.unipi.it> wrote:
On 15 Oct 2023, at 12:00, nexa-request@server-nexa.polito.it wrote:
Tutto questo per dirvi cosa? Che alla fine, per un informatico, il "chissà che altro" che rimanda a qualcosa di "magico", di segreto industriale, ecc. è inammissibile. E' vero, ad oggi è così, ma, come giustamente ha scritto Guido Vetere "fare un LLM di qualche decina di miliardi di parametri magari solo per l'italiano è alla portata perfino del più sgangherato dei carrozzoni pubblici italiani”.
Ben venga lo sviluppo di LLM alternativi. Secondo me ciascuno dovrebbe avere il suo personale, calibrato sui suoi interessi e le conoscenze sui suoi campi di interesse: un po’ come ci sono tanti giornali che rappresentano diversi punti di vista.
C’è persino un progetto finanziato dalla CE che intende fare centinaia di LLM: https://hplt-project.org/
Peccato che il finanziamento totale sia di 4 milioni €, con cui ci si fa poco. Mistral.AI, una startup francese, ha ottenuto 100 milioni di investimento e utilizza Leonardo di Cineca per sviluppare LLM: https://mistral.ai/news/announcing-mistral-7b/
Che sono sempre pochi rispetto a quanto spendono OpenAI, Google e Meta in risorse di calcolo.
Perché la questione di fondo, è quella delle “emergent abilities” che i LLM cominciano ad esibire quando superano una certa dimensione: https://www.jasonwei.net/blog/emergence Ossia un modello diventa in grado di svolgere compiti per i quali non era stato allenato, come nei sistemi complessi.
— Beppe
_______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
E però c'è un problema Guido, Il giorno Mon, 16 Oct 2023 11:33:05 +0200 Guido Vetere ha scritto:
i LLM sono meravigliosi o insufficienti a seconda del task a cui li applichi
basta essere d'accordo sul fatto che la loro è una "intelligenza aliena"
possiamo anche metterci d'accordo che i LLM sono una "intelligenza aliena", ma rimangono software programmati statisticamente senza ALCUNA intelligenza. Davvero: possiamo! Esattamente come in passato ci siamo messi d'accorto che il sole e tutto il resto dell'universo ruotassero intorno alla terra! L'importante è non confondere l'allucinazione condivisa con la Scienza. Giacomo
evvedi la meraviglia della semantica umana? noi ora qui possiamo metterci d'accordo su cosa intendiamo per 'intelligenza', e cosa in particolare per 'intelligenza aliena' la semantica umana è uno strumento critico, ecco perché gli embedding non c'entrano un cavolo :-) G. On Mon, 16 Oct 2023 at 11:42, Giacomo Tesio <giacomo@tesio.it> wrote:
E però c'è un problema Guido,
Il giorno Mon, 16 Oct 2023 11:33:05 +0200 Guido Vetere ha scritto:
i LLM sono meravigliosi o insufficienti a seconda del task a cui li applichi
basta essere d'accordo sul fatto che la loro è una "intelligenza aliena"
possiamo anche metterci d'accordo che i LLM sono una "intelligenza aliena", ma rimangono software programmati statisticamente senza ALCUNA intelligenza.
Davvero: possiamo! Esattamente come in passato ci siamo messi d'accorto che il sole e tutto il resto dell'universo ruotassero intorno alla terra!
L'importante è non confondere l'allucinazione condivisa con la Scienza.
Giacomo
Il giorno Mon, 16 Oct 2023 11:48:19 +0200 Guido Vetere ha scritto:
noi ora qui possiamo metterci d'accordo su cosa intendiamo per 'intelligenza', e cosa in particolare per 'intelligenza aliena'
Certo che potremmo! :-) E in fondo, se definissimo come "rotazione aliena" quella che il sole ed il resto dell'universo compiono intorno alla terra, potremmo ben dire che il sole e l'universo tutto ruotano intorno alla terra! Questa "rotazione aliena" continuerebbe testardamente a non esistere... ma che importa? E perché non ridefinire "libertà"? Perché non ridefinire "conoscenza"? Perché non ridefinire "verità"? In fondo, i transumanisti stanno cercando letteralmente di ridefinire "vita", sperando di spingere un numero sufficiente di persone al suicidio assistito attraverso allucinazioni come queste... Giacomo
comincio a rivalutare gli embedding :-))) On Mon, 16 Oct 2023 at 12:09, Giacomo Tesio <giacomo@tesio.it> wrote:
Il giorno Mon, 16 Oct 2023 11:48:19 +0200 Guido Vetere ha scritto:
noi ora qui possiamo metterci d'accordo su cosa intendiamo per 'intelligenza', e cosa in particolare per 'intelligenza aliena'
Certo che potremmo! :-)
E in fondo, se definissimo come "rotazione aliena" quella che il sole ed il resto dell'universo compiono intorno alla terra, potremmo ben dire che il sole e l'universo tutto ruotano intorno alla terra!
Questa "rotazione aliena" continuerebbe testardamente a non esistere... ma che importa?
E perché non ridefinire "libertà"? Perché non ridefinire "conoscenza"? Perché non ridefinire "verità"?
In fondo, i transumanisti stanno cercando letteralmente di ridefinire "vita", sperando di spingere un numero sufficiente di persone al suicidio assistito attraverso allucinazioni come queste...
Giacomo
Buongiorno Guido, Guido Vetere <vetere.guido@gmail.com> writes: [...]
Ad esempio: sono convinto (su basi empiriche) che un Llama2 70B, ben fine-tunato (perdonatemi!), sia già adatto a tante cose come summarization, ner, topic analysis, ecc, (NB: compiti analitici, non 'stricto sensu' generativi)
Sì è ampiamente ragionevole aspettarsi che quando sarà passato il terzo "AI Winter" le applicazioni che rimarranno da tutto questo ribollire saranno _verticalizzate_ per i compiti che citi (diciamo piuttosto: computer aided summarization, ecc.); tra l'altro non è detto che non si riesa a trovare trumenti semplici e minimalisti /separati/ per ciascun compito, usando corpora testuali specifici.
i quali potrebbero essere utilissimi per gestire meglio i sistemi informativi ad es. della PA.
Uh, ci sono così tante cose che potrebbero essere utilissime mer gestire meglio i sistemi informativi della PA, che /empiricamente/ direi che possiamo anche iniziare _ieri_ senza aspettare che siano disponibili quegli strumenti... che a regime potrebbero pure rivelarsi inutili. Ho già accennato altre volte a cosa potrebbe essere il corpora legislativo, dal livello Costituzione fino alle ordinanze dei sindaci, se le informazioni fossero descritte in una forma sintattica comoda di RDF, immagazzinate in uno store adeguato e interrogate via SPARQL... ovviamente un "summarizer" o on "topic analist" automatici farebbero comodo ma il contesto sarebbe un'altro mondo. Per non parlare di cosa si potrebbe fare se i codici fossero davvero trattati come... programmi (SORGENTI) B-)
Per mettere in esercizio e adattare un modello del genere 4M bastano e avanzano, senza neanche scomodare Leonardo e Cineca. Si potrà fare? Cioè: gli executive di MS, Google e Meta che finanziano le fondazioni dei politici che nominano i vertici della PA saranno d'accordo?
Mumble... [...] saluti, 380° -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
On Mon, Oct 16, 2023 11:08:14 AM +0200, 380° wrote:
Ho già accennato altre volte a cosa potrebbe essere il corpora legislativo, dal livello Costituzione fino alle ordinanze dei sindaci, se le informazioni fossero descritte in una forma sintattica comoda di RDF, immagazzinate in uno store adeguato e interrogate via SPARQL... ovviamente un "summarizer" o on "topic analist" automatici farebbero comodo ma il contesto sarebbe un'altro mondo.
Stai parlando anche tu di quello che recentemente ho chiamato: "I want AI to do to law and tax codes what..." https://mfioretti.substack.com/p/how-to-tell-good-ai-from-bad-or-pointless o di altro?
Per non parlare di cosa si potrebbe fare se i codici fossero davvero trattati come... programmi (SORGENTI) B-)
verissimo, a partire dal sapere sempre chi e' che inserisce o cambia paragrafi per motivi piu' o meno discutibili: https://stop.zona-m.net/it/2015/09/e-ora-di-scrivere-le-leggi-come-il-softwa... Marco -- https://mfioretti.substack.com
Buonasera Marco e lista, perdonatemi per la spataffiata... Innanzi tutto un _caveat_ deve sempre rimanare valido: semmai fosse tecnicamente possibile, le leggi NON DEVONO essere MAI automaticamente applicate da un computer. "M. Fioretti" <mfioretti@nexaima.net> writes:
On Mon, Oct 16, 2023 11:08:14 AM +0200, 380° wrote:
Ho già accennato altre volte a cosa potrebbe essere il corpora legislativo, dal livello Costituzione fino alle ordinanze dei sindaci, se le informazioni fossero descritte in una forma sintattica comoda di RDF, immagazzinate in uno store adeguato e interrogate via SPARQL... ovviamente un "summarizer" o on "topic analist" automatici farebbero comodo ma il contesto sarebbe un'altro mondo.
Stai parlando anche tu di quello che recentemente ho chiamato:
"I want AI to do to law and tax codes what..."
https://mfioretti.substack.com/p/how-to-tell-good-ai-from-bad-or-pointless
(salvato su Wayback Machine e archive.is)
o di altro?
tu scrivi: --8<---------------cut here---------------start------------->8--- On another, much more critical front, I want AI to do to law and tax codes what Seldon Hardin did to Lord Dorwin in the Foundation novels, that is call out all the cruft, and throw it away (do read that quote, it's important). That is, I want AI to parse whole codes, in order to: 1 write the shortest and simplest versions of the same codes that produce exactly all the same effects 2 point out all the parts, and the resulting procedures, that are ambiguous, uselessly complex, impossible to apply or mutually contradictory .... so that all the humans with the right skills (i.e. all lawyers, judges, law students...) can parse and clean the results, possibly with rewards for every bug they find, until human lawmakers and ministers can safely, officially decree that those simpler codes are the new law of the land. EDIT, added 2023/10/09 15:07 CEST: as proof of the need for such checks, look at this case where one ambiguous “and” in one US law may have major impact on thousands of federal prison sentences. Stuff like this must be catched BEFORE sentences. --8<---------------cut here---------------end--------------->8--- Io però mi riferisco a qualcosa d'altro, anche se oggettivamente l'analisi dei testi per mezzo di sistemi (nano)LLM potrebbe aiutare molto nell'opera di RDFizzazione delle leggi. ATTENZIONE che nel passo che ho riportato sopra fai riferimento a questo: --8<---------------cut here---------------start------------->8--- two societies entered into a long agreement (thousands of pages) and it ended up not meaning anything at all. This was determined by encoding the agreement in symbolic logic and then feeding it into a computer. --8<---------------cut here---------------end--------------->8--- (https://www.sffworld.com/forum/threads/asimov-foundation-a-long-agreement-th...) L'accordo, quindi, NON /fu/ analizzato in forma di linguaggio naturale ma fu codificato con un linguaggio di logica simbolica [1] poi /interpretato/ da un computer che evidenziò che l'accordo non significava nulla. Ora, ammesso e /non concesso/ che quelli descritti nelle leggi (regolamenti, ecc.) siano problemi risolvibili algoritmicamente [2], non è quello a cui mi riferisco... anche se confesso sarebbe un percorso che mi affascina tantissimo... il fascino del male probabilmente :-) Quello a cui mi riferisco è un sistema di formalizzazione delle proposizioni legislative un po' meno farragginoso dei voli pindarici che possiamo facilmente osservare e _molto_ meno rigido di sistemi "schematici" come l'XML [3]; un sistema (probabilmente) descritto in papers come questi (che non ho ancora letto): 1. «Towards Legal Knowledge Representation System Leveraging RDF» https://www.researchgate.net/publication/331305619_Towards_Legal_Knowledge_R... /This paper presents a model usable for a legal system knowledge representation and an implementation of the German Civil Law System as RDF ontology. In this work, different laws are determined in an interconnected structure in order to bridge the gap between computer and social sciences. This model will be created out of natural text, for instance law texts or court decisions, by using a parsing algorithm to build the model, information retrieval tools to extract information and a reasoning algorithm to search and create connections between the particular rules. The focus of this work is to develop the design of the presented model, for an automated reusable entity generation extended by third party knowledgebases./ 2. https://link.springer.com/article/10.1007/s10506-023-09364-9 (maledizione è paywalled)! A RDF-based graph to representing and searching parts of legal documents Francisco de Oliveira & Jose Maria Parente de Oliveira (2023) /Despite the public availability of legal documents, there is a need for finding specific information contained in them, such as paragraphs, clauses, items and so on. With such support, users could find more specific information than only finding whole legal documents. Some research efforts have been made in this area, but there is still a lot to be done to have legal information available more easily to be found. Thus, due to the large number of published legal documents and the high degree of connectivity, simple access to the document is not enough. It is necessary to recover the related legal framework for a specific need. In other words, the retrieval of the set of legal documents and their parts related to a specific subject is necessary. Therefore, in this work, we present a proposal of a RDF-based graph to represent and search parts of legal documents, as the output of a set of terms that represents the pursued legal information. Such a proposal is well-grounded on an ontological view, which makes possible to describe the general structure of a legal system and the structure of legal documents, providing this way the grounds for the implementation of the proposed RDF graph in terms of the meaning of their parts and relationships. We posed several queries to retrieve parts of legal documents related to sets of words and the results were significant./ 3. https://ceur-ws.org/Vol-321/paper2.pdf The Legal-RDF Ontology. A Generic Model for Legal /Legal-RDF.org1 publishes a practical ontology that models both the layout and content of a document and metadata about the document; these have been built using data models implicit within the HTML, XSL, and Dublin Core dialects. Directed Acyclic Graphs (DAGs) form the foundation of all models within the ontology, that is, DAGNode and DAGModel are the base classes for all other ontology classes, which include a restatement of RDF and OWL classes and properties as well as basic Kellog parts-of-speech. The ontology also represents an explicit semantic model used during its classifications: concrete classes are categorized as some element of a dramatic production, that is, as a subclass of Actor, Role, Scene, Prop, Theme, or Drama; this can be helpful during analyses of semantic perspective and context associated with resource definitions and attribute values. The LegalRDF ontology distinguishes between predicate verbs and predicate nouns in its models of a Statement to yield an intuitively appealing vocabulary that segregates attributes as past, present, future, or conditional, information. To facilitate development of generic tools, all data and object properties defined in the ontology’s models are categorized as a subproperty of one of the 15 Dublin Core properties; provenance data, with emphasis on an asOf timestamp, may be recorded for any attribute of a resource. Legal-RDF’s numeric properties derive from the ISO Systeme Internationale measurement systems; algebraic properties derive from XML Schema datatypes; language and currency designations are based upon relevant ISO standards; and time-zone designations are based on a review of local and regional standards (with some modifications necessary to eliminate collisions between the names of these properties and ISO standards). In addition to classes that represent quantities, classes are included that represent qualities that may be used to subtype or otherwise characterize instances./ In parole povere, una versione "on-steroids" di leggi scritte con l'ipertesto, per semplificare un po'.
Per non parlare di cosa si potrebbe fare se i codici fossero davvero trattati come... programmi (SORGENTI) B-)
verissimo, a partire dal sapere sempre chi e' che inserisce o cambia paragrafi per motivi piu' o meno discutibili:
https://stop.zona-m.net/it/2015/09/e-ora-di-scrivere-le-leggi-come-il-softwa...
--8<---------------cut here---------------start------------->8--- Per computer e software, trattare leggi o il codice sorgente di tutti i programmi software che usiamo è praticamente la stessa cosa. Entrambi i tipi di “documenti”, infatti, sono semplice testo: magari formattato in modi diversissimi, ma semplice testo. Ma i gruppi di programmatori di tutto il mondo è da decenni che non devono mangiarsi il fegato per capire CHI di loro ha modificato una certa riga di codice, o quando. Perché loro usano sistemi di controllo delle versioni, [...] Parliamoci chiaro: l’unico vero ostacolo di una soluzione del genere sarebbe lo sforzo mentale, in chi dovrebbe usarlo, causato dal dover imparare a scrivere testi con un nuovo programma. Sarà per questo che in questo momento ho una morsa allo stomaco e le lacrime agli occhi. Meglio rinunciarci, dai, non possiamo causare tanta sofferenza. --8<---------------cut here---------------end--------------->8--- Sono completamente d'accordo con te. Già solo usare un sistema di controllo versioni per leggi scritte in qualche "markup" sano (già, perché i documenti scritti in ODT col cavolo che si "versionano" bene) sarebbe un inizio... ...poi, piano piano, cominciare a trattare le leggi (e molti altri codici) *esattamente* come "codice sorgente" (perché lo sono), con *tutto* quello che comporta: uso di migliori formalizzazioni (RDF è un valido esempio), gestione delle dipendenze/link... creazione di /librerie/ legislative, del tutto _analoghe_ alle librerie software. Poi un giorno chissà, nel 2256 cominceremo a scrivere le leggi in una versione avanzata del Prolog :-O C'è così tanto lavoro da fare! Ciao e grazie, 380° [1] https://en.wikipedia.org/wiki/Mathematical_logic#Symbolic_logic [2] molto probabilmente non lo sono: https://en.wikipedia.org/wiki/Undecidable_problem#Relationship_with_G%C3%B6del's_incompleteness_theorem [3] https://en.wikipedia.org/wiki/Legal_XML https://en.wikipedia.org/wiki/Akoma_Ntoso -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
Buongiorno Giovanni, On Wed, Oct 18, 2023 19:25:45 PM +0200, 380° wrote:
Innanzi tutto un _caveat_ deve sempre rimanare valido: semmai fosse tecnicamente possibile, le leggi NON DEVONO essere MAI automaticamente applicate da un computer.
so che a te non serve, ma nel caso altri avessero il dubbio: la penso allo stesso modo. Grazie per la spiegazione precisa della differenza fra le nostre due proposte, che non si escludono a vicenda, giusto? Io sogno una riscrittura di leggi, norme fiscali eccetera, che: 1) esprima esattamente le stesse regole, nel complesso, ma nel formato piu' sintetico e piu' semplice possibile 2) rivista e validata da umani e presumo che gli LLM o altre forme di "AI" potrebbero generare la prima bozza della versione semplificata in pochissimo tempo. Questo e' un lavoro che in principio sarebbe necessario solo UNA volta per codice, o per Stato. E poi il risultato si potrebbe, anzi: si dovrebbe senz'altro formattare con RDF o altri sistemi come dici tu, sotto controllo delle versioni come diciamo tutti e due. Io del lato RDF non mi sono mai occupato prima perche' mi affascinavano troppo gli altri due, ma sarebbe bello lavorare seriamente anche su quello. Ma una facolta' di giurisprudenza e una di informatica che si mettano insieme per fare 'sta cosa seriamente si trovano, magari con fondi EU? NEXA????? Infine:
--8<---------------cut here---------------start------------->8---
two societies entered into a long agreement (thousands of pages) and it ended up not meaning anything at all. This was determined by encoding the agreement in symbolic logic and then feeding it into a computer.
--8<---------------cut here---------------end--------------->8--- (https://www.sffworld.com/forum/threads/asimov-foundation-a-long-agreement-th...)
L'accordo, quindi, NON /fu/ analizzato in forma di linguaggio naturale ma etc etc...
certo, ma quello che conta, almeno in sede di proposta/divulgazione, e' l'idea generale, indipendente dall'implementazione: farsi indicare dalle macchine le "falle" o ridondanze in un testo, per poi risolverle e deciderne fra umani. E Asimov per questo tipo di esempi e' perfetto, vedi l'osservazione che le allucinazioni non degli LLM ma dei bambinoni che ci devono far soldi non sono altro che la distopia di Solaria nel seguito di quel post: https://mfioretti.substack.com/p/taking-ai-too-seriously-is-not-intelligent
Ora, ammesso e /non concesso/ che quelli descritti nelle leggi (regolamenti, ecc.) siano problemi risolvibili algoritmicamente [2]
sempre e solo per chiarezza, nemmeno io penso questo. Quello che penso e spero sia risolvibile algoritmicamente e' solo la individuazione di ridondanze e contraddizioni, cioe' LLM che si leggono tutto il Codice Civile, Penale, eccetera... per dirti cose come: "questo articolo di 350 parole si potrebbe riscrivere con queste sole 100" "il comma 3 della legge x dice cose non compatibili con l'articolo 20 della legge Y" e null'altro Per chiudere, a proposito di questo:
there is a need for finding specific information contained in them, such as paragraphs, clauses, items and so on. With such support, users could find more specific information than only finding whole legal documents.
"quand'e' che ci decideremo a essere tecnicamente avanzati quanto la BIBBIA???" dicevo nel 2010, riassunto qui: https://stop.zona-m.net/2021/02/word-processing-we-are-doing-it-so-wrong/ Marco -- http://mfioretti.substack.com
Buongiorno! "M. Fioretti" <mfioretti@nexaima.net> writes: [...]
Grazie per la spiegazione precisa della differenza fra le nostre due proposte, che non si escludono a vicenda, giusto?
Certo che no, sono anche applicabili parallelamente e... ricorsivamente... basta che si inizi da qualche parte, perché la situazione attuale è davvero messa male, ma male male male [...]
e presumo che gli LLM o altre forme di "AI" potrebbero generare la prima bozza della versione semplificata in pochissimo tempo.
sì, probabilmente le applicazioni dovrebbero essere adeguatamente verticalizzate: esiste un corpus selezionato di leggi scritte bene e adeguatamente "taggate"?!?
Questo e' un lavoro che in principio sarebbe necessario solo UNA volta per codice, o per Stato.
potrebbe anche essere applicato più volte ma una volta che le leggi fossero ben /formalizzate/ poi un sano "code review" dovrebbe evitare di reintrodurre inutili bizantinismi
E poi il risultato si potrebbe, anzi: si dovrebbe senz'altro formattare con RDF o altri sistemi come dici tu, sotto controllo delle versioni come diciamo tutti e due.
...e a quel punto sarebbe già tutto un altro mondo!
Io del lato RDF non mi sono mai occupato prima perche' mi affascinavano troppo gli altri due, ma sarebbe bello lavorare seriamente anche su quello. Ma una facolta' di giurisprudenza e una di informatica che si mettano insieme per fare 'sta cosa seriamente si trovano, magari con fondi EU? NEXA?????
il problema non è la ricerca interdisciplinare (anche se potrebbe migliorare), nemmeno la ricerca applicata, ma la volontà e *competenza* politica per applicarlo: in tema di semplificazione legislativa si sentono un sacco di chiacchiere e si vede un sacco di folklore. Ve lo ricordate Calderoli con il suo *patetico* falò? [1] Era il 2009 e la norma "taglia leggi" era talmente fatta coi piedi che sono dovuti intervenire per ripristinarne alcune, tra cui quella di istituzione della Corte dei Conti (fu senza dubbio un lapsus freudiano), i tribunali dei minori e le norme a tutela degli alimenti. «Fà e disfà l'è tücc un lavurà»... pensate a quante persone hanno dovuto lavorare per implementare la "taglia-leggi" e poi per riparare i suoi danni: quanti punti di PIL fa?!? Io ho il vaghissimo sospetto che nulla viene fatto in questa direzione anche perché si rischierebbe di "scoprire" che la qualità del lavoro dei legislatori - cioè chi produce i codici che fanno (mal)funzionare lo stato - è /infima/. :-O [...]
L'accordo, quindi, NON /fu/ analizzato in forma di linguaggio naturale ma etc etc...
certo, ma quello che conta, almeno in sede di proposta/divulgazione, e' l'idea generale, indipendente dall'implementazione:
sì Marco, il mio se vuoi è un "cavillo" per dire che l'implementazione NON può passare per la formalizzazione in linguaggi di logica simbolica ma per l'utilizzo di migliori rappresentazioni (tipo RDF) i cui "nodi" sono espressi sempre in linguaggio naturale, che solo umani possono interpretare, applicando /giudizio/.
farsi indicare dalle macchine le "falle" o ridondanze in un testo, per poi risolverle e deciderne fra umani.
sì questa è l'idea generale, concordo [...]
Ora, ammesso e /non concesso/ che quelli descritti nelle leggi (regolamenti, ecc.) siano problemi risolvibili algoritmicamente [2]
sempre e solo per chiarezza, nemmeno io penso questo.
sì sì, lo immaginavo, era solo per sgomberare il campo da idee di automazione completa che /potrebbero/ venire in mente a chi pensa di /attuare/ automaticamente l'output dell'"AI" a ogni cosa [...] Saluti, 380° [1] https://www.ilgiornale.it/news/calderoli-rogo-anti-burocrazia-eliminate-375m... https://it.wikipedia.org/wiki/Roberto_Calderoli#Ministro_per_la_semplificazi... -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
Buongiorno L’informatica giuridica si occupa di questi temi, e di altri. È un settore complesso e vivace, ci lavoro a livello italiano ed europeo. Come in altri settori, non è banalissimo mettere a terra le idee, fare le sperimentazioni, tradurle in azioni che hanno un impatto, ecc Non approfondisco l’argomento perché richiederebbe troppo tempo e sarebbe fuori luogo. Su “legal RDF” segnalo Akoma Ntoso, standard abbastanza diffuso. Segnalo anche che ho iniziato un progettino su EUR-Lex (la banca dati europea) in cui proviamo ad integrare un chatbot a un motore di ricerca. https://www.dsu.cnr.it/notizie-cnr/laccesso-allinformazione-giuridica-col-su... Se qualcuno è interessato mi può contattare privatamente. Nelle prossime settimane diffonderemo un questionario sull’uso di EUR-Lex. Buona giornata, Andrea Il giorno gio 19 ott 2023 alle 09:10 380° <g380@biscuolo.net> ha scritto:
Buongiorno!
"M. Fioretti" <mfioretti@nexaima.net> writes:
[...]
Grazie per la spiegazione precisa della differenza fra le nostre due proposte, che non si escludono a vicenda, giusto?
Certo che no, sono anche applicabili parallelamente e... ricorsivamente... basta che si inizi da qualche parte, perché la situazione attuale è davvero messa male, ma male male male
[...]
e presumo che gli LLM o altre forme di "AI" potrebbero generare la prima bozza della versione semplificata in pochissimo tempo.
sì, probabilmente le applicazioni dovrebbero essere adeguatamente verticalizzate: esiste un corpus selezionato di leggi scritte bene e adeguatamente "taggate"?!?
Questo e' un lavoro che in principio sarebbe necessario solo UNA volta per codice, o per Stato.
potrebbe anche essere applicato più volte ma una volta che le leggi fossero ben /formalizzate/ poi un sano "code review" dovrebbe evitare di reintrodurre inutili bizantinismi
E poi il risultato si potrebbe, anzi: si dovrebbe senz'altro formattare con RDF o altri sistemi come dici tu, sotto controllo delle versioni come diciamo tutti e due.
...e a quel punto sarebbe già tutto un altro mondo!
Io del lato RDF non mi sono mai occupato prima perche' mi affascinavano troppo gli altri due, ma sarebbe bello lavorare seriamente anche su quello. Ma una facolta' di giurisprudenza e una di informatica che si mettano insieme per fare 'sta cosa seriamente si trovano, magari con fondi EU? NEXA?????
il problema non è la ricerca interdisciplinare (anche se potrebbe migliorare), nemmeno la ricerca applicata, ma la volontà e *competenza* politica per applicarlo: in tema di semplificazione legislativa si sentono un sacco di chiacchiere e si vede un sacco di folklore.
Ve lo ricordate Calderoli con il suo *patetico* falò? [1] Era il 2009 e la norma "taglia leggi" era talmente fatta coi piedi che sono dovuti intervenire per ripristinarne alcune, tra cui quella di istituzione della Corte dei Conti (fu senza dubbio un lapsus freudiano), i tribunali dei minori e le norme a tutela degli alimenti.
«Fà e disfà l'è tücc un lavurà»... pensate a quante persone hanno dovuto lavorare per implementare la "taglia-leggi" e poi per riparare i suoi danni: quanti punti di PIL fa?!?
Io ho il vaghissimo sospetto che nulla viene fatto in questa direzione anche perché si rischierebbe di "scoprire" che la qualità del lavoro dei legislatori - cioè chi produce i codici che fanno (mal)funzionare lo stato - è /infima/. :-O
[...]
L'accordo, quindi, NON /fu/ analizzato in forma di linguaggio naturale ma etc etc...
certo, ma quello che conta, almeno in sede di proposta/divulgazione, e' l'idea generale, indipendente dall'implementazione:
sì Marco, il mio se vuoi è un "cavillo" per dire che l'implementazione NON può passare per la formalizzazione in linguaggi di logica simbolica ma per l'utilizzo di migliori rappresentazioni (tipo RDF) i cui "nodi" sono espressi sempre in linguaggio naturale, che solo umani possono interpretare, applicando /giudizio/.
farsi indicare dalle macchine le "falle" o ridondanze in un testo, per poi risolverle e deciderne fra umani.
sì questa è l'idea generale, concordo
[...]
Ora, ammesso e /non concesso/ che quelli descritti nelle leggi (regolamenti, ecc.) siano problemi risolvibili algoritmicamente [2]
sempre e solo per chiarezza, nemmeno io penso questo.
sì sì, lo immaginavo, era solo per sgomberare il campo da idee di automazione completa che /potrebbero/ venire in mente a chi pensa di /attuare/ automaticamente l'output dell'"AI" a ogni cosa
[...]
Saluti, 380°
[1] https://www.ilgiornale.it/news/calderoli-rogo-anti-burocrazia-eliminate-375m...
https://it.wikipedia.org/wiki/Roberto_Calderoli#Ministro_per_la_semplificazi...
-- 380° (Giovanni Biscuolo public alter ego)
«Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché»
Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>. _______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
Buongiorno Andrea, oggettivamente qui stiamo parlando di cose "stratosferiche", ma siamo in lista Nexa e non dovremmo aver paura di entrare /un minimo/ nel dettaglio, no? :-) Andrea Bolioli <andrea.bolioli@gmail.com> writes:
L’informatica giuridica si occupa di questi temi, e di altri. È un settore complesso e vivace, ci lavoro a livello italiano ed europeo.
Ottimo, posso chiederti se sei parte dello staff di EUR-lex o di quale altra organizzazione fai parte?
Come in altri settori, non è banalissimo mettere a terra le idee, fare le sperimentazioni, tradurle in azioni che hanno un impatto, ecc Non approfondisco l’argomento perché richiederebbe troppo tempo e sarebbe fuori luogo.
Nemmeno io intendo approfondire l'argomento in lista, ci mancherebbe, comprendo bene sia impossibile via email (ma non fuori luogo). Considerata la tua competenza sarei felice se mi indicassi qualche fonte dove approfondire perché non è banalissimo mettere a terra le idee, così che con calma possa studiarmele.
Su “legal RDF” segnalo Akoma Ntoso, standard abbastanza diffuso.
Sì grazie lo conosco (abbastanza superficialmente) e lo avevo segnalato anche io in questo sub-thread; è lo standard sul quale stanno puntando /tutto/ molte istituzioni, ma non credo sia una soluzione adeguata per quello che a mio modesto avviso dovrebbe essere il risultato finale: un semantic web (open linked data) di provvedimenti legislativi. In particolare io non vedo come abbia aiutato fino ad oggi o come possa aiutare nel prossimo futuro nel processo di semplificazione legislativa e di tracciabilità delle fonti giurisprudenziali, che sono due problemi vivissimi. A titolo di esempio, potremmo approfittare dell'esportazione in XML Akoma Ntoso messa a disposizione da Normattiva.it, prendendo ad esempio questo D.L.: https://www.normattiva.it/uri-res/N2Ls?urn:nir:stato:decreto.legge:2023-08-1... DECRETO-LEGGE 10 agosto 2023, n. 105 Disposizioni urgenti in materia di processo penale, di processo civile, di contrasto agli incendi boschivi, di recupero dalle tossicodipendenze, di salute e di cultura, nonche' in materia di personale della magistratura e della pubblica amministrazione. (23G00118) disponibile in formato AKN qui: https://www.normattiva.it/do/atto/caricaAKN?dataGU=20230810&codiceRedaz=23G0... Il data model di Akoma Ntoso è un albero e non un grafo, corretto? Lo chiedo perché quello che si può comparare tra una rappresentazione in XML (che è un formato) e una in RDF (che è un modello dati) è il loro modello di rapprsentazione dei dati: in XML il data model è un albero mentre in RDF è un grafo. In particolare, RDF consente di definire ontologie per conferire /semantica/ ai dati e che consentono anche di inferire nuove informazioni dai dati RDF, cosa che in XML non è possibile; inoltre, i nodi del grafo possono essere immagazzinati in un database e interrogati con un linguaggio piuttosto potente: SPARQL. Per chi volesse, questo articolo è una efficace introduzione alla differenza tra una rappresentazione dei dati in XML e una in RDF: «Introduction to: RDF vs XML» https://www.dataversity.net/introduction-to-rdf-vs-xml/ Poi, considerato quanto ho scritto in merito alla gestione del versioning e al "code review", io mi domando che senso ha scrivere leggi, anche formalizzate in AKN, che /prescrivono/ cose del genere: --8<---------------cut here---------------start------------->8--- ((2-bis. Al terzo periodo del comma 1 dell'articolo 267 del codice di procedura penale, la parola: "indica" e' sostituita dalle seguenti: "espone con autonoma valutazione" e dopo la parola: "necessaria" sono inserite le seguenti: ", in concreto,". 2-ter. All'articolo 268 del codice di procedura penale sono apportate le seguenti modificazioni: a) il comma 2 e' sostituito dal seguente: "2. Nel verbale e' trascritto, anche sommariamente, soltanto il contenuto delle comunicazioni intercettate rilevante ai fini delle indagini, anche a favore della persona sottoposta ad indagine. Il contenuto non rilevante ai fini delle indagini non e' trascritto neppure sommariamente e nessuna menzione ne viene riportata nei verbali e nelle annotazioni della polizia giudiziaria, nei quali e' apposta l'espressa dicitura: 'La conversazione omessa non e' utile alle indagini'"; b) al comma 2-bis, le parole: "affinche' nei verbali" sono sostituite dalle seguenti: "affinche' i verbali siano redatti in conformita' a quanto previsto dal comma 2 e negli stessi" e le parole: "dati personali definiti sensibili dalla legge" sono sostituite dalle seguenti: "fatti e circostanze afferenti alla vita privata degli interlocutori". 2-quater. All'articolo 270, comma 1, del codice di procedura penale, le parole: "e dei reati di cui all'articolo 266, comma 1" sono soppresse. 2-quinquies. La disposizione di cui al comma 2-quater si applica ai procedimenti iscritti successivamente alla data di entrata in vigore della legge di conversione del presente decreto)) --8<---------------cut here---------------end--------------->8--- Un diff scritto in linguaggio naturale? :-O Come si applica questa modifica (passiveModifications in AKN) in modo automatico? Forse mi perdo qualcosa ma esiste un tool che prende un XML AKN e riesce ad applicarlo alle norme modificate, in modo analogo a come si fa con un diff? Capisci perché ai miei occhi e agli occhi di molti che trattano codice, questo modo di gestire le modifiche pare davvero assurdo? ...ma può essere solo perché sono ignorante io, sia chiaro! [...] Cordiali saluti, 380° -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
Buongiorno, 380° <g380@biscuolo.net> writes: [...]
Già solo usare un sistema di controllo versioni per leggi scritte in qualche "markup" sano (già, perché i documenti scritti in ODT col cavolo che si "versionano" bene) sarebbe un inizio...
...poi, piano piano, cominciare a trattare le leggi (e molti altri codici) *esattamente* come "codice sorgente" (perché lo sono), con *tutto* quello che comporta: uso di migliori formalizzazioni (RDF è un valido esempio), gestione delle dipendenze/link... creazione di /librerie/ legislative, del tutto _analoghe_ alle librerie software.
Aggiungo un'attività legata al "coding" che sarebbe di *enorme* utilità in campo legislativo: il "code review". Probabilmente chi conosce la pratica ha già capito tutto ma per chi non l'avesse mai "vista", significa che ogni emendamento (patch) da applicare al corpus legislativo (codice) dovrebbe essere così gestito: 1. generato attraverso il tool scelto per la gestione delle versioni (es. git format-patch) 2. inviato via email in una apposita mailing list *pubblica* (es. git send-email); 3. il messaggio deve contenere: la patch (in formato diff [1]) _e_ il messaggio di "commit" che descriva chiaramente la _ratio_ di ciascuna modifica, che deve consentire gli altri legislatori (sviluppatori) di valutare nel merito l'emendamento; 4. l'emendamento può essere commentato in mailing list da tutti gli interessati (partecipazione), adottando ovviamente una *rigidissima* legisla-netiquette 5. scaduto il termine per il "code review", i maintainers (rappresentanti in parlamento) procedono alla votazione dell'emendamento (i voti ovviamente sono registrati e pubblicamente disponibili) 6. se l'emendamento è votato dalla maggioranza dei maintainers, viene eseguito il *commit* nel repository "leggi-dello-stato.git" (es. git commit...) L'intera storia (git log...) degli interventi legislativi è a disposizione di ogni cittadino che ha accesso read-only al repository, oltre ovviamente a tutti gli interventi di "code review" (public-inbox [2]) Ovviamente tutto il codice (corpus legislativo) deve essere gestito in un unico "monorepo", così i riferimenti (o conflitti) tra programmi (singole leggi) sono /risolvibili/. Ovviamente l'attività di "code review" può essere svolta sia in modo distribuito e decentralizzato che in modo centralizzato e coordinato (sedute in parlamento, audizioni, ecc.), tipo /hackaton/. Non stavo scherzando quando dicevo che i codici... *sono* codice :-D [...] Saluti, 380° [1] https://en.wikipedia.org/wiki/Diff#Context_format [2] un sistema per archiviare e ricercare in modo molto efficiente intere mailing list pubbliche -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
participants (8)
-
380° -
Andrea Bolioli -
Damiano Verzulli -
Giacomo Tesio -
Giuseppe Attardi -
Guido Vetere -
M. Fioretti -
Maria Chiara Pievatolo