Re: [nexa] RDF vs. Schema (was Re: Il prossimo ministro per la Pubblica Amministrazione)

Feb. 8, 2021

      Giovanni,
sempre non volendo tediare la audience - ma facendolo :-) - abbozzo una
breve risposta.

«Any RDF system can consume RDF from any other RDF system without any
...
type of coordination.»
questo è vero, ma lo è esattamente per il fatto che la struttura di
rappresentazione (la tripla) è semanticamente neutra.
ora, sulla scala del web, la scelta di Lee-Lassila anni '90 fu ben
comprensibile: si voleva preservare la natura totalmente decentralizzata
della rete
per questo, il W3C evitò di promulgare standard ontologici, e la comunità
dei logici che fecero OWL non diede ascolto agli ontologi che avrebbero
voluto almeno incardinare nozioni di base come quella di 'parte', o la
distinzione tra oggetto ed evento. Troppo dogmatico, troppo metafisico, si
diceva, le ontologie nasceranno 'dal basso'.
Morale della favola: oggi ci troviamo con lo Schema di Google, con foaf,
con dublin core e poco più
Per rappresentare in modo inter-organizzativo, ad esempio, che un Paziente
deve avere uno StatoClinico ad una certa data oggi dobbiamo dunque mettere
mano a una nostra concettualizzazione. Ma se ciascuna organizzazione fa la
sua, la semantica del sistema di cooperazione risiederà non nelle
ontologie, ma nella loro reciproca mappatura. Dove si trova questa
mappatura? Chi la mantiene? Chi è in grado di fare una query sul sistema
integrato? Sappiamo rispondere nel caso centralizzato (es. Google Knowledge
Graph), molto più complesso sarebbe rispondere nel caso decentralizzato.
Per questo è importante che si adotti *la stessa* ontologia: perché in tal
caso le sorgenti di dati si impegnano direttamente, 'ex ante', su
convenzioni di significato condivise e sottoscritte.
Tutto ciò non è necessariamente dogmatico: si può ben immaginare un
processo partecipativo. Ma alla peggio, andrebbe bene anche un dogmatismo
illuminato - con Draghi ci avviamo su questa strada? :-)
G:

On Mon, 8 Feb 2021 at 15:00, Giovanni Biscuolo <giovanni@biscuolo.net>
wrote:
...
Caro Guido,
Guido Vetere <vetere.guido@gmail.com> writes:
...
...
Io ho detto "database RDF" e "Linked Data" apposta: ogni regione, ente,
laboratorio, individuo si faccia il suo database RDF un po' come gli
pare, definisca e _pubblichi_ l'ontologia e l'ente centrale responsabile
della sintesi (tipo l'ISS), con una meta-ontologia sviluppata
appositamente, sarebbe in grado di "linkare" e interrogare i dati a
piacere grazie alle proprietà delle basi dati RDF e dei tool connessi
come SPARQL.
...
non vorrei addentrarmi in una discussione tecnica ma credo sia utile e
importante cogliere un aspetto:
Sono d'accordo, evitiamo di entrare nel tecnico e cerchiamo di cogliere
il concetto rivoluzionario che RDF e Linked Data introduce nell'universo
di discorso della gestione semantica delle informazioni.
...
è necessario che il 'commitment ontologico' sia condiviso sia dal
produttore sia dal consumatore, altrimenti, di fatto, il commitment
diventa
quello del consumatore (es. il sistema di integrazione)
Hai ragione nell'evidenziare che un impegno a fornire determinati dati
da parte del produttore ci deve essere, però il produttore deve poter
essere libero di scegliere lo schema che più gli aggrada, se lo vuole.
«Any RDF system can consume RDF from any other RDF system without any
type of coordination.» [1]
Ciascuno, poi, si prende la responsabilità di quello che *afferma*
quando definisce la semantica (nell'ontologia) e il contenuto dei dati
che fornisce o che aggrega, magari attraverso un buon meccanismo di
gestione della provenienza del dato (con adeguate provenance
assertions).
...
questo è più o meno quello che è successo tra Regione Lombardia e Iss,
dove
il consumatore (Iss) ha inteso i dati a modo suo, ed è quello che in
genere
accade nel modello 'data lake'
Non conoscevo il termine "data lake", ma se ti riferisci a
https://en.wikipedia.org/wiki/Data_lake mi pare di poter dire con
assoluta certezza che è l'opposto di quello che "immaginavo" io nello
scenario descritto nella mia citazione sopra e rispetto ai Linked Data.
...direi *anzi* che il fatto che il "data lake" include dati strutturati
provenienti da database relazionali *e* dati strutturati in XML evidenzi
quanto tentare di condividere un unico schema per descrivere il domain
da cui provengono i dati è perdente in partenza.
RDF e Linked Data NON fanno parte dei "data lake", sono anzi il loro
*antidoto*.
...
del team digitale: tutti forniscono i dati come gli pare
Non mi pare in RDF con ontologia pubblica (o quantomeno pubblicata): o
sì?
...
e poi c'è qualcuno al centro che li interpreta con regole sue
in scenari di questo tipo, il fatto che i dati siano RDF\OWL è in pratica
irrilevante: chi fa integrazione a modo suo può benissimo ignorare i
vincoli logici
Chi fa integrazione può "solo" sbagliare a interpretare la semantica -
che dovrebbe essere _ben_ documentata nell'ontologia resa disponibile
dalla "periferia" - dei dati definiti nei diversi graph knowlegge che
vuole integrare in uno solo.
Significa anche che RDF e Linked Data non sono bacchette magiche ma
servono "solo" a facilitare (di due ordini di grandezza) il lavoro di
integrazione di basi di dati eterogenee... e le basi dati sono
*irrimediabilmente* eterogenee.
...
i linked data sono una effettiva condivisione di 'commitment
ontologico' solo se tutti usano le stesse uri, ma appunto ci vuole un
accordo 'erga omnes' a monte insomma ontologie sì, ma solo se sono le
stesse :-)
Beh ma allora a 'sto punto che differenza c'è tra usare 21 database RDF
tutti con le stesse URI e semantica centralizzate (cioè con lo stesso
schema) oppure database relazionali o serializzazioni XML con lo stesso
schema e una semantica "esterna" centralizzata?  Secondo me
_esattamente_ nessuna ed è proprio per questo che non funzionerebbe come
non sta funzionando il "data lake" :-)
AFAIU la forza di RDF sta proprio nel permettere di integrare basi di
dati eterogenee, senza necessità di concordare preventivamente uno
schema [2].
In altre parole: RDF è stato creato _esattamente_ per... rompere gli
schemi :-D
[...]
Saluti, Giovanni.
[1]
https://www.ibm.com/developerworks/library/wa-data-integration-at-scale_rdf/...
«Data integration at scale: Creating webs of data with
RDF - How resource-oriented thinking benefits data integration», pag. 4
[2] anzi consentendo anche all'interno di una singola organizzazione di
ampliare lo schema a piacere quando necessario, senza essre costretti a
migrare l'intera base dati al nuovo schema.
--
Giovanni Biscuolo