[nexa] RDF vs. Schema (was Re: Il prossimo ministro per la Pubblica Amministrazione)

Feb. 8, 2021

      Caro Guido,

Guido Vetere <vetere.guido@gmail.com> writes:
...
...
Io ho detto "database RDF" e "Linked Data" apposta: ogni regione, ente,
laboratorio, individuo si faccia il suo database RDF un po' come gli
pare, definisca e _pubblichi_ l'ontologia e l'ente centrale responsabile
della sintesi (tipo l'ISS), con una meta-ontologia sviluppata
appositamente, sarebbe in grado di "linkare" e interrogare i dati a
piacere grazie alle proprietà delle basi dati RDF e dei tool connessi
come SPARQL.
...
non vorrei addentrarmi in una discussione tecnica ma credo sia utile e
importante cogliere un aspetto:
Sono d'accordo, evitiamo di entrare nel tecnico e cerchiamo di cogliere
il concetto rivoluzionario che RDF e Linked Data introduce nell'universo
di discorso della gestione semantica delle informazioni.
...
è necessario che il 'commitment ontologico' sia condiviso sia dal
produttore sia dal consumatore, altrimenti, di fatto, il commitment diventa
quello del consumatore (es. il sistema di integrazione)
Hai ragione nell'evidenziare che un impegno a fornire determinati dati
da parte del produttore ci deve essere, però il produttore deve poter
essere libero di scegliere lo schema che più gli aggrada, se lo vuole.

«Any RDF system can consume RDF from any other RDF system without any
type of coordination.» [1]

Ciascuno, poi, si prende la responsabilità di quello che *afferma*
quando definisce la semantica (nell'ontologia) e il contenuto dei dati
che fornisce o che aggrega, magari attraverso un buon meccanismo di
gestione della provenienza del dato (con adeguate provenance
assertions).
...
questo è più o meno quello che è successo tra Regione Lombardia e Iss, dove
il consumatore (Iss) ha inteso i dati a modo suo, ed è quello che in genere
accade nel modello 'data lake'
Non conoscevo il termine "data lake", ma se ti riferisci a
https://en.wikipedia.org/wiki/Data_lake mi pare di poter dire con
assoluta certezza che è l'opposto di quello che "immaginavo" io nello
scenario descritto nella mia citazione sopra e rispetto ai Linked Data.

...direi *anzi* che il fatto che il "data lake" include dati strutturati
provenienti da database relazionali *e* dati strutturati in XML evidenzi
quanto tentare di condividere un unico schema per descrivere il domain
da cui provengono i dati è perdente in partenza.

RDF e Linked Data NON fanno parte dei "data lake", sono anzi il loro
*antidoto*.
...
del team digitale: tutti forniscono i dati come gli pare
Non mi pare in RDF con ontologia pubblica (o quantomeno pubblicata): o
sì?
...
e poi c'è qualcuno al centro che li interpreta con regole sue
in scenari di questo tipo, il fatto che i dati siano RDF\OWL è in pratica
irrilevante: chi fa integrazione a modo suo può benissimo ignorare i
vincoli logici
Chi fa integrazione può "solo" sbagliare a interpretare la semantica -
che dovrebbe essere _ben_ documentata nell'ontologia resa disponibile
dalla "periferia" - dei dati definiti nei diversi graph knowlegge che
vuole integrare in uno solo.

Significa anche che RDF e Linked Data non sono bacchette magiche ma
servono "solo" a facilitare (di due ordini di grandezza) il lavoro di
integrazione di basi di dati eterogenee... e le basi dati sono
*irrimediabilmente* eterogenee.
...
i linked data sono una effettiva condivisione di 'commitment
ontologico' solo se tutti usano le stesse uri, ma appunto ci vuole un
accordo 'erga omnes' a monte insomma ontologie sì, ma solo se sono le
stesse :-)
Beh ma allora a 'sto punto che differenza c'è tra usare 21 database RDF
tutti con le stesse URI e semantica centralizzate (cioè con lo stesso
schema) oppure database relazionali o serializzazioni XML con lo stesso
schema e una semantica "esterna" centralizzata?  Secondo me
_esattamente_ nessuna ed è proprio per questo che non funzionerebbe come
non sta funzionando il "data lake" :-)

AFAIU la forza di RDF sta proprio nel permettere di integrare basi di
dati eterogenee, senza necessità di concordare preventivamente uno
schema [2].

In altre parole: RDF è stato creato _esattamente_ per... rompere gli
schemi :-D

[...]

Saluti, Giovanni.

[1]
https://www.ibm.com/developerworks/library/wa-data-integration-at-scale_rdf/... «Data integration at scale: Creating webs of data with
RDF - How resource-oriented thinking benefits data integration», pag. 4

[2] anzi consentendo anche all'interno di una singola organizzazione di
ampliare lo schema a piacere quando necessario, senza essre costretti a
migrare l'intera base dati al nuovo schema.

-- 
Giovanni Biscuolo