Caro Guido, Guido Vetere <vetere.guido@gmail.com> writes:
Io ho detto "database RDF" e "Linked Data" apposta: ogni regione, ente, laboratorio, individuo si faccia il suo database RDF un po' come gli pare, definisca e _pubblichi_ l'ontologia e l'ente centrale responsabile della sintesi (tipo l'ISS), con una meta-ontologia sviluppata appositamente, sarebbe in grado di "linkare" e interrogare i dati a piacere grazie alle proprietà delle basi dati RDF e dei tool connessi come SPARQL.
non vorrei addentrarmi in una discussione tecnica ma credo sia utile e importante cogliere un aspetto:
Sono d'accordo, evitiamo di entrare nel tecnico e cerchiamo di cogliere il concetto rivoluzionario che RDF e Linked Data introduce nell'universo di discorso della gestione semantica delle informazioni.
è necessario che il 'commitment ontologico' sia condiviso sia dal produttore sia dal consumatore, altrimenti, di fatto, il commitment diventa quello del consumatore (es. il sistema di integrazione)
Hai ragione nell'evidenziare che un impegno a fornire determinati dati da parte del produttore ci deve essere, però il produttore deve poter essere libero di scegliere lo schema che più gli aggrada, se lo vuole. «Any RDF system can consume RDF from any other RDF system without any type of coordination.» [1] Ciascuno, poi, si prende la responsabilità di quello che *afferma* quando definisce la semantica (nell'ontologia) e il contenuto dei dati che fornisce o che aggrega, magari attraverso un buon meccanismo di gestione della provenienza del dato (con adeguate provenance assertions).
questo è più o meno quello che è successo tra Regione Lombardia e Iss, dove il consumatore (Iss) ha inteso i dati a modo suo, ed è quello che in genere accade nel modello 'data lake'
Non conoscevo il termine "data lake", ma se ti riferisci a https://en.wikipedia.org/wiki/Data_lake mi pare di poter dire con assoluta certezza che è l'opposto di quello che "immaginavo" io nello scenario descritto nella mia citazione sopra e rispetto ai Linked Data. ...direi *anzi* che il fatto che il "data lake" include dati strutturati provenienti da database relazionali *e* dati strutturati in XML evidenzi quanto tentare di condividere un unico schema per descrivere il domain da cui provengono i dati è perdente in partenza. RDF e Linked Data NON fanno parte dei "data lake", sono anzi il loro *antidoto*.
del team digitale: tutti forniscono i dati come gli pare
Non mi pare in RDF con ontologia pubblica (o quantomeno pubblicata): o sì?
e poi c'è qualcuno al centro che li interpreta con regole sue in scenari di questo tipo, il fatto che i dati siano RDF\OWL è in pratica irrilevante: chi fa integrazione a modo suo può benissimo ignorare i vincoli logici
Chi fa integrazione può "solo" sbagliare a interpretare la semantica - che dovrebbe essere _ben_ documentata nell'ontologia resa disponibile dalla "periferia" - dei dati definiti nei diversi graph knowlegge che vuole integrare in uno solo. Significa anche che RDF e Linked Data non sono bacchette magiche ma servono "solo" a facilitare (di due ordini di grandezza) il lavoro di integrazione di basi di dati eterogenee... e le basi dati sono *irrimediabilmente* eterogenee.
i linked data sono una effettiva condivisione di 'commitment ontologico' solo se tutti usano le stesse uri, ma appunto ci vuole un accordo 'erga omnes' a monte insomma ontologie sì, ma solo se sono le stesse :-)
Beh ma allora a 'sto punto che differenza c'è tra usare 21 database RDF tutti con le stesse URI e semantica centralizzate (cioè con lo stesso schema) oppure database relazionali o serializzazioni XML con lo stesso schema e una semantica "esterna" centralizzata? Secondo me _esattamente_ nessuna ed è proprio per questo che non funzionerebbe come non sta funzionando il "data lake" :-) AFAIU la forza di RDF sta proprio nel permettere di integrare basi di dati eterogenee, senza necessità di concordare preventivamente uno schema [2]. In altre parole: RDF è stato creato _esattamente_ per... rompere gli schemi :-D [...] Saluti, Giovanni. [1] https://www.ibm.com/developerworks/library/wa-data-integration-at-scale_rdf/... «Data integration at scale: Creating webs of data with RDF - How resource-oriented thinking benefits data integration», pag. 4 [2] anzi consentendo anche all'interno di una singola organizzazione di ampliare lo schema a piacere quando necessario, senza essre costretti a migrare l'intera base dati al nuovo schema. -- Giovanni Biscuolo