Buongiorno a tutti/e, alcuni anni fa ho lavorato al riconoscimento di named entities e valutazione degli errori di OCR dell'Archvio storico La Stampa. Condivido un articolo che scrivemmo nel 2014: http://clic2014.fileli.unipi.it/proceedings/vol1/CLICIT2014116.pdf Sono responsabile dei progetti R&I di CELI - Language Technology, facciamo Natural Language Processing da parecchi anni. L'aspetto critico dell'Archivio La Stampa, come di altri archivi, è la gestione, più che la creazione, come sappiamo. In quegli anni suggerivo di renderlo il più aperto possibile e darlo in gestione ad un ente aperto e duraturo, ad es. l'Università. In questo momento per quanto ne so la Regione sta valutando se dare l'archivio in gestione al Polo del 900. Dal punto di vista tecnico, non so cosa vogliono fare. Ho suggerito di nuovo alla persona che guidò il progetto di affidare la gestione all'Università e di farne una cosa la più aperta possibile (codice aperto ecc) Buona giornata, Andrea Bolioli Il giorno gio 3 dic 2020 alle ore 11:43 Giovanni Biscuolo < giovanni@biscuolo.net> ha scritto:
Buongiorno Elena,
Elena Marangoni <elena.marangoni@unito.it> writes:
Buongiorno, sono molto d'accordo
[...]
Grazie!
sarebbe bello se il detentore dei diritti, posto che non intende farsi carico dell'archivio, donasse tutto con una licenza CC (vera, senza tante N...)
Per favorire l'economia del riuso dei sorgenti (gli articoli), se fossi io a donare sceglierei la CC-BY-SA.
e rendesse possibile un vero progetto di valorizzazione, ad es. su Internet Archive
Sarebbe un sogno, mi ci butterei *a pesce* in un progetto del genere, promuovendo la valorizzazione dei contenuti attraverso diverse e multidisciplinari "catene di build" [1] che partendo dal "codice sorgente" (gli articoli) riescano a generare un discreto valore aggiunto. Sarebbe materiale preziosissimo per studiosi (dagli storici agli antropologi) e _studenti_ (dalle medie ai master universitari).
Pensate se tutti gli articoli dei quotidiani e dei periodici pubblicati, dopo 14 anni dalla prima pubblicazione (per fare un numero a caso), fossero automaticamente redistribuibili in CC-BY-SA... di _default_. Che lavoro straordinario si potrebbe fare! [2]
Se le risorse pubbliche fossero spese per progetti del genere (pubblici) sarebbe anche meglio :-D
[...]
Saluti, Giovanni
[1] già "solo" permettere agli studenti di prarticare la marcatura semantica degli articoli attraverso Semantic Mediawiki sarebbe potentissimo, immaginate di poter fare query SPARQL sull'intero archivio... «Immagina, puoi.» B-)
[2] e invece no, per fare un progetto scolastico di marcatura semantica dei testi tocca usare opere di secoli fa: non che siano male, eh... forse la prova del tempo tempra le conoscenze.
-- Giovanni Biscuolo _______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
-- *Andrea Bolioli* Research & Innovation Manager *M *+39 333 7405664 -- *CELI srl* via San Quintino, 31 - Torino <https://www.google.com/maps/place/Via+S.+Quintino,+31,+10121+Torino+TO/@45.0...> Torino IT – 10121 <https://www.google.com/maps/place/Via+S.+Quintino,+31,+10121+Torino+TO/@45.0...> * * *T *+39 011 5627115 *W *www.celi.it <https://www.celi.it/>