Re: [nexa] Cosa succederà all'archivio digitale La Stampa?

Dec. 3, 2020

      Buongiorno a tutti/e,

alcuni anni fa ho lavorato al riconoscimento di named entities e
valutazione degli errori di OCR dell'Archvio storico La Stampa. Condivido
un articolo che scrivemmo nel 2014:
http://clic2014.fileli.unipi.it/proceedings/vol1/CLICIT2014116.pdf

Sono responsabile dei progetti R&I di CELI - Language Technology, facciamo
Natural Language Processing da parecchi anni.
L'aspetto critico dell'Archivio La Stampa, come di altri archivi, è la
gestione, più che la creazione, come sappiamo. In quegli anni suggerivo di
renderlo il più aperto possibile e darlo in gestione ad un ente aperto e
duraturo, ad es. l'Università.
In questo momento per quanto ne so la Regione sta valutando se dare
l'archivio in gestione al Polo del 900. Dal punto di vista tecnico, non so
cosa vogliono fare. Ho suggerito di nuovo alla persona che guidò il
progetto di affidare la gestione all'Università e di farne una cosa la più
aperta possibile (codice aperto ecc)

Buona giornata,
Andrea Bolioli

Il giorno gio 3 dic 2020 alle ore 11:43 Giovanni Biscuolo <
giovanni@biscuolo.net> ha scritto:
...
Buongiorno Elena,
Elena Marangoni <elena.marangoni@unito.it> writes:
...
Buongiorno,
sono molto d'accordo
[...]
Grazie!
...
sarebbe bello se il detentore dei diritti, posto che non intende farsi
carico dell'archivio, donasse tutto con una licenza CC (vera, senza
tante N...)
Per favorire l'economia del riuso dei sorgenti (gli articoli), se fossi
io a donare sceglierei la CC-BY-SA.
...
e rendesse possibile un vero progetto di valorizzazione, ad es. su
Internet Archive
Sarebbe un sogno, mi ci butterei *a pesce* in un progetto del genere,
promuovendo la valorizzazione dei contenuti attraverso diverse e
multidisciplinari "catene di build" [1] che partendo dal "codice
sorgente" (gli articoli) riescano a generare un discreto valore
aggiunto.  Sarebbe materiale preziosissimo per studiosi (dagli storici
agli antropologi) e _studenti_ (dalle medie ai master universitari).
Pensate se tutti gli articoli dei quotidiani e dei periodici pubblicati,
dopo 14 anni dalla prima pubblicazione (per fare un numero a caso),
fossero automaticamente redistribuibili in CC-BY-SA... di _default_.
Che lavoro straordinario si potrebbe fare! [2]
Se le risorse pubbliche fossero spese per progetti del genere (pubblici)
sarebbe anche meglio :-D
[...]
Saluti, Giovanni
[1] già "solo" permettere agli studenti di prarticare la marcatura
semantica degli articoli attraverso Semantic Mediawiki sarebbe
potentissimo, immaginate di poter fare query SPARQL sull'intero
archivio... «Immagina, puoi.» B-)
[2] e invece no, per fare un progetto scolastico di marcatura semantica
dei testi tocca usare opere di secoli fa: non che siano male,
eh... forse la prova del tempo tempra le conoscenze.
--
Giovanni Biscuolo
_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
-- 
*Andrea Bolioli*
Research & Innovation Manager
*M  *+39 333 7405664

-- 

*CELI srl*
via San Quintino, 31 - Torino  
<https://www.google.com/maps/place/Via+S.+Quintino,+31,+10121+Torino+TO/@45.0...>
Torino IT – 10121 
<https://www.google.com/maps/place/Via+S.+Quintino,+31,+10121+Torino+TO/@45.0...>

*
*
*T  *+39 011 5627115
*W  *www.celi.it <https://www.celi.it/>