Buongiorno a tutti/e,

alcuni anni fa ho lavorato al riconoscimento di named entities e valutazione degli errori di OCR dell'Archvio storico La Stampa. Condivido un articolo che scrivemmo nel 2014: http://clic2014.fileli.unipi.it/proceedings/vol1/CLICIT2014116.pdf

Sono responsabile dei progetti R&I di CELI - Language Technology, facciamo Natural Language Processing da parecchi anni.
L'aspetto critico dell'Archivio La Stampa, come di altri archivi, è la gestione, più che la creazione, come sappiamo. In quegli anni suggerivo di renderlo il più aperto possibile e darlo in gestione ad un ente aperto e duraturo, ad es. l'Università. 
In questo momento per quanto ne so la Regione sta valutando se dare l'archivio in gestione al Polo del 900. Dal punto di vista tecnico, non so cosa vogliono fare. Ho suggerito di nuovo alla persona che guidò il progetto di affidare la gestione all'Università e di farne una cosa la più aperta possibile (codice aperto ecc)

Buona giornata,
Andrea Bolioli





Il giorno gio 3 dic 2020 alle ore 11:43 Giovanni Biscuolo <giovanni@biscuolo.net> ha scritto:
Buongiorno Elena,

Elena Marangoni <elena.marangoni@unito.it> writes:

> Buongiorno,
> sono molto d'accordo

[...]

Grazie!

> sarebbe bello se il detentore dei diritti, posto che non intende farsi
> carico dell'archivio, donasse tutto con una licenza CC (vera, senza
> tante N...)

Per favorire l'economia del riuso dei sorgenti (gli articoli), se fossi
io a donare sceglierei la CC-BY-SA.

> e rendesse possibile un vero progetto di valorizzazione, ad es. su
> Internet Archive

Sarebbe un sogno, mi ci butterei *a pesce* in un progetto del genere,
promuovendo la valorizzazione dei contenuti attraverso diverse e
multidisciplinari "catene di build" [1] che partendo dal "codice
sorgente" (gli articoli) riescano a generare un discreto valore
aggiunto.  Sarebbe materiale preziosissimo per studiosi (dagli storici
agli antropologi) e _studenti_ (dalle medie ai master universitari).

Pensate se tutti gli articoli dei quotidiani e dei periodici pubblicati,
dopo 14 anni dalla prima pubblicazione (per fare un numero a caso),
fossero automaticamente redistribuibili in CC-BY-SA... di _default_.
Che lavoro straordinario si potrebbe fare! [2]

Se le risorse pubbliche fossero spese per progetti del genere (pubblici)
sarebbe anche meglio :-D

[...]

Saluti, Giovanni



[1] già "solo" permettere agli studenti di prarticare la marcatura
semantica degli articoli attraverso Semantic Mediawiki sarebbe
potentissimo, immaginate di poter fare query SPARQL sull'intero
archivio... «Immagina, puoi.» B-)


[2] e invece no, per fare un progetto scolastico di marcatura semantica
dei testi tocca usare opere di secoli fa: non che siano male,
eh... forse la prova del tempo tempra le conoscenze.

--
Giovanni Biscuolo
_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa


--
Andrea Bolioli
Research & Innovation Manager
M  +39 333 7405664


CELI srl
via San Quintino, 31 - Torino 
Torino IT – 10121

T  +39 011 5627115
www.celi.it