https://www.lastampa.it/rubriche/public-editor/2020/12/14/news/l-archivio-storico-de-la-stampa-sara-di-nuovo-consultabile-entro-meta-febbraio-2021-1.39659298




Anna Masera

Public Editor, La Stampa

www.lastampa.it/public-editor

www.facebook.com/lastampapublic 

Twitter @annamasera

Inviato da iPhone

Il giorno 4 dic 2020, alle ore 17:48, Alberto Cammozzo via nexa <nexa@server-nexa.polito.it> ha scritto:

Grazie Andrea, molto interessante.

Confermo l'interesse del gruppo di ricerca TIPS di UniPD per la ricerca
di soluzioni per l'archivio.
A chi possiamo manifestare la nostra disponibilità a collaborare?

TIPS (Technoscientific Issues in the Public Sphere,
<https://tipsproject.eu/tips>) al momento gestisce un corpus italiano di
più di 2.5 milioni di articoli dal 2014, più altri corpora in altre
lingue (francese, inglese, spagnolo, portoghese) per un totale di 7
milioni di articoli.
I testi sono indicizzati e disponibili attraverso una interfaccia web
(non pubblica) per la gestione di progetti di ricerca.
Io mi occupo di acquisizione, pulizia, NER e analisi con RegExp. Preciso
che non abbiamo esperienza di OCR.

Buona serata,

Alberto Cammozzo





On 03/12/2020 12:04, Andrea Bolioli wrote:
Buongiorno a tutti/e,

alcuni anni fa ho lavorato al riconoscimento di named entities e
valutazione degli errori di OCR dell'Archvio storico La Stampa.
Condivido un articolo che scrivemmo nel 2014:
http://clic2014.fileli.unipi.it/proceedings/vol1/CLICIT2014116.pdf
<http://clic2014.fileli.unipi.it/proceedings/vol1/CLICIT2014116.pdf>

Sono responsabile dei progetti R&I di CELI - Language Technology,
facciamo Natural Language Processing da parecchi anni.
L'aspetto critico dell'Archivio La Stampa, come di altri archivi, è la
gestione, più che la creazione, come sappiamo. In quegli anni
suggerivo di renderlo il più aperto possibile e darlo in gestione ad
un ente aperto e duraturo, ad es. l'Università. 
In questo momento per quanto ne so la Regione sta valutando se dare
l'archivio in gestione al Polo del 900. Dal punto di vista tecnico,
non so cosa vogliono fare. Ho suggerito di nuovo alla persona che
guidò il progetto di affidare la gestione all'Università e di farne
una cosa la più aperta possibile (codice aperto ecc)

Buona giornata,
Andrea Bolioli





Il giorno gio 3 dic 2020 alle ore 11:43 Giovanni Biscuolo
<giovanni@biscuolo.net <mailto:giovanni@biscuolo.net>> ha scritto:

   Buongiorno Elena,

   Elena Marangoni <elena.marangoni@unito.it
   <mailto:elena.marangoni@unito.it>> writes:

Buongiorno,
sono molto d'accordo

   [...]

   Grazie!

sarebbe bello se il detentore dei diritti, posto che non intende
   farsi
carico dell'archivio, donasse tutto con una licenza CC (vera, senza
tante N...)

   Per favorire l'economia del riuso dei sorgenti (gli articoli), se
   fossi
   io a donare sceglierei la CC-BY-SA.

e rendesse possibile un vero progetto di valorizzazione, ad es. su
Internet Archive

   Sarebbe un sogno, mi ci butterei *a pesce* in un progetto del genere,
   promuovendo la valorizzazione dei contenuti attraverso diverse e
   multidisciplinari "catene di build" [1] che partendo dal "codice
   sorgente" (gli articoli) riescano a generare un discreto valore
   aggiunto.  Sarebbe materiale preziosissimo per studiosi (dagli storici
   agli antropologi) e _studenti_ (dalle medie ai master universitari).

   Pensate se tutti gli articoli dei quotidiani e dei periodici
   pubblicati,
   dopo 14 anni dalla prima pubblicazione (per fare un numero a caso),
   fossero automaticamente redistribuibili in CC-BY-SA... di _default_.
   Che lavoro straordinario si potrebbe fare! [2]

   Se le risorse pubbliche fossero spese per progetti del genere
   (pubblici)
   sarebbe anche meglio :-D

   [...]

   Saluti, Giovanni



   [1] già "solo" permettere agli studenti di prarticare la marcatura
   semantica degli articoli attraverso Semantic Mediawiki sarebbe
   potentissimo, immaginate di poter fare query SPARQL sull'intero
   archivio... «Immagina, puoi.» B-)


   [2] e invece no, per fare un progetto scolastico di marcatura
   semantica
   dei testi tocca usare opere di secoli fa: non che siano male,
   eh... forse la prova del tempo tempra le conoscenze.

   --
   Giovanni Biscuolo
   _______________________________________________
   nexa mailing list
   nexa@server-nexa.polito.it <mailto:nexa@server-nexa.polito.it>
   https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
   <https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa>



--
*Andrea Bolioli*
Research & Innovation Manager
*M  *+39 333 7405664


*CELI srl*
via San Quintino, 31 - Torino 
<https://www.google.com/maps/place/Via+S.+Quintino,+31,+10121+Torino+TO/@45.0668691,7.6684529,17z/data=%213m1%214b1%214m5%213m4%211s0x47886d13c6b49f81:0x2b74ae2a12fca9de%218m2%213d45.0668653%214d7.6706416>
Torino IT – 10121
<https://www.google.com/maps/place/Via+S.+Quintino,+31,+10121+Torino+TO/@45.0668691,7.6684529,17z/data=%213m1%214b1%214m5%213m4%211s0x47886d13c6b49f81:0x2b74ae2a12fca9de%218m2%213d45.0668653%214d7.6706416>
*
*
*T  *+39 011 5627115
*W  *www.celi.it <https://www.celi.it/>

_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa


_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa


Il presente messaggio (inclusi gli allegati) contiene informazioni riservate esclusivamente al destinatario/ai destinatari indicato/i nel messaggio, ed è protetto dalla legge. La diffusione, distribuzione e/o la copia del contenuto del presente messaggio da parte di qualsiasi soggetto diverso dal destinatario è severamente vietata ai sensi dell’art. 616 c.p. e delle vigenti normative in materia di protezione dei dati personali. Se non siete i destinatari del presente messaggio, vi preghiamo di distruggerlo e di darcene immediata comunicazione inviando un messaggio di ritorno all’indirizzo e-mail del mittente.


This message (including any attachments) contains confidential information intended only for the recipient(s) named above, and is protected by law. Any disclosure, distribution and/or copying of this message by any subject different from the named recipient(s) is strictly prohibited according to art. 616 c.p. and to the applicable data protection laws. If you are not the intended recipient, please delete this message and inform us immediately about the deletion by sending a message to the sender’s e-mail address.