Anna Masera
Public Editor, La Stampa
www.facebook.com/lastampapublic
Twitter @annamaseraIl giorno 4 dic 2020, alle ore 17:48, Alberto Cammozzo via nexa <nexa@server-nexa.polito.it> ha scritto:
Grazie Andrea, molto interessante.
Confermo l'interesse del gruppo di ricerca TIPS di UniPD per la ricerca
di soluzioni per l'archivio.
A chi possiamo manifestare la nostra disponibilità a collaborare?
TIPS (Technoscientific Issues in the Public Sphere,
<https://tipsproject.eu/tips>) al momento gestisce un corpus italiano di
più di 2.5 milioni di articoli dal 2014, più altri corpora in altre
lingue (francese, inglese, spagnolo, portoghese) per un totale di 7
milioni di articoli.
I testi sono indicizzati e disponibili attraverso una interfaccia web
(non pubblica) per la gestione di progetti di ricerca.
Io mi occupo di acquisizione, pulizia, NER e analisi con RegExp. Preciso
che non abbiamo esperienza di OCR.
Buona serata,
Alberto Cammozzo
On 03/12/2020 12:04, Andrea Bolioli wrote:
Buongiorno a tutti/e,
alcuni anni fa ho lavorato al riconoscimento di named entities e
valutazione degli errori di OCR dell'Archvio storico La Stampa.
Condivido un articolo che scrivemmo nel 2014:
http://clic2014.fileli.unipi.it/proceedings/vol1/CLICIT2014116.pdf
<http://clic2014.fileli.unipi.it/proceedings/vol1/CLICIT2014116.pdf>
Sono responsabile dei progetti R&I di CELI - Language Technology,
facciamo Natural Language Processing da parecchi anni.
L'aspetto critico dell'Archivio La Stampa, come di altri archivi, è la
gestione, più che la creazione, come sappiamo. In quegli anni
suggerivo di renderlo il più aperto possibile e darlo in gestione ad
un ente aperto e duraturo, ad es. l'Università.
In questo momento per quanto ne so la Regione sta valutando se dare
l'archivio in gestione al Polo del 900. Dal punto di vista tecnico,
non so cosa vogliono fare. Ho suggerito di nuovo alla persona che
guidò il progetto di affidare la gestione all'Università e di farne
una cosa la più aperta possibile (codice aperto ecc)
Buona giornata,
Andrea Bolioli
Il giorno gio 3 dic 2020 alle ore 11:43 Giovanni Biscuolo
<giovanni@biscuolo.net <mailto:giovanni@biscuolo.net>> ha scritto:
Buongiorno Elena,
Elena Marangoni <elena.marangoni@unito.it
<mailto:elena.marangoni@unito.it>> writes:
Buongiorno,
sono molto d'accordo
[...]
Grazie!
sarebbe bello se il detentore dei diritti, posto che non intende
farsi
carico dell'archivio, donasse tutto con una licenza CC (vera, senza
tante N...)
Per favorire l'economia del riuso dei sorgenti (gli articoli), se
fossi
io a donare sceglierei la CC-BY-SA.
e rendesse possibile un vero progetto di valorizzazione, ad es. su
Internet Archive
Sarebbe un sogno, mi ci butterei *a pesce* in un progetto del genere,
promuovendo la valorizzazione dei contenuti attraverso diverse e
multidisciplinari "catene di build" [1] che partendo dal "codice
sorgente" (gli articoli) riescano a generare un discreto valore
aggiunto. Sarebbe materiale preziosissimo per studiosi (dagli storici
agli antropologi) e _studenti_ (dalle medie ai master universitari).
Pensate se tutti gli articoli dei quotidiani e dei periodici
pubblicati,
dopo 14 anni dalla prima pubblicazione (per fare un numero a caso),
fossero automaticamente redistribuibili in CC-BY-SA... di _default_.
Che lavoro straordinario si potrebbe fare! [2]
Se le risorse pubbliche fossero spese per progetti del genere
(pubblici)
sarebbe anche meglio :-D
[...]
Saluti, Giovanni
[1] già "solo" permettere agli studenti di prarticare la marcatura
semantica degli articoli attraverso Semantic Mediawiki sarebbe
potentissimo, immaginate di poter fare query SPARQL sull'intero
archivio... «Immagina, puoi.» B-)
[2] e invece no, per fare un progetto scolastico di marcatura
semantica
dei testi tocca usare opere di secoli fa: non che siano male,
eh... forse la prova del tempo tempra le conoscenze.
--
Giovanni Biscuolo
_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it <mailto:nexa@server-nexa.polito.it>
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
<https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa>
--
*Andrea Bolioli*
Research & Innovation Manager
*M *+39 333 7405664
*CELI srl*
via San Quintino, 31 - Torino
<https://www.google.com/maps/place/Via+S.+Quintino,+31,+10121+Torino+TO/@45.0668691,7.6684529,17z/data=%213m1%214b1%214m5%213m4%211s0x47886d13c6b49f81:0x2b74ae2a12fca9de%218m2%213d45.0668653%214d7.6706416>
Torino IT – 10121
<https://www.google.com/maps/place/Via+S.+Quintino,+31,+10121+Torino+TO/@45.0668691,7.6684529,17z/data=%213m1%214b1%214m5%213m4%211s0x47886d13c6b49f81:0x2b74ae2a12fca9de%218m2%213d45.0668653%214d7.6706416>
*
*
*T *+39 011 5627115
*W *www.celi.it <https://www.celi.it/>
_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
Il presente messaggio (inclusi gli allegati) contiene informazioni riservate esclusivamente al destinatario/ai destinatari indicato/i nel messaggio, ed è protetto dalla legge. La diffusione, distribuzione e/o la copia del contenuto del presente messaggio da parte di qualsiasi soggetto diverso dal destinatario è severamente vietata ai sensi dell’art. 616 c.p. e delle vigenti normative in materia di protezione dei dati personali. Se non siete i destinatari del presente messaggio, vi preghiamo di distruggerlo e di darcene immediata comunicazione inviando un messaggio di ritorno all’indirizzo e-mail del mittente.
This message (including any attachments) contains confidential information intended only for the recipient(s) named above, and is protected by law. Any disclosure, distribution and/or copying of this message by any subject different from the named recipient(s) is strictly prohibited according to art. 616 c.p. and to the applicable data protection laws. If you are not the intended recipient, please delete this message and inform us immediately about the deletion by sending a message to the sender’s e-mail address.