Re: [nexa] Cosa succederà all'archivio digitale La Stampa?

Dec. 1, 2020

      Grazie Giacomo,

senza che mi metta a stressare i server de La Stampa, puoi dirci che
consistenza ha l'archivio?

Collaboro con un progetto in Unipd (<https://tipsproject.eu/tips>) che
raccoglie i testi degli articoli di quotidiani online sui quali facciamo
analisi.
Forse potremmo offrirci di raccogliere l'archivio e mettere in piedi un
servizio anche per il pubblico, ma dipende dallo sforzo richiesto.

Ciao,
Alberto

On 01/12/2020 18:48, Giacomo Tesio wrote:
...
On Tue, 01 Dec 2020 17:29:48 +0100
Giovanni Biscuolo <giovanni@biscuolo.net> wrote:
...
https://www.lastampa.it/archivio-storico/#lastampa_note_legali
Siccome mi pare abbia informazioni di prima mano, con che licenza sono
pubblicati i contenuti dell'archivio? (posto che la parte più antica
dell'archivio oggi è già in dominio pubblico)
Si direbbe fosse rilasciato con un CC-BY-NC-ND 2.5
http://web.archive.org/web/20110205230348/https://www.lastampa.it/archivio-s...
In allegato ho buttato giù un piccolo script python che scarica una
copia locale dell'archivio, nella cartella "archive".
In ogni directory vengono salvate le immagini delle pagine, il testo (si
direbbe prodotto da un pessimo OCR) ed un data.json che contiene le
informazioni sul numero, incluso, per ogni pagina, le coordinate della
mappa HTML (chi si ricorda cos'è :-D) di ogni articolo.
In venti minuti non sono riuscito a fare di più, ma a partire da questi
JSON non dovrebbe essere difficile mettere su un sito di consultazione
(magari statico, senza Flash, Java, JavaScript o PHP di sorta... KISS!!)
Giacomo
PS: lo script richiede python3 ed il modulo requests
_______________________________________________
nexa mailing list
nexa@server-nexa.polito.it
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa

Re: [nexa] Cosa succederà all'archivio digitale La Stampa?

Alberto Cammozzo