Grazie Giacomo, senza che mi metta a stressare i server de La Stampa, puoi dirci che consistenza ha l'archivio? Collaboro con un progetto in Unipd (<https://tipsproject.eu/tips>) che raccoglie i testi degli articoli di quotidiani online sui quali facciamo analisi. Forse potremmo offrirci di raccogliere l'archivio e mettere in piedi un servizio anche per il pubblico, ma dipende dallo sforzo richiesto. Ciao, Alberto On 01/12/2020 18:48, Giacomo Tesio wrote:
On Tue, 01 Dec 2020 17:29:48 +0100 Giovanni Biscuolo <giovanni@biscuolo.net> wrote:
https://www.lastampa.it/archivio-storico/#lastampa_note_legali
Siccome mi pare abbia informazioni di prima mano, con che licenza sono pubblicati i contenuti dell'archivio? (posto che la parte più antica dell'archivio oggi è già in dominio pubblico) Si direbbe fosse rilasciato con un CC-BY-NC-ND 2.5
http://web.archive.org/web/20110205230348/https://www.lastampa.it/archivio-s...
In allegato ho buttato giù un piccolo script python che scarica una copia locale dell'archivio, nella cartella "archive".
In ogni directory vengono salvate le immagini delle pagine, il testo (si direbbe prodotto da un pessimo OCR) ed un data.json che contiene le informazioni sul numero, incluso, per ogni pagina, le coordinate della mappa HTML (chi si ricorda cos'è :-D) di ogni articolo.
In venti minuti non sono riuscito a fare di più, ma a partire da questi JSON non dovrebbe essere difficile mettere su un sito di consultazione (magari statico, senza Flash, Java, JavaScript o PHP di sorta... KISS!!)
Giacomo PS: lo script richiede python3 ed il modulo requests
_______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa