Ciao Alberto, On December 1, 2020 6:42:50 PM UTC, Alberto Cammozzo via nexa <nexa@server-nexa.polito.it> wrote:
senza che mi metta a stressare i server de La Stampa, puoi dirci che consistenza ha l'archivio?
non posso darti un numero preciso perché lo scaricamento è ancora in corso. Ho però dovuto aggiungere un `time.sleep(3)` al termine della funzione `download` perché dopo i primi 100 numeri circa il server mi aveva bloccato la connessione. Se ti dovesse succedere, per far ripartire il download da dove è stato interrotto è sufficiente sostituire il valore della variabile `issueID` con il nome dell'ultima directory creata in archive/ e rimuoverla prima di lanciare lo script, in modo che venga riscaricata completamente. Lo so... è una seccatura... ma non ho proprio tempo per rifinirlo... I primi numeri, dal 1867 e fino dove sono arrivato, consistono di 4 pagine ed ogni pagina (jpeg + txt) occupa circa mezzo mega. Tuttavia considerando che si parla di un quotidiano, abbiamo circa 50500 numeri, ma dal dopo guerra le pagine iniziano a salire a 10 e dalla fine degli anni 70 si sale ad oltre le 30 pagine. Facendo una proiezione molto grossolana: a 12 pagine in media al giorno, per mezzo mega a pagina, dovremmo stare intorno ai 300 giga. Giacomo