Ciao Antonio, concordo che molto del traffico che si osserva oggi su vari servizi non sia necessariamente un “attacco”, ma scraping massivo spesso legato all’ecosistema AI. Nel caso che stiamo discutendo però c’è un elemento ulteriore: molte richieste sembrano provenire da reti di residential proxy o SDK di bandwidth-sharing (ad esempio BrightData, Honeygain, Infatica, PacketStream, Pawns, ecc. [1]). Queste infrastrutture distribuiscono le richieste su dispositivi reali o IP domestici e fanno rotazione continua degli indirizzi. Questo spiega perché si vedono numeri molto alti di IP diversi con poche richieste ciascuno: l’uso dei proxy moltiplica artificialmente le sorgenti e rende inefficaci sia i blocchi per singolo IP sia quelli per subnet. Tra l’altro, nel caso di OpenStreetMap questo tipo di scraping ha anche utilità limitata: i dati sono già disponibili tramite dump completi e feed di aggiornamento (planet dump e replication diff), quindi esistono meccanismi molto più efficienti e rispettosi dell’infrastruttura per ottenere dati aggiornati. [1] https://gist.github.com/Firefishy/5e60867d2425a380cc0e28eebbbf3887 Il giorno mer 4 mar 2026 alle ore 19:08 antonio <antonio@piumarossa.it> ha scritto:
Se in passato era possibile mitigare il fenomeno bloccando pochi IP sospetti, oggi l'attacco è estremamente distribuito: oltre 100.000 indirizzi IP diversi effettuano pochissime richieste ciascuno, rendendo i filtri tradizionali totalmente inefficaci.
Non so se è il caso di OSM ma, come ho già segnalato in passato, spesso questi accessi non sono attacchi ma "legittime" operazioni di scraping di voraci bot AI con lo scopo, ovviamente, di tenere quanto più aggiornati i vari LLM.
Prendiamo i bot Google, se prima "passavano" dai siti ogni tot giorni per indicizzarne una parte, oggi sono decine, centinaia di bot da IP diversi che scaricano migliaia di pagine al giorno, in pratica si tirano giù ogni sito ogni giorno. Tutto per permettere al loro Gemini di essere quanto più aggiornato possibile (che non si dica che l'AI restituisca notizie vecchie).
Ovviamente, stesso discorso vale per gli altri LLM, con il risultato che gli utenti "umani" sono ormai ridotti e pochi punti percentuali.
100000 indirizzi IP diversi possono sembrare tanti ma non sono nemmeno due classi B (65536 IP ognuna). Certo, se provenissero tutti dalla stessa classe B, <code> iptables -I INPUT -s x.y.0.0/16 -p tcp --dport 443 -j DROP </code> e non passa più nessuno. Purtroppo questi soggetti si sono comprati mezza numerazione Internet e quindi gli IP possono provenire da qualsiasi classe rendendo di fatto vano ogni tentativo di bloccarli.
A.
-- FBK - Fondazione Bruno Kessler Trento - Italy tel +39 0461 314341 https://osm.org/go/0CvouFIm6 <https://osm.org/go/0CvouFIm6?m=> http://dcl.fbk.eu you can schedule a call with me here https://tinyurl.com/booknapo <https://bit.ly/booknapo> -- -- Le informazioni contenute nella presente comunicazione sono di natura privata e come tali sono da considerarsi riservate ed indirizzate esclusivamente ai destinatari indicati e per le finalità strettamente legate al relativo contenuto. Se avete ricevuto questo messaggio per errore, vi preghiamo di eliminarlo e di inviare una comunicazione all’indirizzo e-mail del mittente. -- The information transmitted is intended only for the person or entity to which it is addressed and may contain confidential and/or privileged material. If you received this in error, please contact the sender and delete the material.