14 novembre 2021

Web scraping: cos’è, come sfruttarlo e quali danni può causare in azienda

Sicurezza informatica azienda, qualcosa su cui è bene investire risorse e denaro. Sì, è proprio così che stanno le cose. Se non c’è Sicurezza digitale, ecco che un'azienda potrebbe infatti incorrere in non pochi problemi. Tra questi, ricordiamo senza dubbio la perdita o il furto di dati sensibili. Quando si parla di perdita di dati sensibili, si fa riferimento a varie tipologie di azioni illegali che hanno luogo sul web. Pensiamo ad esempio al phishing e ai malware. Non esistono però solo queste azioni. Ce ne sono molte altre, meno conosciute, che vale la pena di scoprire come il web scraping.

Web scraping: cos’è

Scraping significa raschiare in lingua inglese. Il web scraping consiste quindi nel raschiare dal web delle informazioni e dei dati. Questo viene effettuato attraverso dei software, nella maggior parte dei casi bot. Questi software riescono a simulare la navigazione umana sul web. Mentre navigano online, riescono a fare il copia incolla di dati e informazioni e le immagazzinano, per infine archiviarli in database. Dalle considerazioni che abbiamo appena avuto modo di fare, sembra che quindi i dati raschiati attraverso questa pratica siano quelli che sono già disponibili online. Non si tratta quindi di dati protetti, bensì di dati che sono già di dominio pubblico, che sono lì sul web alla luce del sole. Sì, è proprio così che stanno le cose.

Web scraping: come viene utilizzato legalmente

Come abbiamo appena visto, il web scraping consiste nel raschiare dati che sono liberamente accessibili da chiunque online, dati che sono di dominio pubblico. Proprio per questo motivo non ne possiamo parlare come di una pratica illegale. E infatti si tratta di una pratica piuttosto diffusa. Anche i motori di ricerca, tutti compreso Google ovviamente, utilizzano proprio il web scraping per riuscire ad analizzare al meglio tutti i siti web. Estraggono dai siti con il web scraping i contenuti che poi permetteranno di indicizzarli in modo eccellente. Senza il web scraping insomma i motori di ricerca non potrebbero funzionare adeguatamente! Il web scraping è legale anche per effettuare degli studi statistici. Inoltre può essere utilizzato per confrontare tra loro le offerte che sono disponibili sul web. È proprio così che funzionano ad esempio gli ormai famosi comparatori di tariffe online.

Utilizzi illeciti del web scraping

Il web scraping è legale quanto si vanno a raschiare dati liberi e pubblici, non protetti da diritto d’autore. È vero, è legale, ma è importante anche vedere come i dati raschiati vengono utilizzati. Capita spesso infatti che i dati raccolti con questa tecnica e aggregati in database siano venduti a terzi al fine di creare delle truffe su misura, delle campagne spam personalizzate in base all’utente, dei veri e propri furti di identità. Ovviamente queste sono azioni illecite. Non solo, si tratta di una pratica illecita se utilizzata per pubblicare contenuti duplicati oppure per lo spionaggio industriale.

Il web scraping è legale inoltre solo se non si devono aggirare delle misure protettive. Sì, gli operatori di un sito web hanno infatti il diritto di installare ogni misura protettiva ritengono necessaria e di impedire quindi il web scraping. Se queste misure protettive vengono aggirate per ottenere dati, non si tratta più di una pratica legale. Lo stesso vale nel caso in cui i dati siano protetti dal login dell’utente o da un contratto di utilizzo. Anche dati di questo genere non possono essere raccolti tramite web scraping, è illegale. Inoltre è fondamentale ricordare che la tecnica del web scraping non può essere utilizzata per nascondere annunci pubblicitari, disclaimer e simili. Proprio perché esistono così tanti utilizzi illeciti di questa tecnica, è bene capire quali siano i sistemi di sicurezza informatica da far scendere in gioco per bloccare e difendersi dal web scraping.

Come bloccare e difendersi dal Web scraping illecito

Come difendersi dal phishing? Quasi tutti sanno perfettamente come farlo. È infatti sufficiente evitare di dare le proprie credenziali, come login e password, le coordinate bancarie e altri simili dati sensibili online, rispondendo a mail, form e simili. E cosa sono i malware? Anche questa è una risposta che la maggior parte delle persone conosce. I malware infatti sono software che riescono a danneggiare i file e i PC, semplici da scovare oggi come oggi con i migliori antivirus. In realtà non tutti i malware sono così semplici da scovare. I virus ransomware ad esempio lavorano in modo molto più subdolo e richiedono persino un riscatto. Si tratta comunque di tipologie di virus di cui quasi tutti hanno sentito parlare. Del web scraping invece non si parla a sufficienza e proprio per questo motivo quasi nessuno sa come muoversi per bloccare questi attacchi e difendersi.

Per bloccare questi attacchi e difendersi è possibile:

  •       Bloccare un indirizzo IP. Questo può essere fatto sia manualmente che tramite geolocalizzazione. In questo modo è possibile bloccare la navigazione che proviene da quell’indirizzo.
  •       Disabilitare gli API del servizio web che si crede potrebbero portare ad un rischio.
  •       Sfruttare il potere dei Robots Exclusion Standard. Permettono infatti di bloccare i bot che dichiarano la loro identità, proprio come solitamente fanno i bot progettati per il web scraping. Bloccando la loro azione, ecco che non si hanno conseguenze negative di alcun genere.
  •       Monitorare il traffico. Monitorando il traffico sul proprio sito web, è semplice notare se vi sia un traffico eccessivo rispetto al solito. Quando questo accade è possibile che vi siano dei bot sul sito.
  •       Utilizzare appositi tool che permettono di verificare se un utente è reale oppure se si tratta di un bot, come gli ormai diffusi CAPTCHA.

È possibile però che tutto questo non sia sufficiente. Basta pensare al fenomeno web scraping Linkedin! Se un big del web come Linkedin ha subito dall’inizio del 2021 ben due attacchi scraping, significa che i cybercriminali sono ancora più scaltri di quanto si potrebbe credere. Proprio per questo motivo è consigliabile fare affidamento su un’azienda IT specializzata che offre servizi anti-bot e anti-scraping. È vero, servizi di questa tipologia possono costare un po’ di soldi. Si tratta di un investimento per la sicurezza dei dati della propria azienda, di un investimento che vale davvero la pena fare.