Web scraping e intelligenza artificiale: cos’è e come tutelarsi

Proprio per difendere i dati personali pubblicati online da parte di privati e soggetti pubblici, in qualità di titolari del trattamento, il Garante Privacy ha pubblicato delle utili indicazioni (in attesa di pronunciarsi sulla liceità del web scraping di dati personali effettuato sulla base del legittimo interesse).

Vediamo, in questo articolo, di capire meglio cos’è il web scraping e quali misure concrete è possibile adottare per difendersi.

Cos’è il web scraping e rischi per l’intelligenza artificiale generativa

In generale, la navigazione nel web si basa su protocolli aperti, che permettono di reperire informazioni e dati pubblicamente disponibili online (oppure reperibili in aree ad accesso controllato).

Informazioni e dati possono essere raccolti in maniera sistematica anche attraverso programmi (bot) che operano in maniera automatizzata e simulano la navigazione umana, ovviamente a patto che siti web, contenuti, ecc siano accessibili indistintamente e non sottoposti a controlli di accesso. Ad esempio, come riportato nel documento del Garante, uno studio condotto da Imperva ha rivelato che il 49,6% di tutto il traffico internet nel 2023 è stato generato dai bot, con un aumento del 2,1% rispetto all’anno precedente. Una crescita che può essere ricondotta parzialmente alla diffusione dei sistemi di intelligenza artificiale.

Online, i bot più utilizzati sono i “web crawler” (detti anche “spider”), che scandiscono il web per raccogliere i dati delle pagine e indicizzarli sui motori di ricerca. Nel caso del web scraping, invece, la raccolta massiva e indiscriminata di dati (anche personali) viene sì svolta tramite tecniche di web crawling, ma combinata anche con attività di memorizzazione e conservazione dei dati per successive analisi, elaborazioni e utilizzi.

Le finalità del web scraping possono essere diverse. In certi casi, l’intento è chiaramente malevolo, ad esempio per frodi digitali, tentativi di login forzato, furto di credenziali, ecc. In altri, la liceità o meno dipende “caso per caso sulla base di una pluralità di valutazioni di competenza sotto taluni profili del soggetto che vi procede e sotto taluni altri al soggetto che pubblica i dati personali che formano oggetto di tale attività“.

Come detto, dunque, tra le finalità vi è anche l’addestramento di algoritmi di intelligenza artificiale generativa, con tutti i rischi collegati a tale attività: privacy degli utenti, proprietà intellettuale, attendibilità dei contenuti prodotti dall’IA, ecc.

Web scraping e intelligenza artificiale generativa: come difendersi

Le indicazioni del Garante si rivolgono ai gestori dei siti web e di piattaforme online, operanti in Italia quali titolari del trattamento dei dati personali resi disponibili al pubblico.

Sebbene non possano impedire al 100% il web scraping, queste misure vanno considerate come cautele da adottare per mitigarne gli effetti, sulla base di un’autonoma valutazione del titolare del trattamento, per impedire l’utilizzo non autorizzato – da parte di terzi – dei dati personali pubblicati dal titolare (in attuazione del principio di responsabilizzazione o accountability).

Le azioni di contrasto individuate sono principalmente 4. Vediamole di seguito.

1. Creazione di aree riservate

Creare aree riservate, cui si può accedere solo previa registrazione, permette di sottrarre dati dalla disponibilità pubblica.

Da un lato, dunque, questa azione può indirettamente contribuire a una maggiore tutela dei dati personali nei confronti di attività di web scraping. Dall’altro, però, tale misura non può dar luogo a un trattamento di dati eccessivo da parte del titolare, in violazione del principio di minimizzazione di cui all’articolo 5, par. 1, lett. c), GDPR.

2. Clausole ad hoc nei termini di servizio

Inserire, nei Termini di Servizio di un sito o di una piattaforma online, il divieto di utilizzare tecniche di web scraping rappresenta una clausola contrattuale che – se non rispettata – permette ai gestori di agire in giudizio per far dichiarare l’inadempimento contrattuale della controparte.

Tale cautela può fungere da strumento di tipo special-preventivo e, di conseguenza, rappresentare un deterrente rispetto alle attività di web scraping da parte di terzi.

Collegato a questo argomento potrebbe interessarti anche il seguente articolo: Informativa privacy, cos’è e quando serve.

3. Monitoraggio del traffico di rete

Il monitoraggio delle richieste HTTP ricevute da un sito web, o da una piattaforma, consente di individuare eventuali flussi anomali di dati in ingresso e in uscita, ed eventualmente intraprendere adeguate contromisure di protezione.

Tale cautela può essere accompagnata anche da un Rate Limiting, ovvero una misura tecnica che permette di limitare il traffico di rete e il numero di richieste, selezionando solo quelle provenienti da determinati indirizzi IP (impedendo a priori un traffico eccessivo di dati – in particolare attacchi DDoS o web scraping).

4. Intervento sui bot

Sebbene non esistano tecniche che agiscono sui bot in grado di annullarne l’operatività al 100%, alcune azioni di contrasto possono prevenire o mitigare il web scraping non desiderato per finalità di addestramento dell’IA generativa. Alcuni esempi citati dal Garante sono:

inserimento di verifiche CAPTCHA, che impongono un’azione che può essere svolta solo da un essere umano e non da un bot;
modifica periodica del markup HTML, per ostacolare o rendere più complicato lo scraping dei bot;
incorporazione dei contenuti – ovvero dei dati che si vuole sottrarre alle attività di scraping – all’interno di oggetti multimediali, come le immagini (es. un testo breve, come un numero di telefono o un indirizzo e-mail) o altre forme di media;
monitoraggio dei file di log, per bloccare eventuali user-agent non desiderati, ove identificabili;
intervenire sul file robot.txt per non consentire l’azione di specifici bot finalizzati allo scraping per l’addestramento dell’intelligenza artificiale generativa. Si tratta di una misura tecnica mirata, ma comunque con diversi limiti.

Per approfondire, qui puoi consultare il documento completo del Garante.

Vuoi tutelare i dati personali di dipendenti, clienti e fornitori della tua azienda, rispettando quanto previsto per legge dal GDPR? Contattaci senza impegno per richiedere il supporto di un nostro esperto.

Mario Gelao

RSPP, responsabile marketing e vendite specializzato in comunicazione d'impresa e sviluppo commerciale, motociclista e appassionato di basket.

Michele Vasselai

RSPP, responsabile marketing e vendite specializzato in comunicazione d'impresa e sviluppo commerciale, motociclista e appassionato di basket.

Web scraping e intelligenza artificiale: cos’è e come tutelarsi

Web scraping e intelligenza artificiale: cos’è e come tutelarsi

Cos’è il web scraping e rischi per l’intelligenza artificiale generativa

Web scraping e intelligenza artificiale generativa: come difendersi

1. Creazione di aree riservate

2. Clausole ad hoc nei termini di servizio

3. Monitoraggio del traffico di rete

4. Intervento sui bot

Mario Gelao

Michele Vasselai

Newsletter

Seguici!

Ultimi approfondimenti

Menu

Whistleblowing

Newsletter

Sede legale e operativa

Newsletter

Seguici!

Ultimi approfondimenti