Data breach e data scraping: di cosa si tratta e perché ci deve interessare

 

I casi Facebook, LinkedIn e Clubhouse

Nelle ultime settimane molto si è parlato, indistintamente, di data breach e data scraping con non poca confusione da parte della stampa generalista.

Con l’unico scopo di fare chiarezza, definiamo cosa esattamente si vuole intendere con entrambe le definizioni. Il Regolamento UE 2016/679 (il “GDPR”) definisce data breach, «una violazione di sicurezza che comporta – accidentalmente o in modo illecito – la distruzione, la perdita, la modifica, la divulgazione non autorizzata o l’accesso ai dati personali trasmessi, conservati o comunque trattati»; si parla invece di data scraping riferendosi a una «tecnica di raschiamento tramite software per estrarre dati e trasferirli in un altro output leggibile da persone fisiche».[1]

Tale premessa risulta indispensabile per comprendere le complesse dinamiche intercorrenti tra fruitore e sicurezza nel world wide web. Nello specifico, riferendosi ai casi di recente trattati da diversi organi stampa, più users, con finalità criminali, hanno pubblicato su un forum, grazie alle informazioni pubbliche recuperabili nelle pagine di Facebook, i numeri di telefono, ID, posizioni, date di nascita, bios e indirizzi e-mail di circa 533 milioni di utenti del social network[2]. Mentre attraverso la commercializzazione in forma aggregata – ad opera del genus criminoso – di dati sulla piattaforma Linkedin, hanno dato un assist prevalente ad hackers e phishers.[3]

Non si esimerebbe dalle citate minacce il novello clubhouse che, nonostante smentite più o meno ufficiali, risulterebbe essere oggetto di esfiltrazione automatica di dati tramite software dedicato.[4]

 

I cultori del diritto si interrogano sulla liceità del data scraping

Analizzando le tre casistiche in oggetto, risulta spontaneo associare quanto successo a una ingente violazione di dati personali, per come precedentemente giuridicamente definita; in realtà non siamo di fronte a una diretta azione di hacking ma al c.d. data scraping.

Ciò è desumibile dalle descrizioni fornite dalle cronache, ossia che si è trattato di importazione di dati da un sito web pubblico in un foglio di calcolo o in un file locale, e in alcuni casi, caricamento di quegli stessi dati all’interno di un ulteriore sito web.

Idealmente, il data scraping perseguirebbe finalità non antitetiche nei confronti del Codice del Consumo, in specifico l’articolo 34 punto 2 menziona un significativo squilibrio tra le parti, assente qualora si tratti di raccolta per finalità puramente promozionali dell’istituto in analisi. Si veda ad esempio la c.d. sentiment analysis, un’analisi procedurale di calcolo dei sentimenti e delle opinioni espresse nei testi online riguardanti un topic specifico, realizzata grazie a tecniche combinate di data mining e di Natural Language Processing. Questa tecnica, estrapola e analizza i testi e le pagine dei social network al fine di ipotizzare la brand reputation e la customer experience per migliorare e adattare strategie di marketing[5].

In concreto, non stupisce come la raccolta aggregata, pur attenendosi a uno schema legale come visto in precedenza, possa eludere principi contemplati nel Regolamento Generale per la Protezione dei Dati (Regolamento UE 2016/679), come ad esempio il principio di minimizzazione dei dati e di proporzionalità della raccolta in virtù di una finalità lecita. La finalità di tali attività, inoltre, potrebbe risultare illecita nei casi in cui tali trattamenti non siano attuati a seguito di un’attenta valutazione giuridica da parte del titolare del trattamento. Il Garante per la protezione dei dati personali, infatti, attraverso il provvedimento n. 4 del 14 gennaio 2016 delegittima tale tecnica «per le specifiche finalità di consultabilità on line e di “ricerca inversa” delle generalità dei contraenti, senza la previa acquisizione di un loro consenso espresso, libero, specifico e documentato per iscritto»[6]; frattanto la giurisdizione comunitaria (La Corte di Giustizia dell’Unione Europea) tramite la celebre Causa C-131/12 – Google Spain SL, Google Inc./ Agencia Española de Protección de Datos, Mario Costeja Gonzále auspica che l’indicizzazione operata dai motori di ricerca, essendo un trattamento dei dati personali e permettendo una visione complessiva e strutturata della persona sul web, dovrebbe, in caso di attivazione della giurisdizione, attribuire profili di responsabilità.[7]

 

Consulenza dedicata e protezione da esfiltrazioni pericolose

In tale contesto, i consulenti e i professionisti del cd. data protection package, inclusivo delle normative sulla sicurezza informatica, hanno il compito di tutelare persone fisiche e giuridiche in occasione non già esclusivamente di data breach bensì anche di data scraping contrari a finalità permesse dall’ordinamento nazionale e sovranazionale. Ne sono un esempio concreto l’IDS (Intrusion Detection System) e IPS (Intrusion Prevention System), sistemi che favoriscono l’intercettazione del traffico di una rete (host qualora sia host-based) per determinare la sua pericolosità ed eventualmente instradarlo verso il blocco di connessioni non sicure e adottare misure di sicurezza valide per  mitigare i rischi. La modalità di applicazione però è tutt’altro che meccanica; richiede necessariamente una configurazione specifica, la visualizzazione delle aree di maggior valore per il business nonché opportune valutazioni inerenti ai costi/benefici.

In base a ciò che è stato affermato poc’anzi, la valorizzazione dei dati è un surplus impossibile da compromettere in virtù di interessi societari antinomici, attuare un problem solving efficace, dato da professionisti del settore, permane la sfida più stimolante al fine di ottenere un habitat cibernetico scevro da intenti antigiuridici e lesivi della sicurezza informatica.

 

Fonti:

[1] M. Geldard, J. Manning, Practical Artificial Intelligence with Swift, 2019, pp. 4 e ss.

[2] Per ulteriori informazioni sul tema v. https://www.businessinsider.com/stolen-data-of-533-million-facebook-users-leaked-online-2021-4?IR=T

[3] Al fine di rendere la trattazione più chiara si consiglia di leggere LinkedIn admits data scraping; information of 500 million profiles leaked – cnbctv18.com

[4] Ingente informativa è riscontrabile su Clubhouse vittima di scraping, giallo sui dati di 1,3 milioni di utenti – CorCom (corrierecomunicazioni.it)

[5] Cfr. «METODO OCEAN» metodologia applicativa concertata dai c.d. big five utilizzata per profilazione e pubblicità mirata: si basa sui megadati e configura la ricerca di modelli che riflettano le caratteristiche di un tipo di personalità.

[6] Garante per la protezione dei dati personali, Registro dei provvedimenti n. 4 del 14 gennaio 2016. Nel caso di specie la produzione di elenchi telefonici on line tramite piattaforme virtuali di “ricerca inversa” risulta inadeguata se posta in analisi di compliance alle normative privacy.

[7] Per ulteriori informazioni sulla controversia succitata si consiglia la lettura della sentenza della Corte di giustizia dell’Unione europea (CGCE), Causa C-131/12 – Google Spain SL, Google Inc./ Agencia Española de Protección de Datos, Mario Costeja Gonzále