Come bloccare il traffico spam su Google Analytics

Soltanto il 62% del traffico globale di internet è generato da esseri umani, il restante 37,8% è invece generato da bot ossia, traffico automatizzato. A confermarlo è il Bot Traffic Report 2018 di Distil Networks il quale, evidenzia, tuttavia, un trend in calo del traffico da bot su quello degli esseri umani rispetto agli anni precedenti.
Infatti, il traffico generato da esseri umani denota un aumento del 7,5% mentre, il traffico generato da bot sia malevoli sia benevoli si è ridotto rispettivamente del 14,4% e del 7,5%.

Good Bots vs. Bad Bots

I bot, abbreviazione di robot, sono programmi che navigano in rete attraverso gli stessi sistemi di accesso utilizzati dagli esseri umani e ognuno con obiettivi differenti. Generalmente, i bot sono utilizzati dai motori di ricerca come Google, Yandex, Bing e Baidu con scopi di web spidering ossia, visitano le pagine dei siti web per raccogliere informazioni allo scopo di indicizzarle e non solo.
I bot sono classificabili in due macro categorie: i Good Bot e i Bad Bot a seconda della loro intenzione, benevola o malevola.


Fonte: Bot Traffic Report 2016

I Good Bots sono dei robot “buoni” che hanno il compito di agevolare le attività ripetitive dell’uomo automatizzandole come nel caso dei chat bot i quali, nei casi più evoluti riescono addirittura a captare le emozioni delle persone intrattenendo lunghe conversazioni. E’ il caso del chat bot cinese Xiaoice sviluppato da Microsoft.
Altre attività che sono in grado di compiere i good bot sono: web crawling, website monitoring, data aggregation, online transaction, ecc…
I Bad Bots, invece, come indica la parola stessa hanno intenti malevoli. Sono i principali responsabili degli attacchi web, del furto dati online, della violazione della sicurezza informatica, del fenomeno del phishing, della distorsione dei dati di web analytics e dei grandi attacchi Ddos.


Fonte: Bot Traffic Report 2016

In questa sede, ci soffermeremo ad analizzare una delle azioni compiute dai bot malevoli ossia, quelle che causano un aumento delle visite al sito inficiando i dati contenuti nei rapporti di Google Analytics. Individueremo come fare per identificarli e le azioni che possiamo implementare per bloccarli.
Questa tipologia di traffico è riconosciuta come Referral spam e, nei rapporti di Google Analytics, possono essere individuati in quanto a volte si presentano sotto forma di siti web dall’aspetto strano.

Sebbene normalmente i bot che generano traffico su un sito non hanno lo scopo di danneggiarlo ma svolgono soltanto la funzione di sito esca per spingere il marketer di turno a visitare i loro siti web a scopo esclusivamente pubblicitario, sono responsabili però del danneggiamento dei dati relativi all’analisi del traffico web. Altre volte, invece, i siti esca hanno l’obiettivo di diffondere virus.

Tipologie di traffico spam in Google Analytics

Il traffico spam in Google Analytics si distingue principalmente in due categorie: Ghost Spam e Crawler Spam.
Queste due tipologie di spam si comportano in modo diverso richiedendo per cui metodi specifici per essere bloccati.
Il Ghost Spam rappresenta la maggior parte del traffico spam su Google Analytics. Si tratta di traffico fasullo generato da spammer che non accedono realmente al sito ma riescono a generare traffico sulle viste inviando dati di traffico falsi ai server di Google tramite il Measurement Protocol. Ecco perché è denominato “traffico fantasma“.
In particolare, il ghost spam sfrutta il Protocollo di Misura (Measurement Protocol) di Google che consente di inviare dati direttamente ai server di Google ed utilizza codici di tracciamento casuali (ossia, il noto codice UA-XXXXXX-1) senza nemmeno sapere esattamente chi si sta colpendo.

Come riconoscere e bloccare il Ghost Spam in Google Analytics

Nei rapporti di Google Analytics, il ghost spam si presenta con la dicititura “not set” o attraverso nomi host falsi. Per scoprirlo basta andare in Google Analytics, Rapporto Pubblico > Tecnologia > Rete > Nome Host

Uno dei metodi per bloccare il Ghost Spam è attraverso il filtro antispam che sfrutta gli hostname del proprio sito. Questo filtro blocca in modo definitivo lo spam fantasma.
Poiché gli spammer non sanno chi stanno colpendo, lasciano sempre un nome host falso o “non definito” che apparirà come (non impostato) nei rapporti di Google Analytics. La procedura per bloccare il traffico fantasma è la seguente:

1. Creare un’espressione regolare con i propri nomi host validi seguendo alcune regole

– tra un dominio e l’altro è necessario inserire il simbolo: |
– prima di ogni punto va messo: / ( per esempio: tuodominio/.it) nel caso di più sottodomini non è necessario metterli tutti ma basta solo il dominio principale
Esempio: tuodominio\.it | blog\.tuodominio\.it | www\.tuodominio\.it

2. Creare filtro di inclusione (per includere nei rapporti solo il traffico associato al nome host del sito)
2.1 Entra nel Pannello di Amministrazione di GA
2.2 Nell’ultima colonna a destra (Vista) clicca su Filtri e poi su + Aggiungi filtro
Nome filtro: Nomi Host Validi
Tipo di filtro: Personalizzato
Includi > Campo filtro: Nome host
Pattern filtro: incolla l’espressione regolare che hai creato
Verifica filtro
Salva
NO file .htaccess (1), NO funzionalità “Referral exclusion List”,

Il Web Crawler Spam invece, accede realmente al sito. Si tratta di robot che scansionano le pagine del sito web in modo automatico spesso ignorando le regole presenti nel robot.txt mirate ad impedire loro la lettura di alcune aree del sito.

Il crawler spam più noto è Semalt che, differentemente dagli altri web crawler, non viene riconosciuto come tale dai Server Web e quindi bloccato, ma accede al sito generando visite fasulle con frequenza di rimbalzo del 100% e durata di 0 secondi.

Come riconoscere e bloccare il Crawler Spam in Google Analytics

In genere i web crawler sono difficili da identificare e raramente appaiono più volte su un sito web. Per cui è facile cercare su Google delle liste per identificare quelli più conosciuti che generano traffico fasullo. Uno dei metodi più efficaci per bloccare il crawler spam è tramite file .htaccess o anche tramite la funzionalità di Google Analytics “Escludi tutti gli hit da bot e spider noti”. Quest’ultima funzione è molto efficace in quanto Google riesce a bloccare lo spam noto attingendo dalla IAB/ABC International Spiders and Bots List.

Ecco, invece, un esempio di come deve essere strutturato il file .htaccess per bloccare il noto web crawler, Semalt:
#Start Crawler Spam Exclusions
RewriteEngine on
RewriteCond %{HTTP_REFERER} ^http://.*social-buttons\.com/ [NC,OR] RewriteCond %{HTTP_REFERER} ^http://.*makemoneyonline.\.com/ [NC,OR] RewriteCond %{HTTP_REFERER} ^http://.*traffic2money\.com/ [NC,OR] RewriteCond %{HTTP_REFERER} ^http://.*success-seo\.com/ [NC,OR]
RewriteCond %{HTTP_REFERER} ^http://.*iloveitaly\.com/ [NC,OR]
RewriteCond %{HTTP_REFERER} ^http://.*priceg\.com/ [NC,OR]
RewriteCond %{HTTP_REFERER} ^http://.*savetubevideo\.com/ [NC,OR] RewriteCond %{HTTP_REFERER} ^http://.*kambasoft\.com/ [NC,OR]
RewriteCond %{HTTP_REFERER} ^http://.*buttons\-for\-website\.com/ [NC,OR] RewriteCond %{HTTP_REFERER} ^http://.*semalt\.com/ [NC,OR]
RewriteCond %{HTTP_REFERER} ^http://.*darodar\.com/ [NC]
RewriteRule ^(.*)$ – [F,L]
#End Crawler Spam Exclusions

Implementare queste soluzioni aiuterà sicuramente a ridurre il traffico spam su Google Analytics. Tuttavia, visto il rapido evolversi della tecnologia, è necessario essere sempre aggiornati sulle nuove tipologie di bot e sulle loro capacità.