Chi filtra lo SPAM
La principale difficoltà che incontriamo quando effettuiamo un invio cospicuo di messaggi email è che noi non possiamo sapere quali protezioni dalla posta indesiderata mettono in atto tutti i destinatari dei nostri messaggi, sia a livello dei loro singoli PC che delle varie e complesse impostazioni Antispam ed Antivirus messe in atto dai vari provider sui loro mailserver ( i sistemi hardware e software che gestiscono la posta in arrivo dei nostri destinatari).
Per contrastare lo spam vengono effettuati sui mailserver, per ciascun messaggio in arrivo, una serie di test che tendono a discriminare se il messaggio in arrivo sia potenzialmente nocivo o anche solamente indesiderato.
Fra i molti filtri antispam attualmente in uso vi segnaliamo, per diffusione e per le particolari modalità di funzionamento, Cloudmark.
La valutazione dello SPAM
Cloudmark fornisce prodotti per la sicurezza e per la "pulizia" di tutti i tipi di comunicazioni elettroniche, sia email che sms.
Cloudmark è principalmente rivolto alle aziende e agli ISP (Internet Service Provider): in Italia, tra gli altri Cloudmark viene utilizzato da Aruba Business (il datacenter dei clienti di Aldersoft), Aruba, Libero, Tiscali, e Register.
Cloudmark si basa su un filtro collaborativo, che classifica le varie email in base ai feedback trasmessi da chi ha ricevuto l’email; in questa modo sono i diretti interessati che segnalano imessaggi "sospetti".
Le seguenti informazioni (in blu) sono tratte dal sito emailmarketingblog.it
L’email arrivata sembra spam ad un certo numero di utenti? Allora è spam.
Posta in questi termini la questione pare piuttosto semplice, in realtà la tecnologia impiegata è complessa; in questo breve excursus tenteremo di capire i principi di funzionamento dietro a questo filtro e come tali principi possano influenzare il nostro modo di gestire le liste e creare newsletter.
Cloudmark Authority nasce come "versione commerciale" di un progetto open source chiamato Vipul’s Razor, scritto da Vipul Ved Prakash, poi cofondatore della stessa Cloudmark.
Il primo problema che Vipul ha affrontato quando ha cominciato a pensare il suo filtro è stato quello del costo dell’analisi integrale di ogni messaggio in ingresso: la soluzione è stata quella di creare un software capace di individuare ed estrarre, in maniera rapida ed efficace, parti significative dell’email - indirizzi email, piccole porzioni di testo, mittente, link... - e codificarle in "impronte digitali" compatte (Cloudmark’s fingerprint).
Una volta che il filtro ha estrapolato le impronte dell’email in ingresso, il sistema verifica che ognuna di queste impronte digitali non sia contenuta nel database delle impronte "blacklistate" come portatrici di spam (Cloudmark Authority Fingerprint Cache): se anche solo una di queste impronte viene riconosciuta come sospetta, l’email stessa viene trattata come email di spam - e quindi, a seconda delle politiche dell’ISP, consegnata con l’oggetto cambiato, relegata nella cartella apposita, oppure direttamente rigettata (in tempo reale o tramite successivo bounce).
L’uso di queste impronte digitali consente di mantenere estremamente "agile" il database di confronto e di velocizzare le operazioni di ricerca. Ogni "cliente" di CloudMark riceve costantemente ed in tempo reale gli aggiornamenti del database che include l’elenco delle impronte digitali "incriminate" e il controllo può avvenire quindi localmente senza dispendiose (e più critiche) verifiche remote.
Il processo di estrazione delle "impronte digitali" è uno dei meccanismi chiave di Cloudmark ed è, chiaramente, segreto: per esperienza sappiamo che praticamente tutti gli indirizzi internet - anche solo citati, non necessariamente linkati - vengono trasformati in impronte digitali e dunque sono oggetto di screening. Pur non essendo gli unici elementi presi in considerazione, stanno assumendo un peso sempre più rilevante nell’analisi delle email da parte di Cloudmark.
Per ogni email vengono comunque estratte un numero variabile di impronte, dalle poche unità a parecchie decine, anche centinaia, che insieme formano una vera e propria carta d’identità della missiva.
Una volta individuate le impronte digitali, il confronto con il database delle impronte "cattive" è estremamente rapido; qui interviene il secondo punto chiave del filtro, il vero cuore di tutto il sistema.
Come viene popolato il database delle impronte digitali "cattive"?
L’idea fondamentale dietro al filtro ideato da Vipul è che una email di spam può essere unicamente riconosciuta come tale da chi la riceve.
Ricordiamo infatti che per Spam si intende una comunicazione non richiesta e a cui non si era dato alcun consenso; inizialmente per arginare questo fenomeno si lavorava principalmente sui contenuti, tentando di trovare pattern significativi comuni alle email Spam.
I limiti di questi metodi sono evidenti: per quanto possa sembrare che sia una buona idea filtrare email che contengano parole come "Viagra" oppure "Porn", in realtà possono esistere - ed esistono - molte email lecite e dotate degli opportuni consensi che le usano.
Partendo dall’idea base che solo chi riceve l’email può decidere se sia spam o meno, Cloudmark Authority lavora principalmente sulle segnalazioni da parte di chi utilizza il filtro: tutte le volte che un utente Cloudmark mette in spam una email, il filtro estrae tutte le impronte digitali dell’email e le invia al server centrale identificandole come "sospette".
Il server Cloudmark delle impronte sospette viene chiamato "Nomination Server", e tutte le impronte digitali segnalate finiscono qui, in attesa di "giudizio".
Una volta raggiunto un certo limite di segnalazioni - su questo limite c’è molto segreto ed è forse una delle parte più fallaci del sistema - le impronte vengono giudicate, non prima però di verificare l’affidabilità di chi le ha segnalate.
Essendo infatti un sistema sostanzialmente, ci si passi il termine, "delatorio", è fondamentale che la rete di segnalatori mantenga una reputazione alta, altrimenti l’intero filtro sarebbe messo sotto scacco dagli abusi dei segnalatori.
Quindi, prima di spostare l’impronta nel "Catalog server", il server che contiene il database delle chiavi "Cattive" e che poi sarà replicato da tutti i servizi Cloudmark, si verifica che i segnalatori abbiano una affidabilità alta - ovviamente il metro di questo rating è segreto, ma, stando a quanto dichiara Cloudmark, si basa sulla "vecchiaia" dell’agente, sulla congruenza con le segnalazioni di altri agenti e l’incidenza dei "false positive" nelle segnalazioni passate.
Se gli agenti - o l’agente - coinvolti nella segnalazione passano il check di trust, l’impronta digitale sospetta diventa ufficialmente "cattiva" e passa al server Catalogo, per essere poi distribuita in tutta la rete di installazioni Cloudmark, che siano singoli utenti o provider.
E se non fosse proprio spam?
Cloudmark, al netto delle dichiarazioni roboanti, ha un sistema per la gestione dei "False positive", quindi di quelle impronte digitali che, seppur indicate come "cattive", si rivelano alla prova dei fatti come "buone", quindi non portatrici di Spam.
Stando alle stesse dichiarazioni di Cloudmark, in questa categoria si ritrovano spesso gli invii massivi, Newsletter e Dem, che, per quanto ben gestiti e curati, possono generare segnalazioni di abuso e quindi blacklisting da parte di Cloudmark.
Per gestire questo tipo di problematiche, Cloudmark raccoglie anche feedback "positivi": da quel che si capisce dai documenti ufficiali, se qualcuno "ripesca" dalla cartella spam un messaggio e lo porta in posta in arrivo, l’azione viene registrata da Cloudmark, che poi farà - in automatico - le valutazioni del caso.
Appare chiaro che, in linea teorica, l’azione di recupero di un messaggio dalla cartella spam è oltremodo rara - e vedremo nel caso italiano di alcuni provider, impossibile, per cui è evidente che una impronta digitale "cattiva" ha davvero poche chance per redimersi.
Nel prossimo articolo condivideremo alcune riflessioni sul come evitare blacklisting sulle impronte digitali Cloudmark, soprattutto in considerazione del comportamento dei provider italiani che lo usano.
Cosa non fare
Tutti i sistemi Antispam prendono in esame per ciascun messaggio una gran varietà di parametri, tra i quali citiamo ad esempio:
- se contiene parole "proibite" quali : Viagra, Cialis, Sex
- in taluni casi se il messaggio contiene immagini viene effettuata una scansione OCR delle immagini, al fine di verificare se parole "proibite" come testo sono state surrettiziamente inserite nel messaggio sotto forma di immagine.
- se il messaggio è formato principalmente da immagini e con pochissimo testo. Se le immagini sono preponderanti il messaggio verrà penalizzato.
- se oltre alla versione "testo + immagini" (cioè il formato HTML) il messaggio viene inviato anche in modalità "solo testo" (plain text), ritenuto più accettabile poichè (in taluni casi) il messaggio esteticamente più valido (testo + immagini in formato HTML) potrebbe contenere del codice "malevolo" (malware) o addirittura componenti software dannosi per il PC di chi riceve il messaggio.
- la corretta formattazione del codice HTML. Talvolta basta inserire qualche formattazione al testo (grassetto, colore, corsivo, ecc.), inserire dei collegamenti ipertestuali (links) e qualche immagine senza conoscere la sintassi del codice HTML per generare un codice HTML spurio e pertanto penalizzato dai software Antispam.
- da quali server proviene, per verificare che non provenga da server presenti in Blacklist internazionali. Le Blacklist sono delle liste che, una volta individuato che da un determinato mailserver viene erogato dello spam, inibiscono a qualunque sistema di posta internazionale di ricevere messaggi provenienti dal mailserver incriminato.
Cosa fare
Abbiamo tralasciato altri aspetti più tecnici dei test Antispam ma già da queste considerazioni possiamo stabilire che per realizzare dei messaggi che non risultino spam occorre:
- se oltre al testo inserite delle immagini fate in modo che il testo sia cospicuo. Non scrivete solo le didascalie delle immagini, ma realizzate dei piccoli paragrafi di almeno 5/10 righe ciascuno.
- verificate con appositi software che il codice HTML del messaggio sia "pulito", rispettando le regole di base di questo linguaggio.
- realizzate anche una versione senza immagini e senza formattazioni, cioè una versione "solo testo"
- non inserite parole "proibite"
- non dimenticate di scrivere l’oggetto della vostra Newsletter
Nelle prossime pagine parleremo diffusamente di un programma che potete acquistare in internet, Sendblaster, che vi consente di realizzare Newsletter a regola d’arte, ad un costo molto contenuto (circa 100 euro).
Avanti