SPAM, robots, virus et retrospam : pollution sur internet

« A notre grand étonnement, depuis des mois notre société, comme beaucoup d'autres sans doute, recevait des avis de retours de messages électroniques que nous n'avions jamais envoyés. Une bonne partie des retours "Returned mail: see transcript for details" ne sont rien d'autres que des virus ou des façons déguisées de valider nos adresses. Différemment nous récupérions régulièrement des messages de correspondants connus ou inconnus qui nous signalaient avoir reçu des virus envoyés par notre entreprise. »

L'article que consacre Jean-Michel Yolin sur ce sujet montre la gravité du problème et sa complexité technique. Non sans humour il présente un point de la situation sur le front des antispams que nous avons complété par quelques données supplémentaires. A lire absolument.
Le Spam, "courrier  non sollicité", ou "polluriel" de nos amis canadiens ou "harassement textuel" des humoristes montmartrois est devenu un vrai fléau. L'origine du mot se trouverait dans un sketch des Monty Pythons où la production charcutière anglaise (peu ragoûtante) envahissait progressivement la scène dans un humour à la finesse toute britannique... Selon d'autres sources il s'agirait encore d'une déformation du nom du premier millionnaire du spam, Sanford Wallace, à l'origine un marchand de pizzas qui deviendra patron de Cyber Promotions et fera fortune en lançant les prospectus électroniques.

La pollution des spams est désormais un vrai fléau économique selon le cabinet d'études Jupiter Reseach. Plus de 260 milliards de messages non sollicités en 2002, 500 prévus en 2003 et cela pourrait dépasser 10 000 milliards en 2005. Un vrai frein à la productivité avec la saturation des boîtes aux lettres. D'après certaines études parues durant l'été le Spam tend à représenter 90% du flux d'échange de mails sur internet, saturant les réseaux et "taxant" le temps de chacun (là encore les études susmentionnées chiffrent à 10 milliards de $ le coût de cette pollution pour la collectivité alors que les dépenses de production sont quasi nulles) (1).

Que faire ? La CNIL s'intéresse au problème. Mais les vrais spammeurs ne risquent pas grand chose. Il y a bien entendu les PME françaises qui viennent de découvrir internet et qui, mal conseillées, en prennent "plein la gueule" au premier envoi et en général on en reste là : ce sont typiquement les seules que la CNIL a coincé en se ridiculisant avec l'efficacité d'une bombe de Baygon vert sur les cafards de tout un quartier de New York. Le vrai problème n'est évidemment pas là : il s'agit de l'altermondialisation apatride de l'Internet publicitaire souterrain. Les spammeurs de bases, les "fantassins" du spam, sont souvent des personnes qui ont besoin d'arrondir leurs fins de mois : une étude avait été faite par BNP-Paribas en son temps, sur l'industrie du porno qui montrait que le profil type de ces spammeurs-webmestres correspondait à des "ménagères de moins de 50 ans souvent seules avec des enfants et peu de ressources". Pour gagner quelque argent, elles apprennent vite à utiliser le "kit" du spammeur : fichiers d'adresses, templates de sites, système de brouillage de piste pour les envois... Leur rôle est simplement d'attirer le prospect et de le rabattre vers des sites managés par de gros professionnels qui eux ne se mettent jamais en infraction et sont à la tête d'un énorme business sans doute très juteux. Ils (elles) sont payé(e)s à la commission en fonction des clients captés. Il semble s'agir d'une organisation type "tupperware" et il est vraissemblable qu'il en va de même dans les grands créneaux du spam : arnaque nigériane, viagra, grossisseur de zizis, rajeunisseur, prêts hypothécaires à bas taux...et logiciels de lutte contre le Spam.

Les "professionnels" qui sont derrière ce commerce lucratif ont toujours été à la pointe de la technologie et ce sont eux qui ont inventé quasiment toutes les technologies des web commerciaux (pop-up, pop-down, moyens de paiement sécurisés qui ne laissent pas de trace, mouse trapping, promotion de la large bande pour les flux video...). Aussi à défaut de pouvoir attaquer le mal à la source, faute de vaccins, se sont développés les préservatifs : les filtres antispam, comme en son temps  les filtres antivirus. Dans un premier temps il s'agissait d'une reconnaissance de mots clé dans l'objet : viagra, porno... L'élargissement progressif du vocabulaire : girl, loan... a commencé à se traduire par moult faux positifs alors que dans le même temps les spammeurs se sont adaptés : V.I.A.G.R.A, V1AGRA, P0rno, "you forgot to reply", ...pour passer à travers les mailles du filet.

A ce stade primitif ont été dressées des listes de spammeurs (blacklists) dont les mails ont été renvoyés à l'expéditeur, "bouncés" : là encore la parade a été vite trouvée avec des adresses de retour invalides et surtout des changements d'émetteur à chaque envoi. Les filtres les plus courants ont une ascendance normande : il est rare qu'ils répondent "oui" ou "non" : c'est toujours "p't-être bien qu'oui, p't-être bien que non" à 99%, 95%, 50%... 1%. C'est donc à l'utilisateur de choisir l'équilibre entre les risques de faux positifs et de faux négatifs, avec la possibilité d'une classe intermédiaire de "suspects" qui devra être triée à la main... Un message envoyé à plusieurs destinataires sera souvent considéré comme un spam par les systèmes primitifs. Devant l'explosion des "faux positifs" on a simplement durci les critères (richesse du HTML utilisé, vocabulaire,..) sans réaliser que c'est la structure même de leur bouclier qui était devenue totalement inappropriée. Bien pire, les spammeurs ont, en excellents judokas, retourné cette arme contre ceux qui utilisent le "rétrospam" en les prenant à leur propre piège et en faisant d'une pierre trois coups : ils vous privent de vrais messages, vous spamment en neutralisant vos défenses et vous font blacklister !!! Il a donc fallu passer à des systèmes plus astucieux faisant appel à l'intelligence artificielle qui procèdent à une analyse structurelle fine des spam et en tirent une "signature numérique" permettant de le reconnaître même s'il a subi des modifications. Ce sont des systèmes qui fonctionnent par auto-apprentissage : il faut leur donner chaque jour à "brouter" les spams qu'ils ont laissé passer ainsi que les faux positifs pour qu'ils apprennent à les reconnaître. Ainsi le logiciel Bogo permet d'éliminer 84% des spams sur 100 000 mails traités. Certains annoncent des scores supérieurs à 90% avec SpamOracle de l'inria, spamassassin...

Ces scores malheureusement se dégradent cependant très vite avec l'évolution des techniques de spam ! Début de l'été 2003, patatras, les spammeurs ont développé une nouvelle stratégie (comme toujours les truands ont un coup d'avance sur la police !) Nous voici confronté au gigantesque problème de la conjugaison entre les robots qui récoltent les adresses sur les sites, les virus qui vont les chercher dans les BAL et qui créent sur votre micro, à votre insu des proxy server, c'est à dire qui transforment votre PC en serveur de mails pirates. S'y ajoute le "virus-ver Plaxo"» bien entendu, le virus belge en question vous explique comment détruire vous-même votre ordinateur en supprimant un fichier système qu'il vous fait passer pour un affreux virus, il se charge ensuite de proposer ses services, en profite pour vous piquer votre carnet d'adresses qu'il utilise par votre intermédiaire à tous vos correspondants crédules en se constituant gratuitement un gigantesque fichier. Plaxo a été développé par un hacker fondateur de  Napster  (2).

Ainsi, grâce à ces nouveaux procédés, non contents de vous spammer "au premier degré" (ce qui n'est plus bien grave car avec des filtres comme bogophilter on arrive à peu près à les éliminer ), ces entreprises usurpent votre adresse pour envoyer des spams : vous recevez alors, outre quelques injures de personnes qui s'étonnent que le ministère des finances assure la promotion de Viagra importé, des retours en erreur d'adresses périmées et comme par ailleurs la plupart des destinataires bénéficient de filtres antivirus vous recevez un monceau de messages d'alerte du filtre de "vos" centaines de correspondants. Et là, votre filtre anti Spam est totalement sans effet sur ces messages d'erreur... : sachant que vous pouvez vous procurer 140 millions d'adresses pour 199 dollars, imaginons un envoi de 100 millions de spam sous votre identité dont 1% des adresses sont périmées et qui vous reviennent en erreur...

La plupart d'entre nous n'ont pas pris conscience qu'avec cette évolution nous nous entretuons à cause du détournement des armes que nous avons mis en place lors de la guerre précédente et qui se retournent désormais contre nous : la poursuite de cette stratégie vous prive de vrais messages (faux positifs) à cause du durcissement inapproprié de filtres inadaptés qui classent un message normal parmi les spams.

Elle vous vous conduit à être spammé par les victimes des vrais spammeurs : en faisant croire au système de défense de ces derniers que le message vient de vous, elle vous désigne comme cible pour leurs "bounce" contre lesquels vos protections sont sans effet (ce sont en effet des messages d'alerte "delivery error" de même type que ceux que vous recevez si vous faites une erreur sur le nom de votre destinataire ou si votre message était contaminé par un virus) : c'est ce que nous appellerons le "rétroSpam" qui représente un pourcentage de plus en plus grand des spams reçus et l'essentiel des nuisances aujourd'hui. Il risque de vous faire à tord blacklister (mise sur liste noire) car c'est vous qui êtes considéré comme à l'origine du Spam !!!

Il est donc urgent que chaque nation prenne clairement conscience de cette évolution et y adapte ses méthodes de défense. Aux Etats-Unis, l'hyper sollicitation par des moyens électroniques comme les opérations de télémarketing et le spam est désormais un ennemi combattu par les associations de consommateurs et les politiques. La Chambre des représentants vient de voter à une écrasante majorité un texte contre le spam. Elle oblige les expéditeurs à s'identifier clairement et à ne pas inclure d'adresse de retour délibérément fausses. Interdiction aussi de tester des adresses au hasard afin de trouver des adresses actives et d'arrêter les envois vers un destinataire qui en exprime le désir. La Federal Trade Commission (FTC) de son coté a lancé le 27 juin dernier un service "Do Not Call" où les Américains peuvent s'inscrire afin de ne plus être dérangé par les services de télémarketing téléphonique. En une semaine, plus de douze millions d'américains s'étaient inscrits. Les 60 millions d'inscrits début juillet sont en droit de ne plus être dérangés sauf par les partis politiques, les associations de bienfaisance et les sociétés de sondages. Une amende de 11000 dollars est prévue pour les sociétés contrevenantes. Une situation qui accentuait l'utilisation des prospectus électroniques (ou spams). Un américain reçoit en moyenne 2278 spams par an, rien d'étonnant à ce qu'ils soient 83% à souhaiter que le service "Do Not Call" soit étendu au service de messageries électroniques. Message entendu par le Congrès qui vient de voter à une large majorité un texte contre le spam. Cette loi va permettre la création d'une "liste rouge» d'américains ne souhaitant pas recevoir de courriels à caractère commercial. En cas de violation les contrevenants se verront infliger jusqu'à 2 millions de dollars d'amende. Encore faudra-il les attraper !

Jean Michel-Yolin et
Denis Ettighoffer, Eurotechnopolis Institut


NB. Crypter ces adresses pour vous protéger des robots récolteurs d'adresse (harvesters), voir l'outil de cryptage de la CNIL : http://www.yolin.net/test_cryptage_adresse.html - Voir aussi « SPAM, Robots, Plaxo, virus et retrospam : mieux les comprendre, mieux les combattre » (http://www.yolin.net/spam031031.doc)


(1) : Le nombre de messages publicitaires non sollicités s'élevait en 2002 à plus d'un milliard et demi par semaine et représentait selon Frits Bolkenstein, commissaire européen,

(2) : http://www.pcmag.com/article2/0,4149,905467,00.asp