Schon gewusst? Spamfilter lesen zum Teil Text in Bildern

Hätten Sie es gewusst? Zum Teil lesen und analysieren Spamfilter auch den Text in den Bildern Ihrer E-Mails im Hinblick auf spammige Schlüsselwörter…

Hintergrund

Image-Spam war in 2006 einer der großen Trends unter Spammern.[1] Die E-Mails enthielten ihre Nachricht nicht mehr in Textform sondern kodiert in einem Bild, dessen semantischer Inhalt für Spamfilter damals standardmäßig nicht zugänglich war. So entstanden Filter-Lösungen, die auf Basis von OCR-Technologien nicht nur den Body, sondern auch die Bilder in E-Mails hinsichtliche spammiger Begriffe analysieren konnten. Eine ziemlich große Herausforderung, denn die Spammer zogen mit animierten GIF-Grafiken und verzerrten Buchstaben (wie in CAPTCHA-Codes) alle Register, um die Mitteilungen nicht maschinenlesbar zu machen.[2]

Imagespam-Filter: FuzzyOcr

FuzzyOcr: Per OCR Text in Bildern auf Spam untersuchen (Quelle: fuzzyocr.own-hero.net)

FuzzyOcr: Per OCR Text in Bildern auf Spam untersuchen (Quelle: fuzzyocr.own-hero.net)

Ein weit verbreiteter Filter ist das Plugin FuzzyOcr für den SpamAssassin. Was kann das Plugin? Die Features:

  • Optical Character Recognition using different engines and settings
  • Fuzzy word matching algorithm applied to OCR results
  • Image hashing system to learn unique properties of known spam images
  • Dimension, size and integrity checking of images
  • Content-Type verification for the containing email

(Via Beitrag von Matt Vernhout im EmailKarma-Blog)

Nachtrag:
Vor ca. einem Monat patentierte auch Kaspersky Lab eine ähnliche Lösung.

Fußnoten

[1] Vgl. z. B. den Ironport-Report: “Image-Spam: Die Mail-Epidemie in 2006

[2] Vgl. Wikipedia: Image-Spam.

Enjoyed this one? Subscribe for my hand-picked list of the best email marketing tips. Get inspiring ideas from international email experts, every Friday: (archive♞)
Yes, I accept the Privacy Policy
Delivery on Fridays, 5 pm CET. You can always unsubscribe.
It's valuable, I promise. Subscribers rate it >8 out of 10 (!) on average.

Leave a Reply

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

All information is voluntary. Your email address will not be published. When commenting, you agree that your IP address will be processed and stored by Askimet in the U.S. for the purpose of recognizing comment-spam.