Hätten Sie es gewusst? Zum Teil lesen und analysieren Spamfilter auch den Text in den Bildern Ihrer E-Mails im Hinblick auf spammige Schlüsselwörter…
Hintergrund
Image-Spam war in 2006 einer der großen Trends unter Spammern.[1] Die E-Mails enthielten ihre Nachricht nicht mehr in Textform sondern kodiert in einem Bild, dessen semantischer Inhalt für Spamfilter damals standardmäßig nicht zugänglich war. So entstanden Filter-Lösungen, die auf Basis von OCR-Technologien nicht nur den Body, sondern auch die Bilder in E-Mails hinsichtliche spammiger Begriffe analysieren konnten. Eine ziemlich große Herausforderung, denn die Spammer zogen mit animierten GIF-Grafiken und verzerrten Buchstaben (wie in CAPTCHA-Codes) alle Register, um die Mitteilungen nicht maschinenlesbar zu machen.[2]
Imagespam-Filter: FuzzyOcr
Ein weit verbreiteter Filter ist das Plugin FuzzyOcr für den SpamAssassin. Was kann das Plugin? Die Features:
- Optical Character Recognition using different engines and settings
- Fuzzy word matching algorithm applied to OCR results
- Image hashing system to learn unique properties of known spam images
- Dimension, size and integrity checking of images
- Content-Type verification for the containing email
(Via Beitrag von Matt Vernhout im EmailKarma-Blog)
Nachtrag:
Vor ca. einem Monat patentierte auch Kaspersky Lab eine ähnliche Lösung.
Fußnoten
[1] Vgl. z. B. den Ironport-Report: “Image-Spam: Die Mail-Epidemie in 2006”
[2] Vgl. Wikipedia: Image-Spam.