Tag Archives: ocr

Schon gewusst? Spamfilter lesen zum Teil Text in Bildern

Hätten Sie es gewusst? Zum Teil lesen und analysieren Spamfilter auch den Text in den Bildern Ihrer E-Mails im Hinblick auf spammige Schlüsselwörter…

Hintergrund

Image-Spam war in 2006 einer der großen Trends unter Spammern.[1] Die E-Mails enthielten ihre Nachricht nicht mehr in Textform sondern kodiert in einem Bild, dessen semantischer Inhalt für Spamfilter damals standardmäßig nicht zugänglich war. So entstanden Filter-Lösungen, die auf Basis von OCR-Technologien nicht nur den Body, sondern auch die Bilder in E-Mails hinsichtliche spammiger Begriffe analysieren konnten. Eine ziemlich große Herausforderung, denn die Spammer zogen mit animierten GIF-Grafiken und verzerrten Buchstaben (wie in CAPTCHA-Codes) alle Register, um die Mitteilungen nicht maschinenlesbar zu machen.[2]

Imagespam-Filter: FuzzyOcr

FuzzyOcr: Per OCR Text in Bildern auf Spam untersuchen (Quelle: fuzzyocr.own-hero.net)

FuzzyOcr: Per OCR Text in Bildern auf Spam untersuchen (Quelle: fuzzyocr.own-hero.net)

Ein weit verbreiteter Filter ist das Plugin FuzzyOcr für den SpamAssassin. Was kann das Plugin? Die Features:

  • Optical Character Recognition using different engines and settings
  • Fuzzy word matching algorithm applied to OCR results
  • Image hashing system to learn unique properties of known spam images
  • Dimension, size and integrity checking of images
  • Content-Type verification for the containing email

(Via Beitrag von Matt Vernhout im EmailKarma-Blog)

Nachtrag:
Vor ca. einem Monat patentierte auch Kaspersky Lab eine ähnliche Lösung.

Fußnoten

[1] Vgl. z. B. den Ironport-Report: “Image-Spam: Die Mail-Epidemie in 2006

[2] Vgl. Wikipedia: Image-Spam.