SpamAssassin: Schlechtere Wirkung trotz niedrigerer Schwellen + Bayes

lmb lars at marowsky-bree.de
Wed Jan 21 10:32:54 CET 2004


On 2004-01-21T09:43:10,
   Stefan Ulrich Hegner <stefan at hegner-online.de> said:

> Es scheint mir die Spammer haben effiziente Wege um SA herum gefunden.

Kann ich nicht bestätigen.

Allerdings hat bei meinen Tests der SA Bayes nicht so gut abgeschnitten,
der bogofilter war besser. Deswegen verwende ich SA und bogofilter
kaskadiert.

Wichtig ist, das ein Bayes trainiert werden muß; ie, am Anfang
ordentlich gefüttert wird auch zur Laufzeit false positives / negatives
nachtrainiert werden.

> 4. Wenn ich entsprechend schärfer filtere, steigt das Risiko von "false
> positives". - Aber der Aufwand immer "manuell" danach zu suchen ist auch
> recht hoch. - Wie macht Ihr das am effizientesten?

Das muß dennoch sein, sonst wird insbesondere der Bayes-Filter
sukzessive schlechter und generiert mehr false positives. Deswegen
scanne ich meinen Spam-Folder einmal die Woche grob durch und trainiere
ihm die wieder ab.

Hier meine entsprechenden procmail Einträge. Swen & MS Attachments im
allgemeinen Haue ich direkt weg, damit belaste ich meine Spam-Filter
garnicht erst.

Die von SA als Spams klassifizierten Mails gehen direkt in den
bogofilter als Trainingsdaten; ansonsten wird bogofilter gefragt, ob es
vielleicht doch Spam ist. Ich habe Erkennungsraten von ca. 99% und
besser, auch wenns leider etwas langsam ist.

# Some Swen filtering
:0 D
* ^SUBJECT:
/dev/null

# Some additional MS attachments...
:0 B
* ^TV[qpro][iw5QJB]............\/\/[8+]...........AAQAA.AA.AAAA.AAAAAAAAAAAAAAAA
| $MD spam

:0fw: .spamassassin.lock
| /home/lmb/bin/sa/usr/bin/spamassassin

:0e
{ EXITCODE=75 HOST }

:0: .bogofilter.lock
* ^X-Spam-(Status|Flag): Yes
| bogofilter -ps | $MD spam

:0fw: .bogofilter.lock
| bogofilter -u -e -p

# if bogofilter failed, return the mail to the queue, the MTA will
# retry to deliver it later
# 75 is the value for EX_TEMPFAIL in /usr/include/sysexits.h
:0e
{ EXITCODE=75 HOST }

# Work around procmail bug: any output on stderr will cause the "F" in "From"
# to be dropped.  This will re-add it.
:0
* ^^rom[ ]
{
  LOG="*** Dropped F off From_ header! Fixing up. "
  
  :0 fhw
  | sed -e '1s/^/F/'
}

:0
* ^X-Bogosity: Yes, tests=bogofilter
| $MD spam


($MD ist einfach mein Programm um die Mail in einem Maildir abzulegen,
das wichtige sind die Filterregeln.)


-- 
"I'm extraordinarily patient provided I get my own way in the end."
        -- Margeret Thatcher



More information about the Linux mailing list