Frozen Fido : RU.UNIX.BSD : Re: bsdtar & symlinks

ru.unix.bsd

 
 - RU.UNIX.BSD ------------------------------------------------------------------
 From : Sergey Skvortsov                     2:5020/400     13 Aug 2006  14:30:08
 To : Auster
 Subject : Re: bsdtar & symlinks
 --------------------------------------------------------------------------------

 Auster wrote:

 > Sergey Skvortsov <skv@protey.ru> wrote:
 > 
 >>>>> смотрим теперь нп в статистику идущую с SA для URIBL_SBL рулесета
 >>>>> - 98.6% правильных срабатываний, 1.4% - ложных.
 >>>>> (можно конечно поперепроверять все рулесеты на обьеме своей почты,
 >>>>> но я почемуто склонен верить той что уже есть).
 >>>> Порочная логика, пример неверной экстраполяции. Такие "рулесеты" -
 >>>> типичная апофения.
 >>>> Все эвристические фильтры спама следует запретить.
 >>>>
 >>> здесь было дано только статистическое описание, а не эвристика.
 >> Это эвристика, поскольку к чистым входным данным (тело письма),
 >> добавляются косвенные данные (типа NS'ов). И это добавление "отравляет"
 >> данные, делая их попросту нерепрезентативными.
 >>
 >    ага, вот что здесь подразумевалось под эвристикой.
 >   помоему говорить о эвристике стоилобы если бы был нечеткий алгоритм вывода,
 >   а здесь упоминался довольно четкий алгоритм по определению спам/неспам
 >   - поэтому о эвристике, помоему, здесь говорить трудно.

 Что это за терминология такая - "нечеткий алгоритм"? Это "дубли у нас
 простые".

 Под эвристикой в данном контексте подразумевается типичный для SA подход:

 1. человек (это важно!) смотрит набор спам-писем, и выдвигает гипотезу,
 скажем "если в письме есть <font color=0> - то это вероятно спам"

 2. далее эта гипотеза проверяется на большом объеме тестовой выборки.

 3. если гипотеза имеет "хороший" процент срабатываний - ей назначается
 вес, и она добавляется в правила.

 Порочность этого подхода достаточно очевидна: тестовая выборка отражает
 состояние данных по некоему историческому периоду, она прозрачна для
 спаммером (при появлении нового правила они быстро его обходят), плохая
 реактивность динамическу именения процента срабатываний. Грубо говоря,
 все правила надо постоянно валидировать на актуальность.

 >   Относительно исходных данных (!не алгоритма) -
 >   заключение спам/неспам только, и исключительно только, на основании
 >   лишь того что имеется в сообщении - это можно отнести к герменевтическим
 >   схемам.  Заключение же спам/неспам с привлечением еще доп.информации
 > связанной  с контекстом - это насколько я помню называлось эксегетическая
 > схема  заключения (или както похоже, могу ошибаться - давно уже должна была 
 > забыться подобная информация).

 Дихотомия герменевтическая/экзегетическая тут несколько не в тему,
 поскольку главный вопрос, насколько релеватны привлечённые внешние данные.

 Тут выносить суждение (выдвигать гипотезы) всё равно приходится человеку.

 К примеру, если скармливать на анализ не только тело письма, но и все
 предшествующие команды/ответы SMTP-сессии - это может улучшить
 распознавание спама.

 Добавлять же насколько далекие и косвенные данные, как ns-server домена
 отправителя - дело очень сомнительное именно в силу низкой корреляции и
 слабой релевантности (т.е. imho данные по ns-server'ам равносильны
 критерию "является ли третий октет ip-address'а четным"). Hа вход
 bayesian можно добавить и такие данные, главное не делать внешние
 данныхе материалом для эвристических правил.

 Более развернутое сравнение есть тут:
 http://dspam.nuclearelephant.com/faq.shtml#1.7

 >> Может, если вычислять по geoip место отправления письма, брать текущий
 >> прогноз погоды и скармливать SA среднюю температуру за неделю -
 >> результаты могут быть просто потрясяющими, возволяя вывести правило типа
 >> "его в регионе отправителя температура 18+-2 градуса (с учетом
 >> сезонности) - то это спамер".
 >>
 >    интересная аналогия :), но
 >   - если это даст постоянный исчезающе малый процент ложных срабатываний,
 >   почемубы тогда данный критерий и не использовать, какбы его там при этом и
 > не обозвали.

 Хм, я надеялся что эта аналогия покажет именно бредовость подхода к
 использованию таких правил.

 Остаётся лишь снова отослать к описанию dspam'а:
 http://dspam.nuclearelephant.com/resources.shtml

 -- 
 Sergey Skvortsov
 mailto: skv@protey.ru
 --- ifmail v.2.15dev5.3
  * Origin: Demos online service (2:5020/400)

Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор

Тема:	Автор:	Дата:
Re: bsdtar & symlinks	Auster	11 Aug 2006 16:00:16
Re: bsdtar & symlinks	Valentin Nechayev	12 Aug 2006 11:38:26
bsdtar & symlinks	Alex Mogilnikov	12 Aug 2006 15:14:01
Re: bsdtar & symlinks	Auster	12 Aug 2006 14:52:31
Re: bsdtar & symlinks	Sergey Skvortsov	12 Aug 2006 17:08:09
Re: bsdtar & symlinks	Auster	12 Aug 2006 17:38:45
Re: bsdtar & symlinks	Sergey Skvortsov	12 Aug 2006 17:59:50
Re: bsdtar & symlinks	Auster	12 Aug 2006 19:22:43
Re: bsdtar & symlinks	Sergey Skvortsov	13 Aug 2006 14:30:08
Re: bsdtar & symlinks	Auster	13 Aug 2006 16:01:53
Re: bsdtar & symlinks	Sergey Skvortsov	15 Aug 2006 17:56:25
Re: bsdtar & symlinks	Victor Sudakov	16 Aug 2006 05:58:00
Re: bsdtar & symlinks	Valentin Davydov	13 Aug 2006 17:22:43

Архивное /ru.unix.bsd/6577fb616b4d.html, оценка 2 из 5, голосов 10