Главная страница


ru.unix.bsd

 
 - RU.UNIX.BSD ------------------------------------------------------------------
 From : Sergey Skvortsov                     2:5020/400     13 Aug 2006  14:30:08
 To : Auster
 Subject : Re: bsdtar & symlinks
 -------------------------------------------------------------------------------- 
 
 Auster wrote:
 
 > Sergey Skvortsov <skv@protey.ru> wrote:
 > 
 >>>>> смотрим теперь нп в статистику идущую с SA для URIBL_SBL рулесета
 >>>>> - 98.6% правильных срабатываний, 1.4% - ложных.
 >>>>> (можно конечно поперепроверять все рулесеты на обьеме своей почты,
 >>>>> но я почемуто склонен верить той что уже есть).
 >>>> Порочная логика, пример неверной экстраполяции. Такие "рулесеты" -
 >>>> типичная апофения.
 >>>> Все эвристические фильтры спама следует запретить.
 >>>>
 >>> здесь было дано только статистическое описание, а не эвристика.
 >> Это эвристика, поскольку к чистым входным данным (тело письма),
 >> добавляются косвенные данные (типа NS'ов). И это добавление "отравляет"
 >> данные, делая их попросту нерепрезентативными.
 >>
 >    ага, вот что здесь подразумевалось под эвристикой.
 >   помоему говорить о эвристике стоилобы если бы был нечеткий алгоритм вывода,
 >   а здесь упоминался довольно четкий алгоритм по определению спам/неспам
 >   - поэтому о эвристике, помоему, здесь говорить трудно.
 
 Что это за терминология такая - "нечеткий алгоритм"? Это "дубли у нас
 простые".
 
 Под эвристикой в данном контексте подразумевается типичный для SA подход:
 
 1. человек (это важно!) смотрит набор спам-писем, и выдвигает гипотезу,
 скажем "если в письме есть <font color=0> - то это вероятно спам"
 
 2. далее эта гипотеза проверяется на большом объеме тестовой выборки.
 
 3. если гипотеза имеет "хороший" процент срабатываний - ей назначается
 вес, и она добавляется в правила.
 
 Порочность этого подхода достаточно очевидна: тестовая выборка отражает
 состояние данных по некоему историческому периоду, она прозрачна для
 спаммером (при появлении нового правила они быстро его обходят), плохая
 реактивность динамическу именения процента срабатываний. Грубо говоря,
 все правила надо постоянно валидировать на актуальность.
 
 >   Относительно исходных данных (!не алгоритма) -
 >   заключение спам/неспам только, и исключительно только, на основании
 >   лишь того что имеется в сообщении - это можно отнести к герменевтическим
 >   схемам.  Заключение же спам/неспам с привлечением еще доп.информации
 > связанной  с контекстом - это насколько я помню называлось эксегетическая
 > схема  заключения (или както похоже, могу ошибаться - давно уже должна была 
 > забыться подобная информация).
 
 Дихотомия герменевтическая/экзегетическая тут несколько не в тему,
 поскольку главный вопрос, насколько релеватны привлечённые внешние данные.
 
 Тут выносить суждение (выдвигать гипотезы) всё равно приходится человеку.
 
 К примеру, если скармливать на анализ не только тело письма, но и все
 предшествующие команды/ответы SMTP-сессии - это может улучшить
 распознавание спама.
 
 Добавлять же насколько далекие и косвенные данные, как ns-server домена
 отправителя - дело очень сомнительное именно в силу низкой корреляции и
 слабой релевантности (т.е. imho данные по ns-server'ам равносильны
 критерию "является ли третий октет ip-address'а четным"). Hа вход
 bayesian можно добавить и такие данные, главное не делать внешние
 данныхе материалом для эвристических правил.
 
 Более развернутое сравнение есть тут:
 http://dspam.nuclearelephant.com/faq.shtml#1.7
 
 >> Может, если вычислять по geoip место отправления письма, брать текущий
 >> прогноз погоды и скармливать SA среднюю температуру за неделю -
 >> результаты могут быть просто потрясяющими, возволяя вывести правило типа
 >> "его в регионе отправителя температура 18+-2 градуса (с учетом
 >> сезонности) - то это спамер".
 >>
 >    интересная аналогия :), но
 >   - если это даст постоянный исчезающе малый процент ложных срабатываний,
 >   почемубы тогда данный критерий и не использовать, какбы его там при этом и
 > не обозвали.
 
 Хм, я надеялся что эта аналогия покажет именно бредовость подхода к
 использованию таких правил.
 
 Остаётся лишь снова отослать к описанию dspam'а:
 http://dspam.nuclearelephant.com/resources.shtml
 
 -- 
 Sergey Skvortsov
 mailto: skv@protey.ru
 --- ifmail v.2.15dev5.3
  * Origin: Demos online service (2:5020/400)
 
 

Вернуться к списку тем, сортированных по: возрастание даты  уменьшение даты  тема  автор 

 Тема:    Автор:    Дата:  
 Re: bsdtar & symlinks   Auster   11 Aug 2006 16:00:16 
 Re: bsdtar & symlinks   Valentin Nechayev   12 Aug 2006 11:38:26 
 bsdtar & symlinks   Alex Mogilnikov   12 Aug 2006 15:14:01 
 Re: bsdtar & symlinks   Auster   12 Aug 2006 14:52:31 
 Re: bsdtar & symlinks   Sergey Skvortsov   12 Aug 2006 17:08:09 
 Re: bsdtar & symlinks   Auster   12 Aug 2006 17:38:45 
 Re: bsdtar & symlinks   Sergey Skvortsov   12 Aug 2006 17:59:50 
 Re: bsdtar & symlinks   Auster   12 Aug 2006 19:22:43 
 Re: bsdtar & symlinks   Sergey Skvortsov   13 Aug 2006 14:30:08 
 Re: bsdtar & symlinks   Auster   13 Aug 2006 16:01:53 
 Re: bsdtar & symlinks   Sergey Skvortsov   15 Aug 2006 17:56:25 
 Re: bsdtar & symlinks   Victor Sudakov   16 Aug 2006 05:58:00 
 Re: bsdtar & symlinks   Valentin Davydov   13 Aug 2006 17:22:43 
Архивное /ru.unix.bsd/6577fb616b4d.html, оценка 2 из 5, голосов 10
Яндекс.Метрика
Valid HTML 4.01 Transitional