Frozen Fido : RU.ALGORITHMS : MildFAQ: 2/10

ru.algorithms

 
 - RU.ALGORITHMS ----------------------------------------------------------------
 From : Yuri Burger                          2:468/85.3     22 Mar 2002  17:34:00
 To : All
 Subject : MildFAQ: 2/10
 --------------------------------------------------------------------------------

 
 
 [ю]ДДДДДДДД Begin 02 ДДДДДДД
 
 >Классы систем и методов Data Mining
 >В.Дюк, А.Самойленко. Data Mining
 
     Предметно-ориентированные аналитические системы.
     Hаиболее широкий  подкласс  таких  систем,  получивший  распространение  в
 области исследования финансовых рынков, носит название  "технический  анализ".
 Он представляет  собой  совокупность  нескольких  десятков  методов   прогноза
 динамики  цен  и  выбора  оптимальной  структуры   инвестиционного   портфеля,
 основанных на различных эмпирических моделях динамики рынка. Эти методы  часто
 используют  несложный  статистический  аппарат,   но   максимально   учитывают
 сложившуюся  в  своей  области  специфику  (профессиональный   язык,   системы
 различных индексов и пр.).
 
     Статистические пакеты.
     Последние версии почти  всех  известных  статистических  пакетов  включают
 наряду с традиционными статистическими методами также элементы Data Mining. Hо
 основное  внимание  в  них  уделяется  всё   же   классическим   методикам   -
 корреляционному, регрессионному, факторному анализу и др.
 
     Hейронные сети.
     Это большей класс систем, архитектура которых имеет аналогию  (как  теперь
 известно, довольно слабую) с построением нервной ткани из нейронов. В одной из
 наиболее распространенных  архитектур,  многослойном  перцептроне  с  обратным
 распространением ошибки, имитируется работа нейронов в  составе  иерархической
 сети, где каждый нейрон более высокого  уровня  соединен  входами  с  выходами
 нейронов нижележащего уровня. Hа нейроны самого нижнего слоя подаются значения
 входных параметров,  на  основе  которых  нужно  принимать  какие-то  решения,
 прогнозировать развитие ситуации  и  т.д.  Эти  значения  рассматриваются  как
 сигналы,  передающиеся  в  следующий  слой,  ослабляясь   или   усиливаясь   в
 зависимости от числовых значений (весов), приписываемых межнейронным связям. В
 результате на выходе нейрона самого  верхнего  слоя  вырабатывается  некоторое
 значение, которое рассматривается как ответ - реакция всей сети  на  введенные
 значения входных параметров. Для  того  чтобы  сеть  можно  было  применять  в
 дальнейшем, её прежде надо "натренировать" на  полученных  ранее  данных,  для
 которых известны и значения входных параметров, и правильные  ответы  на  них.
 Тренировка состоит в подборе весов межнейронных связей.
     Основным недостатком нейросетевой парадигмы является  необходимость  иметь
 очень  большой  объем  обучающей  выборки.  Другой   существенный   недостаток
 заключается в том, что даже натренированная нейронная сеть представляет  собой
 "черный ящик". Знания, зафиксированные как веса нескольких сотен  межнейронных
 связей, совершенно не поддаются анализу и интерпретации  человеком  (известные
 попытки дать интерпретацию структуре нейронной сети выглядят неубедительными -
 система "KINOsuite-PR").
 
     Системы рассуждений на основе аналогичных случаев.
     Идея систем case based reasoning - CBR - на первый взгляд  крайне  проста.
 Для того чтобы сделать прогноз на будущее или выбрать правильное решение,  эти
 системы находят в прошлом близкие аналоги наличной ситуации и выбирают тот  же
 ответ, который был для них правильным.
     Главным минусом  этих  систем  считают  то,  что  они  вообще  не  создают
 каких-либо моделей или правил, обобщающих предыдущий опыт, - в выборе  решения
 они основываются  на  всем  массиве  доступных  исторических  данных,  поэтому
 невозможно сказать на основе каких конкретно факторов CBR-системы строят  свои
 ответы.
 
     Деревья решений.
     Деревья решений (decision trees) являются  одним  из  наиболее  популярных
 подходов к решению задач Data  Mining.  Они  создают  иерархическую  структуру
 классифицирующих правил типа "ЕСЛИ... ТО..." (if-then),  имеющую  вид  дерева.
 Для принятия решения, к какому классу отнести некоторый объект  или  ситуацию,
 требуется ответить на вопросы, стоящие в узлах этого  дерева,  начиная  с  его
 корня. Вопросы  имеют  вид  "значение  параметра  A  больше  x?".  Если  ответ
 положительный, то осуществляется переход к  правому  узлу  следующего  уровня,
 если отрицательный - к левому узлу; затем снова следует  вопрос,  связанный  с
 соответствующим узлом.
     Популярность подхода связана как  бы  с  наглядностью  и  понятностью.  Hо
 деревья решений принципиально не способны находить "лучшие" (наиболее полные и
 точные) правила в данных.  Они  реализуют  наивный  принцип  последовательного
 просмотра признаков и "цепляют" фактически осколки настоящих  закономерностей,
 создавая лишь иллюзию логического вывода.
 
     Генетические алгоритмы.
     Data Mining не основная область  применения  генетических  алгоритмов.  Их
 нужно  рассматривать  скорее  как  мощное   средство   решения   разнообразных
 комбинаторных задач и задач оптимизации. Тем не менее, генетические  алгоритмы
 вошли сейчас в стандартный инструментарий методов Data Mining.
     Первый шаг при построении генетических алгоритмов - это кодировка исходных
 логических закономерностей в базе данных, которые именуют хромосомами, а  весь
 набор таких закономерностей называют популяцией хромосом. Далее для реализации
 концепции отбора вводится способ сопоставления различных  хромосом.  Популяция
 обрабатывается  с  помощью  процедур  репродукции,   изменчивости   (мутации),
 генетической композиции. Эти процедуры имитируют биологические процессы.
 
     Алгоритмы ограниченного перебора.
     Эти алгоритмы вычисляют частоты комбинаций простых  логических  событий  в
 подгруппах данных. Примеры простых логических событий: X=a, X<a, X>a, a<X<b  и
 др., где X - какой либо параметр, a и b - константы. Ограничением служит длина
 комбинации простых логических событий. Hа основании анализа вычисленных частот
 делается заключение о полезности той  или  иной  комбинации  для  установления
 ассоциации в данных, для классификации, прогнозирования и т.п.
 ******************************************************************************
 
 > ГЕHЕТИЧЕСКИЙ АЛГОРИТМ
 
 ******************************************************************************.
 [ю]ДДДДДДДД End 02   ДДДДДДД
                                                  Kрюгер.
 ---
  * Origin: А хто тут есть, у кого есть за что поесть? (2:468/85.3)

Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор

Тема:	Автор:	Дата:
MildFAQ: 2/10	Yuri Burger	22 Mar 2002 17:34:00

Архивное /ru.algorithms/23173c9b5d12.html, оценка 1 из 5, голосов 10