|
|
ru.algorithms- RU.ALGORITHMS ---------------------------------------------------------------- From : Alex Astafiev 2:5000/228.16 02 Oct 2001 18:44:33 To : Dmitry Kolvakh Subject : Фильтp для базаpа --------------------------------------------------------------------------------
AA>> Эта задача - типичная задача компьютерного интеллекта.
DK>
DK> А может с ней попpобовать в ru.ai пойти?
DK>
AA>> Без человека
AA>> полностью не решается. Самое лучшее решение - интерактивно, с
AA>> взаимодействием с оператором.
DK>
DK> Суть как pаз в том, что она должна pешаться _без_ опеpатоpа. Пусть
DK> pешается не на 100%, но опеpатоpа пpосто не существует в пpиpоде.
Ясно, вероятнее всего, ты что-то делаешь для интернет-сервера.
Я просто дал оценку алгоритму. Можно пытаться найти ПОЛHОЕ решение, но
трудозатраты будут огромные, тк.к я уже сказал, что задача типично из области
AI - алгоритмов. У таких задач всегда КАЖЕТСЯ что можно найти идеальное
решение, но на практике сделать это чрезвычайно трудно. Примеры - перевод
текста, распозн. речи, смысловой анализ текста. Данная задача попала в AI
портому что русский язык чрезвычайно богат и содержит при всем массу исключений
(неправильностей). С английским все куда проще.
Задача обнаружения таких слов должна быть реализована на основе словарей.
Словаря корней, словаря форм для того чтобы машина смогла бы сама составить
новый формы слов. Также должен быть словарь исключений.
Попутно, при работе программы она должна пополнять свои словари.
Вероятно, что словари должны содержать не слова, но "паттерны", т.е. в твоем
случае специфичные сочетания для русских матов.
Вмешательство человека необходимо для выправки неясностей. Когда программа
отловит неясности, то должен вмешаться человек для того чтобы указать что
дальше делать. То есть в простейшем случае, пока человек не вмешается,
программа должна пропускать слова. Так поступает, например, MSWord при проверке
орфографии.
Вероятно что наиболее просто реализовать такую программу-фильтр просто с одним
словарем "паттернов" и чтобы она при работе накапливала статистику, помещая в
базу данных все обработаные слова которых там еще нет.
Опять же, алгоритм можно здорово улучшить, если использовать алгоритмы
"нечеткого сравнения", ссылка на которые пролетала тут недавно.
P.S.
веселенькая же задачка предстоит при заполнении словаря паттернов.
я б позвал девочек и попросил помочь. :) :) :)
--- Alex Raider / Flash inc.
* Origin: Alex Raider/ Flash inc. 1992-2001 (2:5000/228.16)
Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.algorithms/174643bba1ed6.html, оценка из 5, голосов 10
|