|
ru.website- RU.WEBSITE ------------------------------------------------------------------- From : Ilia Sprite 2:5080/112.7 07 Aug 2000 18:22:15 To : Vladimir Maslov Subject : поисковики. -------------------------------------------------------------------------------- [18:18] Здравствуйте. VM>>> Заодно и достоверность этого предположения получится. Если она VM> >>> =0.9, то уже можно рискнуть и поверить своему предположению. IS>> по корням определение однозначное. VM> Hе факт! Hе аргумент. VM> С какой радости? потому что так буковки расположены. вот вид маленьких букв 1251 и koi-8 с точки зрения 1251: === Hачало минного поля === 1251: абвгдежзийклмнопрстуфхцчшщьыъэюя koi8: БВЧЗДЕЦЪЙКЛМHОПРТУФХЖИГЮЫЭШЩЯЬАС === Конец минного поля === корни слов состоят из четырех-пяти символов. вероятность попадания минимальна. и никакая бHОПHЯ не пройдет. VM> Лень сейчас статистику наводить, но уверен, что найдётся пересечения. нихрена. если честно, я ночью именно этим и занимался (поэтому сейчас подтормаживаю). результаты мне понравились - из тех 700 корней, по четыре буквы каждый, которые я выбрал (не руками), не было ни одного пересечения в koi-8. проверялось на книгах Лукьяненко. ;-) я скриптом брал текст в dos-кодировке, конвертировал его в koi-8 и искал в нем корни, написанные в win. на пять мегабайт текста не было ни одного совпадения. VM> опять к статану... Hо теперь уже с доп. нагрузкой на сравнение длинных VM> токенов и с более взбаламошным распределением ввиду уменьшения поля VM> выборки, что только осложнит оценку, но ничуть не поможет. Так что это VM> _твой_ метод такой, как в первой строчке квотинга ;) не смешите мои тапки (с) мой метод проще тем, что я могу быть однозначно уверен в результате. статан будет сосать на коротких текстах, состоящих из пяти-десяти слов. более того, пусть этот метод и дольше работает, чем статистический анализ, мне не скорость важна. VM> Даже использовать его в качестве проверки посимвольного анализа - и VM> то бессмысленно. бессмысленно при однозначном совпадении корня рыпаться и делать анализ. VM> Как и всегда - чем больше выборка, тем точнее анализ, не всегда. (вот по этой фразе ты сможешь точный анализ сделать? только буква "е" два раза повторяется и все! а в кои-8 маленькой букве "е", набранной в win-кодировке, соответствует буква "Е". а кусок слова "всег" у меня в базе есть, и он определится как нефиг делать. в koi-8 "всег" выглядит как "ЧУЕЗ". Статанализ сосет, не правда ли?) VM> чем больше отличительных черт, тем точнее определение. вот это и является основным недостатком статистики. VM> PS Сразу почувствовал, что чем-то этот твой метод плох, но пришлось VM> подумать перед тем, как отвечать. мало подумал. повеселил. :) Tiddely pom... --- Security/Elf.Net Project : http://www.securityelf.net * Origin: VGA Planets BBS (2:5080/112.7) Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.website/3304398f01e5.html, оценка из 5, голосов 10
|