|
|
ru.website- RU.WEBSITE ------------------------------------------------------------------- From : Vladimir Maslov 2:5093/51.16 07 Aug 2000 08:42:09 To : Ilia Sprite Subject : поисковики. -------------------------------------------------------------------------------- 19:29 [Воскресенье Август 06 2000], Ilia Sprite -} Vladimir Maslov: IS> блюеее. VM>> Заодно и достоверность этого предположения получится. Если она VM> >> =0.9, то уже можно рискнуть и поверить своему предположению. IS> по корням определение однозначное. Hе факт! С какой радости? Лень сейчас статистику наводить, но уверен, что найдётся пересечения. Причём, чем больше токенов - тем больше шансов на _однозначное_ пересечение. HINT: тут проще всего оценивать вероятность противоположного события - отсутствия однозначного пересечения хотя бы в одном случае на выборке. Обнаружится, что эта вероятность ассимптотически стремиться к нулю прямопропорционально субфакториалу количества токенов и обратнопропорционально количеству пересечений в наборе токенов. Т.е. чем больше токенов - тем шустрее =) А уменьшать количество токенов - тоже не катит, ибо можешь налететь на необнаружение токенов вообще (в анализируемом документе)... Так что количество пересечений ("веса") тоже надо учитывать. Вернулись опять к статану... Hо теперь уже с доп. нагрузкой на сравнение длинных токенов и с более взбаламошным распределением ввиду уменьшения поля выборки, что только осложнит оценку, но ничуть не поможет. Так что это _твой_ метод такой, как в первой строчке квотинга ;) Даже использовать его в качестве проверки посимвольного анализа - и то бессмысленно. Как и всегда - чем больше выборка, тем точнее анализ, чем больше отличительных черт, тем точнее определение. Так что - токены надо уменьшать до минимума - до самого малого возможного элемента - до символа. Правда, выделять вторую половину таблицы нет смысла - теоретически должно немного помочь, но затраты на эту операцию сделают саму такую операцию (отброс символов первой половины таблицы) слишком дорогим удовольствием. А твой метод только подтвердит данные посимвольного анализа. Так шта... PS Сразу почувствовал, что чем-то этот твой метод плох, но пришлось подумать перед тем, как отвечать. И писал эту чушь Вовка... И не всегда в кнопки он попадал... :( --- <META HTTP-EQUIV="Refresh" CONTENT="0; URL=cew1_5iTe.PDF"> наш ответ * Origin: rfc рулит (2:5093/51.16) Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.website/3334398e7c68.html, оценка из 5, голосов 10
|