|
|
ru.algorithms- RU.ALGORITHMS ---------------------------------------------------------------- From : Oleg I. Khovayko 2:5020/400 16 Mar 2002 01:30:44 To : Alexander V. Lushnikov Subject : Re: пpовеpка целостности текста --------------------------------------------------------------------------------
Hу первая мысль, которая в голову приходит - собирать
статистику биграмм.
Идея такая: есть текст типа "Alexander V. Lushnikov".
Он содержит биграммы: Al le ex xa an nd и т.д.
в реальном тексте многие биграммы не встречаются - например,
"шЫ". Я уж не говорю про комбинации управляющих символов
вперемешку с буквами...
Hесложно видеть, что 2-х байтовая биграмма занимает
16-и битовое слово. Это слово можно использовать в
качестве индекса в битовом массиве, в котором прописан
список разрешенных биграмм. Размер такого массива -
64kbit или 8 кбайт.
Дальше - бежишь по своему тексту, и подсчитываешь
запрещенные биграммы. Как только среднее расстояние
между запрещенными бограммами стало меньше какой-то
константы (порядка 8 символов) - значит, что-то тут не так...
--
#include <best/regards.hpp>
Oleg I. KHOVAYKO
(301)435-5885 || WEB: http://olegh.spedia.net
--- ifmail v.2.15dev5
* Origin: National Center for Biotechnology Information (2:5020/400)
Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.algorithms/1152222ec648b.html, оценка из 5, голосов 10
|