Главная страница


ru.algorithms

 
 - RU.ALGORITHMS ----------------------------------------------------------------
 From : Alex Astafiev                        2:5000/228.16  03 Oct 2001  21:36:46
 To : Andrey Dudko
 Subject : Похожесть стpок
 -------------------------------------------------------------------------------- 
 
 
  AA>> Суть алгоритма заключается в том, чтобы подсчитать количество
  AA>> совпадающих последовательных букв в "сравниваемых" словах. Причем
  AA>> совпадающие буквы необязательно должны идти строго друг за
  AA>> другом. Слова с наибольшим количеством совпадающих букв и будут
  AA>> похожими. Кроме того, анализ производится не только с начала
  AA>> тестируемого слова но и может начинаться с других его позиций.
  AD>
  AD> А я делал немножко по-дpугому. Составил таблицу "стоимости" замены
  AD> каждой буквы на каждую букву, таблицы "стоимости" вставки буквы и
  AD> удаления буквы, пеpестановка двух любых соседних букв (задана одна на
  AD> всех), а также "стоимости" "сложных замен" (под сложными заменами я
  AD> подpазумевал замены последовательность <--> последовательность,
  AD> напpимеp, "сч" <--> "щ"). В пpинципе, все замены/удаления/вставки
  AD> можно считать частным случаем сложных замен, но так, имхо,
  AD> обpабатывать быстpее.
 Hу хорошо. Видимо, мне нужно написать крохотную научную работу в этой области.
 Жалко что мало времени. Это как раз то место, где работает математика.
 
 Когда я думал над алгоритмикой, то понял что реально эту задачу про похожесть
 слов можно математически свести к теории n-мерных пространств.
 
 Каждое слово будет вектором.
 Для оценки похожести слов, необходимо вычислить расстояние между векторами в
 пространстве.
 
 Основная задача - это векторизация слов, Т.е. размещение их в N-мерном
 пространстве.
 
 Простейшее пространство - одномерное. Более совершенно использовать
 пространства N-мерные, где слово обладает не одной "координатой" (аттрибутом,
 параметром) а несколькими.
 
 Задача векторизации может иметь самые разные решения, в частности, хорошо
 сделать пред-обработку, проводить фильтрацию.
 
 Задача пред-обработки, фильтрации состоит в устранении высокочастотного "шума"
 и нормализации данных.
 
 После всего этого нужно всего лишь найти расстояние между векторами. Все.
 
 -----
 
 Так вот, твоя "оценка стоимости" это и есть эмпирический перевод в одномерное
 пространство, где слова имеют всего одну координату - "стоимость".
 
 --- Alex Raider / Flash inc.
  * Origin: Alex Raider/ Flash inc. 1992-2001 (2:5000/228.16)
 
 

Вернуться к списку тем, сортированных по: возрастание даты  уменьшение даты  тема  автор 

 Тема:    Автор:    Дата:  
 Похожесть строк   Evgeniy Jirnov   21 Sep 2001 16:48:28 
 Похожесть строк   Mihail Vetchinoff   23 Sep 2001 02:32:29 
 Похожесть строк   Evgeniy Jirnov   27 Sep 2001 23:02:26 
 Re: Похожесть строк   Andrew V. Fionik   28 Sep 2001 22:32:08 
 Похожесть строк   Mihail Vetchinoff   30 Sep 2001 23:37:29 
 Похожесть стpок   Alex Derbeev   25 Sep 2001 11:42:00 
 Похожесть стpок   Alex Astafiev   27 Sep 2001 18:12:40 
 Re: Похожесть стpок   Andrew V. Fionik   30 Sep 2001 14:29:10 
 Похожесть стpок   Andrey Dudko   02 Oct 2001 00:30:11 
 Похожесть стpок   Alex Astafiev   03 Oct 2001 21:36:46 
 Похожесть стpок   George Shepelev   05 Oct 2001 22:35:04 
 Похожесть стpок   Alex Astafiev   07 Oct 2001 03:59:36 
 Re: Похожесть стpок   Serge Kanilo   07 Oct 2001 06:51:31 
 Похожесть стpок   Alex Astafiev   08 Oct 2001 21:01:00 
 Re: Похожесть стpок   Andrew Molotov   07 Oct 2001 08:00:28 
 Похожесть стpок   Dmitriy Litskalov   07 Oct 2001 21:14:48 
 Re: Похожесть стpок   Dmitry Stepanov   20 Oct 2001 23:29:20 
 Похожесть стpок   Igorek Filimonov   07 Oct 2001 06:34:09 
 time flies like arrows [Was: Похожесть стpок]   Yaroslav Mironov   08 Oct 2001 08:16:09 
 Re: time flies like arrows [Was: Похожесть стpок]   Borodin Anatoly   08 Oct 2001 18:31:13 
 Похожесть стpок   Andrew Simontsev   08 Oct 2001 18:44:04 
 Похожесть стpок   George Shepelev   08 Oct 2001 11:04:25 
 Похожесть стpок   Alex Astafiev   08 Oct 2001 21:01:43 
 Re: Похожесть стpок   Andrey Tarasevich   07 Oct 2001 22:33:56 
 Похожесть стpок   Andrey Dudko   07 Oct 2001 23:24:32 
 Похожесть стpок   George Shepelev   12 Oct 2001 14:35:18 
 Похожесть стpок   Andrey Dudko   15 Oct 2001 23:20:59 
 Похожесть стpок   George Shepelev   05 Oct 2001 22:25:07 
 Похожесть стpок   Andrey Dudko   07 Oct 2001 23:21:03 
 Похожесть стpок   George Shepelev   12 Oct 2001 14:32:00 
 Похожесть стpок   Andrey Dudko   15 Oct 2001 23:05:52 
 SoundEx   Roman Maltsev   05 Oct 2001 08:36:04 
 Re: SoundEx   Vadim Goncharov   10 Oct 2001 22:47:53 
 Re: Похожесть строк   Vladimir Chaplinskij   24 Nov 2001 04:47:12 
Архивное /ru.algorithms/174643bbb970c.html, оценка 1 из 5, голосов 10
Яндекс.Метрика
Valid HTML 4.01 Transitional