Frozen Fido : RU.ALGORITHMS : Похожесть стpок

ru.algorithms

 
 - RU.ALGORITHMS ----------------------------------------------------------------
 From : Alex Astafiev                        2:5000/228.16  03 Oct 2001  21:36:46
 To : Andrey Dudko
 Subject : Похожесть стpок
 --------------------------------------------------------------------------------

 
  AA>> Суть алгоритма заключается в том, чтобы подсчитать количество
  AA>> совпадающих последовательных букв в "сравниваемых" словах. Причем
  AA>> совпадающие буквы необязательно должны идти строго друг за
  AA>> другом. Слова с наибольшим количеством совпадающих букв и будут
  AA>> похожими. Кроме того, анализ производится не только с начала
  AA>> тестируемого слова но и может начинаться с других его позиций.
  AD>
  AD> А я делал немножко по-дpугому. Составил таблицу "стоимости" замены
  AD> каждой буквы на каждую букву, таблицы "стоимости" вставки буквы и
  AD> удаления буквы, пеpестановка двух любых соседних букв (задана одна на
  AD> всех), а также "стоимости" "сложных замен" (под сложными заменами я
  AD> подpазумевал замены последовательность <--> последовательность,
  AD> напpимеp, "сч" <--> "щ"). В пpинципе, все замены/удаления/вставки
  AD> можно считать частным случаем сложных замен, но так, имхо,
  AD> обpабатывать быстpее.
 Hу хорошо. Видимо, мне нужно написать крохотную научную работу в этой области.
 Жалко что мало времени. Это как раз то место, где работает математика.
 
 Когда я думал над алгоритмикой, то понял что реально эту задачу про похожесть
 слов можно математически свести к теории n-мерных пространств.
 
 Каждое слово будет вектором.
 Для оценки похожести слов, необходимо вычислить расстояние между векторами в
 пространстве.
 
 Основная задача - это векторизация слов, Т.е. размещение их в N-мерном
 пространстве.
 
 Простейшее пространство - одномерное. Более совершенно использовать
 пространства N-мерные, где слово обладает не одной "координатой" (аттрибутом,
 параметром) а несколькими.
 
 Задача векторизации может иметь самые разные решения, в частности, хорошо
 сделать пред-обработку, проводить фильтрацию.
 
 Задача пред-обработки, фильтрации состоит в устранении высокочастотного "шума"
 и нормализации данных.
 
 После всего этого нужно всего лишь найти расстояние между векторами. Все.
 
 -----
 
 Так вот, твоя "оценка стоимости" это и есть эмпирический перевод в одномерное
 пространство, где слова имеют всего одну координату - "стоимость".
 
 --- Alex Raider / Flash inc.
  * Origin: Alex Raider/ Flash inc. 1992-2001 (2:5000/228.16)

Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор

Тема:	Автор:	Дата:
Похожесть строк	Evgeniy Jirnov	21 Sep 2001 16:48:28
Похожесть строк	Mihail Vetchinoff	23 Sep 2001 02:32:29
Похожесть строк	Evgeniy Jirnov	27 Sep 2001 23:02:26
Re: Похожесть строк	Andrew V. Fionik	28 Sep 2001 22:32:08
Похожесть строк	Mihail Vetchinoff	30 Sep 2001 23:37:29
Похожесть стpок	Alex Derbeev	25 Sep 2001 11:42:00
Похожесть стpок	Alex Astafiev	27 Sep 2001 18:12:40
Re: Похожесть стpок	Andrew V. Fionik	30 Sep 2001 14:29:10
Похожесть стpок	Andrey Dudko	02 Oct 2001 00:30:11
Похожесть стpок	Alex Astafiev	03 Oct 2001 21:36:46
Похожесть стpок	George Shepelev	05 Oct 2001 22:35:04
Похожесть стpок	Alex Astafiev	07 Oct 2001 03:59:36
Re: Похожесть стpок	Serge Kanilo	07 Oct 2001 06:51:31
Похожесть стpок	Alex Astafiev	08 Oct 2001 21:01:00
Re: Похожесть стpок	Andrew Molotov	07 Oct 2001 08:00:28
Похожесть стpок	Dmitriy Litskalov	07 Oct 2001 21:14:48
Re: Похожесть стpок	Dmitry Stepanov	20 Oct 2001 23:29:20
Похожесть стpок	Igorek Filimonov	07 Oct 2001 06:34:09
time flies like arrows [Was: Похожесть стpок]	Yaroslav Mironov	08 Oct 2001 08:16:09
Re: time flies like arrows [Was: Похожесть стpок]	Borodin Anatoly	08 Oct 2001 18:31:13
Похожесть стpок	Andrew Simontsev	08 Oct 2001 18:44:04
Похожесть стpок	George Shepelev	08 Oct 2001 11:04:25
Похожесть стpок	Alex Astafiev	08 Oct 2001 21:01:43
Re: Похожесть стpок	Andrey Tarasevich	07 Oct 2001 22:33:56
Похожесть стpок	Andrey Dudko	07 Oct 2001 23:24:32
Похожесть стpок	George Shepelev	12 Oct 2001 14:35:18
Похожесть стpок	Andrey Dudko	15 Oct 2001 23:20:59
Похожесть стpок	George Shepelev	05 Oct 2001 22:25:07
Похожесть стpок	Andrey Dudko	07 Oct 2001 23:21:03
Похожесть стpок	George Shepelev	12 Oct 2001 14:32:00
Похожесть стpок	Andrey Dudko	15 Oct 2001 23:05:52
SoundEx	Roman Maltsev	05 Oct 2001 08:36:04
Re: SoundEx	Vadim Goncharov	10 Oct 2001 22:47:53
Re: Похожесть строк	Vladimir Chaplinskij	24 Nov 2001 04:47:12

Архивное /ru.algorithms/174643bbb970c.html, оценка 1 из 5, голосов 10