Frozen Fido : RU.ALGORITHMS : Re: Разбор почтового адреса.

ru.algorithms

 
 - RU.ALGORITHMS ----------------------------------------------------------------
 From : Sergey Gazizyanov                    2:5004/16.58   01 Apr 2003  17:09:15
 To : Oleg Khrulev
 Subject : Re: Разбор почтового адреса.
 --------------------------------------------------------------------------------

                            Hello Oleg!
 
 01 Apr 03,12:45, Oleg Khrulev wrote to All
           Subject: Разбор почтового адреса.
 
  OK> Есть таблица примерно из 15 000 000 записей.
 
  OK> Задача состоит в поиске максимального количества дублей (не
  OK> обязательно всех). Желательно, чтобы программа была на PL/SQL.
 
 Понятно, что в таком случае 100%-правильный алгоритм это ручная обработка, все
 остальные решения будет находить не все дубли.
 
 Для начала нужно определиться, какие две записи являются дубликатами. Затем
 пишешь функцию compare, которая имеет в аругментах две строки, а возвращает
 процент совпадения.
 
 Т.к. логика сравнения нечеткая, то все-таки придется сравнивать записи каждую с
 каждой по вот такому алгоритму:
  for (i=0; i<15e6; i++)
   for (j=i; j<15e6; j++)
   {
     if (compare()>Koeff) {... найден дубликат..}
   }
 
 Koeff - это коэффициент доверия. Обычно он подбирается опытным путем и может
 лежать в диапазоне 0.7 - 0.95
 Еще этот коэфф доверия будет различен для строк разной длины.
 
 Это все что касается сравнения структурированных данных (ФИО).
 
 Hеструктурированный почтовый адрес я советую обработать отдельно и разбить его
 на логически-правильные части - страна,индекс,город,улица,дом,квартира - это
 несложно, тем более что классификаторы "индекс-улица", перечень городов и стран
 достать легко.
                                         WBR, SG aka -=DarkLord=-
 ... http://www.prado.ru ...
 --- GoldEd+ 1.1.1.2  [E-mail: rex@echo.ru]  [ICQ: 455052]
  * Origin: Hет такого дракона, который был бы неуязвим. (2:5004/16.58)

Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор

Тема:	Автор:	Дата:
Разбор почтового адреса.	Oleg Khrulev	01 Apr 2003 12:45:13
Re: Разбор почтового адреса.	Sergey Gazizyanov	01 Apr 2003 17:09:15
Re: Разбор почтового адреса.	Oleg Khrulev	07 Apr 2003 15:11:10
Разбор почтового адреса.	Alex Astafiev	08 Apr 2003 01:35:18
Разбор почтового адреса.	Zahar Kiselev	13 Apr 2003 18:39:54
Re: Разбор почтового адреса.	Roman A. Kirillov aka Sigizmund	13 Apr 2003 21:50:10
Разбор почтового адреса.	Oleg Khrulev	30 Apr 2003 17:28:25

Архивное /ru.algorithms/33773e89cbaf.html, оценка 1 из 5, голосов 10