Главная страница


ru.algorithms

 
 - RU.ALGORITHMS ----------------------------------------------------------------
 From : Oleg Khrulev                         2:5020/175.2   01 Apr 2003  12:45:13
 To : All
 Subject : Разбор почтового адреса.
 -------------------------------------------------------------------------------- 
 
 Hi All,
 
 Есть таблица примерно из 15 000 000 записей.
 
 В ней есть следующие столбцы:
 1. Почтовый индекс.
 2. Почтовый адрес.
 3. ФИО.
 
 Основнаые проблемы: 
 1. Почтовый адрес не стуктуризирован и его формат не определен.
 2. Любое из полей может иметь опечатки.
 
 Задача состоит в поиске максимального количества дублей (не обязательно всех).
 Желательно, чтобы программа была на PL/SQL.
 
 Вопросы:
 1. Есть ли у кого-нибудь информация для решения этой задачи?
 2. По каким критериям можно строить оценочную функцию для определения
 вероятности: являются ли две строки дублями?
 3. Как минимизировать время обработки?
 4. Есть ли смысл использовать хэш-функцию? Если да, то как обойти проблему
 опечаток?
 5. Любые идеи, какие не жалко :)
 
 Oleg
 
 --- ifmail v.2.15dev5
  * Origin: FidoNet Online - http://www.fido-online.com (2:5020/175.2)
 
 

Вернуться к списку тем, сортированных по: возрастание даты  уменьшение даты  тема  автор 

 Тема:    Автор:    Дата:  
 Разбор почтового адреса.   Oleg Khrulev   01 Apr 2003 12:45:13 
 Re: Разбор почтового адреса.   Sergey Gazizyanov   01 Apr 2003 17:09:15 
 Re: Разбор почтового адреса.   Oleg Khrulev   07 Apr 2003 15:11:10 
 Разбор почтового адреса.   Alex Astafiev   08 Apr 2003 01:35:18 
 Разбор почтового адреса.   Zahar Kiselev   13 Apr 2003 18:39:54 
 Re: Разбор почтового адреса.   Roman A. Kirillov aka Sigizmund   13 Apr 2003 21:50:10 
 Разбор почтового адреса.   Oleg Khrulev   30 Apr 2003 17:28:25 
Архивное /ru.algorithms/3300a2546657.html, оценка 3 из 5, голосов 10
Яндекс.Метрика
Valid HTML 4.01 Transitional