Главная страница


su.dbms

 
 - SU.DBMS ----------------------------------------------------------------------
 From : Oleg Khrulev                         2:5020/175.2   01 Apr 2003  12:49:21
 To : All
 Subject : Разбор почтового адреса.
 -------------------------------------------------------------------------------- 
 
 Hi All,
 
 Есть таблица примерно из 15 000 000 записей.
 
 В ней есть следующие столбцы:
 1. Почтовый индекс.
 2. Почтовый адрес.
 3. ФИО.
 
 Основнаые проблемы: 
 1. Почтовый адрес не стуктуризирован и его формат не определен.
 2. Любое из полей может иметь опечатки.
 
 Задача состоит в поиске максимального количества дублей (не обязательно всех).
 Желательно, чтобы программа была на PL/SQL.
 
 Вопросы:
 1. Есть ли у кого-нибудь информация для решения этой задачи?
 2. По каким критериям можно строить оценочную функцию для определения
 вероятности: являются ли две строки дублями?
 3. Как минимизировать время обработки?
 4. Есть ли смысл использовать хэш-функцию? Если да, то как обойти проблему
 опечаток?
 5. Любые идеи, какие не жалко :)
 
 Oleg
 
 --- ifmail v.2.15dev5
  * Origin: FidoNet Online - http://www.fido-online.com (2:5020/175.2)
 
 

Вернуться к списку тем, сортированных по: возрастание даты  уменьшение даты  тема  автор 

 Тема:    Автор:    Дата:  
 Разбор почтового адреса.   Oleg Khrulev   01 Apr 2003 12:49:21 
 Re: Разбор почтового адреса.   Gregory Kudinov   03 Apr 2003 22:37:38 
 Re: Разбор почтового адреса.   Oleg Khrulev   04 Apr 2003 11:09:16 
Архивное /su.dbms/3300a254a45b.html, оценка 3 из 5, голосов 10
Яндекс.Метрика
Valid HTML 4.01 Transitional