|
su.dbms- SU.DBMS ---------------------------------------------------------------------- From : Oleg Khrulev 2:5020/175.2 01 Apr 2003 12:49:21 To : All Subject : Разбор почтового адреса. -------------------------------------------------------------------------------- Hi All, Есть таблица примерно из 15 000 000 записей. В ней есть следующие столбцы: 1. Почтовый индекс. 2. Почтовый адрес. 3. ФИО. Основнаые проблемы: 1. Почтовый адрес не стуктуризирован и его формат не определен. 2. Любое из полей может иметь опечатки. Задача состоит в поиске максимального количества дублей (не обязательно всех). Желательно, чтобы программа была на PL/SQL. Вопросы: 1. Есть ли у кого-нибудь информация для решения этой задачи? 2. По каким критериям можно строить оценочную функцию для определения вероятности: являются ли две строки дублями? 3. Как минимизировать время обработки? 4. Есть ли смысл использовать хэш-функцию? Если да, то как обойти проблему опечаток? 5. Любые идеи, какие не жалко :) Oleg --- ifmail v.2.15dev5 * Origin: FidoNet Online - http://www.fido-online.com (2:5020/175.2) Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /su.dbms/3300a254a45b.html, оценка из 5, голосов 10
|