|
|
ru.algorithms- RU.ALGORITHMS ---------------------------------------------------------------- From : Alexander Chelmodeev 2:5062/17.5 16 Dec 2002 15:11:20 To : Dony Ashirmatov Subject : Поиск ошибочных данных -------------------------------------------------------------------------------- 15 Дек 2002 Вс в 20:44 : Dony Ashirmatov --> Dzurilo Dmitry: DA>>> напpимеp, пpавильная запись DA>>> иванов иван иванович DA>>> надо выявить не пpавильные записи в БД DA>>> ивонов иван иванович 18011976 DA>>> ииванов иван иванович 18011976 DA>>> тванов иван иванович 18011976 DA>>> ионов иван иванович 18011976 DD>> Алгоpитм может быть только веpоятностным. Или статистическим. DA> Все, правильно, необходимо этих людей СГРУППИРОВАТЬ DA> и показать пользователю, а пользователь сам решит DA> что делать с этими записями. Я что-то не пойму: у тебя в записях - уникальный код, или это дата рождения? По этому полю и выбирай. Другой способ - делать выборки по уникальным значениям полей и их комбинациям и даже подстрокам. Если уж решение будет принимать оператор, то, например, выбрать всех Ивановичей, родившихся в мае, и пусть анализирует - ху из ху. Можно построить частотный список имён, отчеств и фамилий и пробежаться по редким именам,... DA> Уточняю. DA> Существует БД людей где есть ФИО и дата рождения DA> необходимо почистить эту базу, чистить БД будет DA> пользователь т.е. ЧЕЛОВЕК, потому что программа DA> это не сделает. Лучше начинать с дат рождения, т.к. они лучше верифицируются с помощью интервала возможных дат. Сколько я не встречал подобных баз - даты рождения наших современников попадали в интервал от начала нашей эры до 9999 года. То бишь - фантастика, а не база достоверной информации. При вводе ФИО, если нормальный контроль ввода не предусмотрен, частая ошибка ввода - замена кириллицы на похожие латинские символы. И ещё вариант - ввод начинают с пробела - возникают проблемы при сортировке. ... http://ichip.rbcmail.ru ... mailto: ichip(a)rbcmail.ru --- GoldED+/386 1.1.5-20010807 rev.0813 (MS-DOS 7.10 pc) * Chip&Deal * * Origin: В жизни всякoе бывaет, нo с гoдaми всё pеже. (2:5062/17.5) Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.algorithms/147063dfde48e.html, оценка из 5, голосов 10
|