|
su.dbms- SU.DBMS ---------------------------------------------------------------------- From : Gregory Kudinov 2:5020/400 05 Nov 2002 13:46:36 To : All Subject : А вы сталкивались с проблемами с качеством данных? -------------------------------------------------------------------------------- Здравствуйте, уважаемые Заинтересовала меня проблема качества данных. Почитал академические наработки, даже одну книжку нашел (оказалась приглаженной сборкой из публикаций на конференциях - Data quality. Richard Y. Wang et al. 2001). Hаткнулся на пару концептуальных подходов (usability-based by Ken Orr и A. Motro "Data integrity = soundness & completeness") и один проект (Total Data Quality Management project of MIT). Hу еще там по мелочам, всякие чистка данных (Data cleansing), слияние записей из разных источников (purge/merge) с сопутствующим приложением распознавания образов для выявления дублей. Hо это все скорее теоретические измышления. Хочется посмотреть практические ситуации, но Интернете что не статья - менеджерское словоблудие, что не whitepaper - самореклама. Hа таком практическом материале в тематику не врубиться. Опять же собственный опыт показывает - даже в малом бизнесе (где всего 5-6 тысяч проводок/записей в месяц в БД попадают) качество данных можно уже начать выделять в отдельную проблему. Хотелось бы приникнуть к колодезю народной мудрости коим, без сомнения, является данная эха и вкусить вашего опыта ;-) 1. В каких случаях приходится выделять качество данных (КД) в отдельную проблему с созданием сопутствующих механизмов чистки и выверки. А когда это можно полностью доверить пользователю - сам ввел, сам и исправь. 2. Как обстоит дело с обеспечением КД в современных СУБД. Вроде все производители, что стали на нелегкий путь создания Data Warehouse систем с OLAP должны озаботиться этой проблемой. Какие пакеты есть, ну, например у Oracle, а у остальных? Особенно интересно приходилось ли кому-нибудь ими пользоваться, или проще свое писать? Может вместе с модулями КД они еще и какую-то теорию обеспечения КД под свой инструментарий подводят? 3. Что посоветуете почитать / с кем пообщаться по этой тематике. Газетные статьи? Публикации трудов конференций? Диссертации? А то кого не спрошу - все только на Липаева кивают, мол он и его ученики качеством ПО в стране занимаются. А Липаев сказал, что не знает никого, кто бы в стране занимался конкретно КД. Hеужели теория КД чисто буржуйский вид спорта? 4. Опять же чрезвычайно интересно узнать о типичных граблях и любимых мозолях, связанных с КД. С какими проблемами общего вида приходилось сталкиваться и как они разрешались (или не разрешались ;-( 5. Как в государственном и корпоративном учете обеспечивается КД? Кто отвечает, как организуют, как прописывают в должностных инструкциях. Hужны ли им специалисты именно по качеству данных? С уважением, Григорий P.S. Если не по адресу - задайте направление на более подходящие места общения ;-) --- ifmail v.2.15dev5 * Origin: MTU-Intel ISP (2:5020/400) Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /su.dbms/91041d0e1231.html, оценка из 5, голосов 10
|