|
|
ru.perl- RU.PERL ---------------------------------------------------------------------- From : Mikhail Polykovsky 2:5020/400 09 Jun 2004 11:24:44 To : Andrew Alakozow Subject : Re[2]: Хэш? -------------------------------------------------------------------------------- MP>> У меня есть ~8 млн. уникальных строк (20 символов). Hекоторые MP>> дублируются. Обработка идет посторочно. Мне нужно знать, обрабатывал я MP>> такую строку уже, или нет. Я пробовал BerkleyDB (tie( %str, MP>> "DB_File", $filename)), очень долго. MySQL с одним полем и индексом по MP>> нему быстрее, но тоже медленно (правда я делал не select, а пытался MP>> insert, если не получалось, складывал в таблицу дублирующих). MP>> Простой хеш не помещается в памяти. Что посоветуете? AA> http://www.perl.com/pub/a/2004/04/08/bloom_filters.html Это конечно здорово, но вероятность ошибки, хоть и маленькая, меня нисколько не радует. -- Михаил Полыковский http://copi.ru/27690/ Отправлено через сервер Форумы@mail.ru - http://talk.mail.ru --- ifmail v.2.15dev5.3 * Origin: UTC (2:5020/400) Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.perl/909657b6e8b7.html, оценка из 5, голосов 10
|