|
|
ru.linux- RU.LINUX --------------------------------------------------------------------- From : Kirill Frolov 2:5030/827.2 06 Jan 2003 23:52:14 To : All Subject : indexing and search tool -------------------------------------------------------------------------------- 05 Jan 03 13:57, Kirill Frolov wrote to All: KF> Хочу проиндексировать свои файлы (текстовые) для быстрого поиска. KF> Мне не нужен Web-поисковик! Попробовал 'mg'. Тоже не работает с KF> русскими буквами. Прямо-таки анти-русский заговор какой-то, KF> Может можно как-нибудь mnogosearch приспособить? Hельзя. Контекст не показывает -- это самое плохое. Hаходит много, всё лишнее, толку мало. Человеческого интерфейса (как у grep) нет. Hа ~100Mb входных данных (из них ещё минимум четверть не индексируется) строит 60Мб индексов (crc-multi, builtin database). Среднее время поиска 5-10 секунд на слово (очень примерно), время напрямую зависит от количества запрашиваемых слов. Оказывается в crc-mode не ищет подстроку, видел как оно хранит в single mode -- 99Мб (single-mode, builtin database) перелопачивать линейным поиском это, блин, я просто офигеваю, дорогая редакция... по минуте ищет... 100%цпу загрузки... Полный поиск grep'ом по всей коллекции файлов (исходные ~100Мб) занимает меньше 30-и секунд и единицы процентов загрузки цпу. Mnogosearch можно переименовывать в dolgosearch и выкинуть нафиг, вопрос остаётся актуальным. Смотрел внутрь 'mg', про локаль оно не знает, русские буквы за isalpha не считает и поэтому ругается. Интересно, реально-ли это пофиксить, или там ещё всяких граблей немеряно может быть? :-/ --- [ZX] * Origin: Дед Мороз must die! [ICQ:#148761304] (2:5030/827.2) Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.linux/33313e19f19a.html, оценка из 5, голосов 10
|