|
|
ru.linux- RU.LINUX --------------------------------------------------------------------- From : Alexei Ivanov 2:5020/400 25 Feb 2005 05:13:59 To : Kirill Frolov Subject : Re: search in pdf -------------------------------------------------------------------------------- Kirill Frolov wrote: > AI> Hужно устроить поиск данных в > AI> документах PDF. > AI> Какие для этого существуют возможности? > pdftotext из комплекта xpdf, ну и glimpse для индексации + руки. > Рук надо много. Такой вопрос. А под PHP вроде что-то было чтобы работать с PDF? > AI> Предполагается использовать mySQL, PHP, Apache > Это модно... Ещё модно mnogosearch, но результат для меня -- > отвратительный. Можно пару слов о нем. Т.е. поиск он вроде поиск, но что именно делает этот mnogosearch? > AI> Документ должен быть рассмотрен > AI> со структурной точки зрения. > AI> Name, Authors, Abstract, Paragraph Page?, Fig? etc > Фигвам. Еше раз. Сам документ PDF содержит разбиение на страницы параграфы и блоки или нет? Кто в курсе про сам формат. Я тут еще подумал. Поиск собственно вещь непонятная. Иначе пока не знаешь что ищешь облегчить задачу трудно. Тогда получается по логике необходимо строить базу функция mySQL) по ключевым словам, что задаются в поиске. Если слово новое, то хочешь не хочешь надо искать по всем файлам, ну или по тем, что указано. А если слово уже было раз в поиске, то можно просто посмотреть по базе где оно встречается. Таким образом по часто встречающимся словам поиск будет ускорен. Тогда при добавлении новых файлов необходимо по крону проверять их на наличие этих самых популярных слов. Если кто видит пробелемы или кривизну идеи можно прокомментировать. Вот тогда интересно этот многосерч тоже так делает или нет? -- Alexei --- ifmail v.2.15dev5.3 * Origin: Demos online service (2:5020/400) Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.linux/6577799e8bc2.html, оценка из 5, голосов 10
|