|
ru.cgi.perl- RU.CGI.PERL ------------------------------------------------------------------ From : Artem Chuprina 2:5020/400 05 Jan 2006 02:24:01 To : Andrei Protasovitski Subject : Re: Обработка получаемого документа на лету . -------------------------------------------------------------------------------- Andrei Protasovitski -> All @ Wed, 04 Jan 2006 11:27:57 +0300: AP> Hужно скачать удаленный HTML-документ и обработать его. Сейчас использую AP> LWP::UserAgent, а затем обрабатываю содержимое $response->content через AP> HTML::TokeParser. AP> Проблема в том, что скачиваемый файл, как правило, довольно большой (от AP> 200Kb), содержит очень много JavaScript, лишних тегов, вложенных таблиц AP> и прочей дряни. Полезной информации там килобайт на 15-20. Его AP> скачивание с последующей обработкой занимают от 0.5 до 3 минут. AP> HTML::TokeParser умеет работать с file handlers. Можно ли каким-либо AP> образом из $response->content сделать file handler? Из content, скорее всего, уже нельзя, а вот документацию на $response (кто там, HTTP::Response?) стоит почитать на эту тему. Hо должен заметить, что 200 K - это весьма немного. Перл со всеми подгруженными для этой задачи модулями займет не меньше пяти мегабайт. Да и судя по разбросу времени, тормоза в закачке (ну каких, спрашивается, ляпов можно насажать, чтобы от 30 секунд до 3 минут обрабатывать какие-то несчастные 200 K?). А выкачать все равно придется ответ целиком. В общем, начни с профайлинга... -- Artem Chuprina RFC2822: <ran{}ran.pp.ru> Jabber: ran@jabber.ran.pp.ru Делу время, потехе - деньги. Кнышев --- ifmail v.2.15dev5.3 * Origin: Leninsky 45 home network (2:5020/400) Вернуться к списку тем, сортированных по:
Архивное /ru.cgi.perl/114779d0e4a55.html, оценка из 5, голосов 10
|