Главная страница


ru.cgi.perl

 
 - RU.CGI.PERL ------------------------------------------------------------------
 From : Artem Chuprina                       2:5020/400     05 Jan 2006  02:24:01
 To : Andrei Protasovitski
 Subject : Re: Обработка получаемого документа на лету .
 -------------------------------------------------------------------------------- 
 
 Andrei Protasovitski -> All  @ Wed, 04 Jan 2006 11:27:57 +0300:
 
  AP> Hужно скачать удаленный HTML-документ и обработать его. Сейчас использую 
  AP> LWP::UserAgent, а затем обрабатываю содержимое $response->content через 
  AP> HTML::TokeParser.
 
  AP> Проблема в том, что скачиваемый файл, как правило, довольно большой (от 
  AP> 200Kb), содержит очень много JavaScript, лишних тегов, вложенных таблиц 
  AP> и прочей дряни. Полезной информации там килобайт на 15-20. Его 
  AP> скачивание с последующей обработкой занимают от 0.5 до 3 минут.
 
  AP> HTML::TokeParser умеет работать с file handlers. Можно ли каким-либо 
  AP> образом из $response->content сделать file handler?
 
 Из content, скорее всего, уже нельзя, а вот документацию на $response
 (кто там, HTTP::Response?) стоит почитать на эту тему.  Hо должен
 заметить, что 200 K - это весьма немного.  Перл со всеми подгруженными
 для этой задачи модулями займет не меньше пяти мегабайт.  Да и судя по
 разбросу времени, тормоза в закачке (ну каких, спрашивается, ляпов можно
 насажать, чтобы от 30 секунд до 3 минут обрабатывать какие-то несчастные
 200 K?).  А выкачать все равно придется ответ целиком.  В общем, начни с
 профайлинга...
 
 -- 
 Artem Chuprina
 RFC2822: <ran{}ran.pp.ru> Jabber: ran@jabber.ran.pp.ru
 
 Делу время, потехе - деньги.
   Кнышев
 --- ifmail v.2.15dev5.3
  * Origin: Leninsky 45 home network (2:5020/400)
 
 

Вернуться к списку тем, сортированных по:

 Тема:    Автор:    Дата:  
 Re: Обработка получаемого документа на лету .   Artem Chuprina   05 Jan 2006 02:24:01 
Архивное /ru.cgi.perl/114779d0e4a55.html, оценка 1 из 5, голосов 10
Яндекс.Метрика
Valid HTML 4.01 Transitional