Главная страница


ru.cgi.perl

 
 - RU.CGI.PERL ------------------------------------------------------------------
 From : Andrei Protasovitski                 2:450/186      04 Jan 2006  12:27:57
 To : All
 Subject : Обработка получаемого документа на лету .
 -------------------------------------------------------------------------------- 
 
 Доброго здоровья!
 
 Hужно скачать удаленный HTML-документ и обработать его. Сейчас использую 
 LWP::UserAgent, а затем обрабатываю содержимое $response->content через 
 HTML::TokeParser.
 
 Проблема в том, что скачиваемый файл, как правило, довольно большой (от 
 200Kb), содержит очень много JavaScript, лишних тегов, вложенных таблиц 
 и прочей дряни. Полезной информации там килобайт на 15-20. Его 
 скачивание с последующей обработкой занимают от 0.5 до 3 минут.
 
 HTML::TokeParser умеет работать с file handlers. Можно ли каким-либо 
 образом из $response->content сделать file handler?
 
 P.S. Hе промахнулся ли я эхой?
 P.S. II С наступившим!
 P.S. III С наступающим! (2007-м ;) )
 
 -- 
 Andrei Protasovitski              mailto:andrei()siliconmaterials.com
 http://www.siliconmaterials.com/  ICQ: 75725244
 Pinsk, Belarus
 --- Mozilla Thunderbird 1.0.7 (Windows/20050923)
  * Origin: -= http://fido.ext.by (sponsored by http://extmedia.com) (2:450/186)
 
 

Вернуться к списку тем, сортированных по:

 Тема:    Автор:    Дата:  
 Обработка получаемого документа на лету .   Andrei Protasovitski   04 Jan 2006 12:27:57 
Архивное /ru.cgi.perl/700327950dc43.html, оценка 1 из 5, голосов 10
Яндекс.Метрика
Valid HTML 4.01 Transitional