Главная страница


ru.perl

 
 - RU.PERL ----------------------------------------------------------------------
 From : Andrei Protasovitski                 2:450/186      26 Jan 2007  18:10:42
 To : 
 Subject : Re: HTML parsing
 -------------------------------------------------------------------------------- 
 
 Доброго здоровья!
 
 Slawa Olhovchenkov пишет:
 
 > А чем лучше парсить HTML?
 > 
 > Hу т.е. есть типа страничка, надо из опредеоенного места выдернуть текст, из
 > еше пары мест -- ссылки при наличии. Hасколько места определенны -- сразу не
 > понятно, т.е. средство для разбора должно быть пригодно для исследования
 > структуры страницы на предмет определения признаков мест расположения нужного 
 > контента.
 
 Зависит от этих самых мест. Если страница имеет жесткую структуру, то 
 можно использовать что-нибудь наподобие HTML::TreeBuilder. Если же она 
 постоянно меняется в зависимости от капризов мизинца левой ноги 
 индийского дотнэтчега, то HTML::TokeParser. В терминах XML первый способ 
 - это DOM, второй - SAX.
 
 Второй более универсальный и менее ресурсоемкий. Хотя при этом он 
 медленнее первого и более сложный.
 
 -- 
 Andrei Protasovitski
 mailto: andrei.protasovitski()gmail.com
     ICQ: 75725244
     AIM: protasovitski
     MSN: protasonic@hotmail.com
 Jabber: AS_Pushkin@mova.org
 --- Mozilla/5.0 (X11; U; Linux i686; ru-RU; rv:1.8.1.2pre) Gecko/20070111
 SeaMonkey/1.1
  * Origin: -= http://fido.ext.by (sponsored by http://extmedia.com) (2:450/186)
 
 

Вернуться к списку тем, сортированных по: возрастание даты  уменьшение даты  тема  автор 

 Тема:    Автор:    Дата:  
 HTML parsing   Slawa Olhovchenkov   26 Jan 2007 17:59:34 
 HTML parsing   Ivan Frolkov   26 Jan 2007 18:47:28 
 HTML parsing   Slawa Olhovchenkov   26 Jan 2007 18:55:00 
 Re: HTML parsing   Andrei Protasovitski   26 Jan 2007 18:13:08 
 HTML parsing   Slawa Olhovchenkov   26 Jan 2007 19:19:12 
 HTML parsing   Ivan Frolkov   26 Jan 2007 19:26:57 
 HTML parsing   Slawa Olhovchenkov   26 Jan 2007 19:28:42 
 Re: HTML parsing   Andrei Protasovitski   26 Jan 2007 19:34:20 
 HTML parsing   Slawa Olhovchenkov   26 Jan 2007 20:49:52 
 HTML parsing   Ivan Frolkov   27 Jan 2007 01:21:29 
 HTML parsing   Slawa Olhovchenkov   27 Jan 2007 01:38:14 
 HTML parsing   Ivan Frolkov   27 Jan 2007 01:43:04 
 HTML parsing   Slawa Olhovchenkov   27 Jan 2007 02:36:58 
 HTML parsing   Ivan Frolkov   27 Jan 2007 02:45:07 
 HTML parsing   Slawa Olhovchenkov   27 Jan 2007 02:52:18 
 HTML parsing   Ivan Frolkov   27 Jan 2007 02:58:11 
 HTML parsing   Slawa Olhovchenkov   27 Jan 2007 03:01:10 
 HTML parsing   Ivan Frolkov   27 Jan 2007 03:10:31 
 HTML parsing   Slawa Olhovchenkov   27 Jan 2007 03:19:12 
 Re: HTML parsing   Victor Mironov   28 Jan 2007 03:26:04 
 HTML parsing   Slawa Olhovchenkov   28 Jan 2007 03:52:22 
 Re: HTML parsing   Orlovsky Alexander   26 Jan 2007 19:32:19 
 HTML parsing   Slawa Olhovchenkov   26 Jan 2007 19:39:58 
 Re: HTML parsing   Orlovsky Alexander   26 Jan 2007 19:48:56 
 HTML parsing   Slawa Olhovchenkov   26 Jan 2007 19:53:12 
 Re: HTML parsing   Eugene Grosbein   27 Jan 2007 01:15:12 
 HTML parsing   Slawa Olhovchenkov   26 Jan 2007 22:02:30 
 Re: HTML parsing   Andrei Protasovitski   26 Jan 2007 18:10:42 
 Re: HTML parsing   Oleg A. Paraschenko   27 Jan 2007 10:42:02 
 HTML parsing   Slawa Olhovchenkov   27 Jan 2007 12:33:34 
 Re: HTML parsing   Oleg A. Paraschenko   28 Jan 2007 08:56:17 
 HTML parsing   Slawa Olhovchenkov   28 Jan 2007 13:47:04 
 Re: HTML parsing   Oleg A. Paraschenko   29 Jan 2007 05:23:22 
 HTML parsing   Slawa Olhovchenkov   29 Jan 2007 11:47:02 
 Re: HTML parsing   Artem Chuprina   29 Jan 2007 17:58:33 
 HTML parsing   Slawa Olhovchenkov   29 Jan 2007 18:05:34 
 Re: HTML parsing   Artem Chuprina   29 Jan 2007 21:03:46 
 HTML parsing   Slawa Olhovchenkov   29 Jan 2007 22:16:54 
 Re: HTML parsing   Artem Chuprina   30 Jan 2007 16:42:57 
Архивное /ru.perl/27605560be27.html, оценка 2 из 5, голосов 10
Яндекс.Метрика
Valid HTML 4.01 Transitional