|
|
ru.perl- RU.PERL ---------------------------------------------------------------------- From : Andrei Protasovitski 2:450/186 26 Jan 2007 18:10:42 To : Subject : Re: HTML parsing --------------------------------------------------------------------------------
Доброго здоровья!
Slawa Olhovchenkov пишет:
> А чем лучше парсить HTML?
>
> Hу т.е. есть типа страничка, надо из опредеоенного места выдернуть текст, из
> еше пары мест -- ссылки при наличии. Hасколько места определенны -- сразу не
> понятно, т.е. средство для разбора должно быть пригодно для исследования
> структуры страницы на предмет определения признаков мест расположения нужного
> контента.
Зависит от этих самых мест. Если страница имеет жесткую структуру, то
можно использовать что-нибудь наподобие HTML::TreeBuilder. Если же она
постоянно меняется в зависимости от капризов мизинца левой ноги
индийского дотнэтчега, то HTML::TokeParser. В терминах XML первый способ
- это DOM, второй - SAX.
Второй более универсальный и менее ресурсоемкий. Хотя при этом он
медленнее первого и более сложный.
--
Andrei Protasovitski
mailto: andrei.protasovitski()gmail.com
ICQ: 75725244
AIM: protasovitski
MSN: protasonic@hotmail.com
Jabber: AS_Pushkin@mova.org
--- Mozilla/5.0 (X11; U; Linux i686; ru-RU; rv:1.8.1.2pre) Gecko/20070111
SeaMonkey/1.1
* Origin: -= http://fido.ext.by (sponsored by http://extmedia.com) (2:450/186)
Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.perl/27605560be27.html, оценка из 5, голосов 10
|