|
ru.perl- RU.PERL ---------------------------------------------------------------------- From : Artem Chuprina 2:5020/400 10 Jan 2006 13:12:48 To : Nikolay Pichtin Subject : Re: как пропарсить html??? -------------------------------------------------------------------------------- Nikolay Pichtin -> Andrei Protasovitski @ Mon, 09 Jan 2006 13:10:53 +0300: >>> YP> В html находится куча <a><img></a> >>> YP> Мне нужно мне нужно выдрать url из тега A, и все параметры из >>> YP> IMG. Как это сделать правильно? >>> Если HTML "хороший" - т.е. известно, что атрибуты всегда закавычены >>> (в идеале - только двойными кавычками), теги корректным образом >>> закрыты и т.п. - можно попытаться одним регэкспом это сделать. AP>> Регэкспы, конечно, штука мощная и шустрая, но... Вполне может быть, AP>> что HTML составлен правильно, все там заковычено верно, однако если AP>> там встретятся вполне валидные конструкции типа AP>> <IMG SRC = "foo.gif" ALT = "A > B"> AP>> <!-- <A comment> --> AP>> <script>if (a<b && a>c)</script> AP>> <# Just data #> AP>> <![INCLUDE CDATA [ >>>>>>>>>>>> ]]> AP>> , регексп составить будет весьма сложно, если вообще возможно. NP> Точно. Особенно такие попадаются NP> <a href=""><img src="img.gif" NP>></a><a href=""><img src="img2.gif" NP>></a> Hу, с такими как раз никаких проблем. Разве что какой-то маньяк пытается обрабатывать HTML построчно, но это его интимные проблемы. -- Artem Chuprina RFC2822: <ran{}ran.pp.ru> Jabber: ran@jabber.ran.pp.ru Курицца - не пицца. (Итальянская пословица) --- ifmail v.2.15dev5.3 * Origin: Leninsky 45 home network (2:5020/400) Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.perl/25606ebeff694.html, оценка из 5, голосов 10
|