|
ru.perl- RU.PERL ---------------------------------------------------------------------- From : Nikolay Pichtin 2:5056/30 09 Jan 2006 14:10:53 To : Andrei Protasovitski Subject : Re: как пропарсить html??? -------------------------------------------------------------------------------- >> YP> В html находится куча <a><img></a> >> YP> Мне нужно мне нужно выдрать url из тега A, и все параметры из >> YP> IMG. Как это сделать правильно? >> Если HTML "хороший" - т.е. известно, что атрибуты всегда закавычены >> (в идеале - только двойными кавычками), теги корректным образом >> закрыты и т.п. - можно попытаться одним регэкспом это сделать. AP> Регэкспы, конечно, штука мощная и шустрая, но... Вполне может быть, AP> что HTML составлен правильно, все там заковычено верно, однако если AP> там встретятся вполне валидные конструкции типа AP> <IMG SRC = "foo.gif" ALT = "A > B"> AP> <!-- <A comment> --> AP> <script>if (a<b && a>c)</script> AP> <# Just data #> AP> <![INCLUDE CDATA [ >>>>>>>>>>>> ]]> AP> , регексп составить будет весьма сложно, если вообще возможно. Точно. Особенно такие попадаются <a href=""><img src="img.gif" ></a><a href=""><img src="img2.gif" ></a> * А неплохо бы и государство привлекать к ответственности за сокрытие от населения его же налогов. -- Hиколай ---------------------------------------------------------------------- --- * Origin: В конце концов среди концов найдешь конец ты наконец. (2:5056/30) Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.perl/181343c26132.html, оценка из 5, голосов 10
|