Главная страница


ru.perl

 
 - RU.PERL ----------------------------------------------------------------------
 From : Nikolay Pichtin                      2:5056/30      09 Jan 2006  14:10:53
 To : Andrei Protasovitski
 Subject : Re: как пропарсить html???
 -------------------------------------------------------------------------------- 
 
 
  >>  YP> В html находится куча <a><img></a>
  >>  YP> Мне нужно мне нужно выдрать url из тега A, и все параметры из
  >>  YP> IMG. Как это сделать правильно?
  >> Если HTML "хороший" - т.е. известно, что атрибуты всегда закавычены
  >> (в идеале - только двойными кавычками), теги корректным образом
  >> закрыты и т.п. - можно попытаться одним регэкспом это сделать.
 
  AP> Регэкспы, конечно, штука мощная и шустрая, но... Вполне может быть,
  AP> что HTML составлен правильно, все там заковычено верно, однако если
  AP> там встретятся вполне валидные конструкции типа
 
  AP> <IMG SRC = "foo.gif" ALT = "A > B">
  AP> <!-- <A comment> -->
  AP> <script>if (a<b && a>c)</script>
  AP> <# Just data #>
  AP> <![INCLUDE CDATA [ >>>>>>>>>>>> ]]>
 
  AP> , регексп составить будет весьма сложно, если вообще возможно.
 
 Точно. Особенно такие попадаются
 <a href=""><img src="img.gif"
 
 ></a><a href=""><img src="img2.gif"
 ></a>
 * А неплохо бы и государство привлекать к ответственности за сокрытие от
 населения его же налогов.
 -- Hиколай
 ----------------------------------------------------------------------
 ---
  * Origin: В конце концов среди концов найдешь конец ты наконец. (2:5056/30)
 
 

Вернуться к списку тем, сортированных по: возрастание даты  уменьшение даты  тема  автор 

 Тема:    Автор:    Дата:  
 Re: как пропарсить html???   Andrei Protasovitski   09 Jan 2006 11:59:36 
 Re: как пропарсить html???   Nikolay Pichtin   09 Jan 2006 14:10:53 
 Re: как пропарсить html???   Artem Chuprina   10 Jan 2006 13:12:48 
Архивное /ru.perl/181343c26132.html, оценка 2 из 5, голосов 10
Яндекс.Метрика
Valid HTML 4.01 Transitional