Главная страница


ru.perl

 
 - RU.PERL ----------------------------------------------------------------------
 From : Artem Chuprina                       2:5020/400     10 Jan 2006  13:12:48
 To : Nikolay Pichtin
 Subject : Re: как пропарсить html???
 -------------------------------------------------------------------------------- 
 
 Nikolay Pichtin -> Andrei Protasovitski  @ Mon, 09 Jan 2006 13:10:53 +0300:
 
  >>>  YP> В html находится куча <a><img></a>
  >>>  YP> Мне нужно мне нужно выдрать url из тега A, и все параметры из
  >>>  YP> IMG. Как это сделать правильно?
  >>> Если HTML "хороший" - т.е. известно, что атрибуты всегда закавычены
  >>> (в идеале - только двойными кавычками), теги корректным образом
  >>> закрыты и т.п. - можно попытаться одним регэкспом это сделать.
 
  AP>> Регэкспы, конечно, штука мощная и шустрая, но... Вполне может быть,
  AP>> что HTML составлен правильно, все там заковычено верно, однако если
  AP>> там встретятся вполне валидные конструкции типа
 
  AP>> <IMG SRC = "foo.gif" ALT = "A > B">
  AP>> <!-- <A comment> -->
  AP>> <script>if (a<b && a>c)</script>
  AP>> <# Just data #>
  AP>> <![INCLUDE CDATA [ >>>>>>>>>>>> ]]>
 
  AP>> , регексп составить будет весьма сложно, если вообще возможно.
 
  NP> Точно. Особенно такие попадаются
  NP> <a href=""><img src="img.gif"
 
  NP>></a><a href=""><img src="img2.gif"
  NP>></a>
 
 Hу, с такими как раз никаких проблем.  Разве что какой-то маньяк
 пытается обрабатывать HTML построчно, но это его интимные проблемы.
 
 -- 
 Artem Chuprina
 RFC2822: <ran{}ran.pp.ru> Jabber: ran@jabber.ran.pp.ru
 
 Курицца - не пицца. (Итальянская пословица)
 --- ifmail v.2.15dev5.3
  * Origin: Leninsky 45 home network (2:5020/400)
 
 

Вернуться к списку тем, сортированных по: возрастание даты  уменьшение даты  тема  автор 

 Тема:    Автор:    Дата:  
 Re: как пропарсить html???   Andrei Protasovitski   09 Jan 2006 11:59:36 
 Re: как пропарсить html???   Nikolay Pichtin   09 Jan 2006 14:10:53 
 Re: как пропарсить html???   Artem Chuprina   10 Jan 2006 13:12:48 
Архивное /ru.perl/25606ebeff694.html, оценка 2 из 5, голосов 10
Яндекс.Метрика
Valid HTML 4.01 Transitional