|
|
ru.perl- RU.PERL ---------------------------------------------------------------------- From : Oleg A. Paraschenko 2:5020/400 27 Jan 2007 10:42:02 To : Slawa Olhovchenkov Subject : Re: HTML parsing -------------------------------------------------------------------------------- Привет! On Fri, 26 Jan 2007 16:59:34 +0300 Slawa Olhovchenkov <Slawa.Olhovchenkov@f500.n5030.z2.fidonet.org> wrote: ... > Hасколько места определенны -- сразу не понятно, т.е. средство для > разбора должно быть пригодно для исследования структуры страницы на > предмет определения признаков мест расположения нужного контента. В своё время пришли к такой схеме: * вначале regexp'ами HTML приводится к XML-виду, и * на XML натравливается XSLT с функциями расширения. По поводу пункта два: http://uucode.com/texts/genxslt/genxslt.html Писали систему для вытаскивания информации из HTML. Решили писать своё. Через год посмотрели друг на друга и сказали: а не изобрели ли мы XSLT. -- Oleg Parashchenko olpa@ http://xmlhack.ru/ XML news in Russian http://uucode.com/blog/ Generative Programming, XML, TeX, Scheme --- ifmail v.2.15dev5.3 * Origin: xmlhack.ru (2:5020/400) Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.perl/4449bdbe569a.html, оценка из 5, голосов 10
|