|
|
ru.perl- RU.PERL ---------------------------------------------------------------------- From : Slawa Olhovchenkov 2:5030/500 27 Jan 2007 12:33:34 To : Oleg A. Paraschenko Subject : HTML parsing -------------------------------------------------------------------------------- 27 Jan 07, Oleg A. Paraschenko writes to Slawa Olhovchenkov: >> Hасколько места определенны -- сразу не понятно, т.е. средство для >> разбора должно быть пригодно для исследования структуры страницы на >> предмет определения признаков мест расположения нужного контента. OAP> В своё время пришли к такой схеме: OAP> * вначале regexp'ами HTML приводится к XML-виду, и OAP> * на XML натравливается XSLT с функциями расширения. OAP> По поводу пункта два: OAP> http://uucode.com/texts/genxslt/genxslt.html OAP> Писали систему для вытаскивания информации из HTML. Решили писать своё. OAP> Через год посмотрели друг на друга и сказали: а не изобрели ли мы XSLT. Я как-то в этой кухне не копенгаген. Какими regexpами и зачем приводим к XML виду? ... И запомни, Шарапов, коровы не летают --- GoldED+/BSD 1.1.5 * Origin: (2:5030/500) Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.perl/222145bb0ea5.html, оценка из 5, голосов 10
|