|
ru.perl- RU.PERL ---------------------------------------------------------------------- From : Slawa Olhovchenkov 2:5030/500 27 Jan 2007 03:01:10 To : Ivan Frolkov Subject : HTML parsing -------------------------------------------------------------------------------- 27 Jan 07, Ivan Frolkov writes to Slawa Olhovchenkov: IF>>>>> То есть надо найти "там"? Так это никто не умеет - ни перл, ни IF>>>>> человек. SO>>>> В самом первом письме я все изложил. IF>>> "Hасколько места определенны -- сразу не понятно" IF>>> Тут без сверхчеловеческого разума не обойтись :-) SO>> А ты после запятой цитату не обрывай и все хорошо будет IF> Будет как раз очень нехорошо. "Определения признаков мест расположения IF> нужного контента" - какой-то прикладной дзен-буддизм. И каковы же эти IF> признаки? Это я как раз хотел бы услышать про каждое средство, что и как там можно рассматривать за признаки и как с минимальными руными услиями получить разбор конкретной страницы для последующего вычленения признаков. Я подозреваю что для каждого средства признаки будут специфические. Где-то надо анализировать признак типа "таблица внутри другой таблицы в пятой ячейке", а для другого -- "тэг <table> после пятого тэга <fuck>". IF> Дерево построить можно. Разобрать по токенам тоже можно. Разобрав, IF> построить дерево самому, в конце концов. Автоматом разобрать таблицу. IF> Hарисовать шаблон, который генерит страницу такого же рода, и пользоваться IF> им не для генерации, а для разбора - пожалуйста. Выдрать кусок хтмля по IF> id="" - ради бога. Единственное - с засекреченными признаками проблемы. Кто такие "засекреченные признаки"? ... Ходють тут всякие, а потом каталоги пропадают --- GoldED+/BSD 1.1.5 * Origin: (2:5030/500) Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.perl/222145ba89cb.html, оценка из 5, голосов 10
|