[python] парсер для "плохого" html

yroslavasako

Ищу сабжевую библиотеку. Хочу из html (такого, какой встречается в реальной жизни, а не в идеалистической картине стандарта well-formed XML) получить dom модель, отредактировать и получить текст обратно.

yroslavasako

нашёл себе beautiful soup - доволен и рекомендую остальным.

okis

Сделать tidy и работать с ним как с well-formed — вариант?

artimon

html5lib

bleyman

beautiful soup перестал поддерживаться хз когда. (алсо, у него была пиздец глючная версия совместимая с третьим Питоном, недавно чувак правда взял предыдущую нормальную версию и тупо присвоил ей больший номер, чтобы перестали домогаться с жалобами).
Сам автор beautiful soup рекомендует lxml. Я её попробовал и остался доволен, она довольно милая. То есть не знаю, насколько хорошо она парсит кривой хтмл, но чисто по интерфейсу — меньше магеи, больше xpath. Плюс няшки в lxml.html. Единственное, что мне в ней не нравится — автор явно сраный сишник или жаваёб! Ну почему у ноды нет метода pprint, почему нужно глобальный метод вызывать?

Оставить комментарий