[python] парсер для "плохого" html
нашёл себе beautiful soup - доволен и рекомендую остальным.
Сделать tidy и работать с ним как с well-formed — вариант?
html5lib
Сам автор beautiful soup рекомендует lxml. Я её попробовал и остался доволен, она довольно милая. То есть не знаю, насколько хорошо она парсит кривой хтмл, но чисто по интерфейсу — меньше магеи, больше xpath. Плюс няшки в lxml.html. Единственное, что мне в ней не нравится — автор явно сраный сишник или жаваёб! Ну почему у ноды нет метода pprint, почему нужно глобальный метод вызывать?
Оставить комментарий
yroslavasako
Ищу сабжевую библиотеку. Хочу из html (такого, какой встречается в реальной жизни, а не в идеалистической картине стандарта well-formed XML) получить dom модель, отредактировать и получить текст обратно.