подскажите как создать робота для парсинга HTML

Alexeja23

Задача - для домашних целей мониторить определенный контент определенных сайтов (объявления о продаже при появлении нового контента удовлетворяющего определенным критериям, необходимо отправлять письмо на почтовый ящик, или быть может SMS(не уверен что это доступно легкими усилиями) или как вариант генерировать страницу в web.
Подскажите какой инструментарий выбрать, быть может уже есть готовые решения (может быть даже он-лайн).
ЗЫ Имею небольшой опыт программирования на PHP.

YUAL

есть сто одно пособие в интернете как парсить сайты на PHP.
результат советую загонять в RSS. очень удобно, если пользуешься её.

okis

Для высокой производительности лучше писать свой парсер на С, можно мозилловский взять. В php гуглить tidy, dom. Еще есть вероятность, что регекспов будет достаточно.

yroslavasako

Для высокой производительности лучше писать свой парсер на С
Написано же: для домашних целей. Вполне хватит и питона

Werdna

Для высокой производительности лучше писать свой парсер на С, можно мозилловский взять. В php гуглить tidy, dom. Еще есть вероятность, что регекспов будет достаточно.
Мозилловский медленный и отделить его нереально.
Топикстартеру производительность не нужна, он не робота пишет, которому надо обойти интернеты. А 1000 страниц парсить всё равно чем.
php его вполне устроит...

yroslavasako

есть ещё очень простой вариант без программирования, но он не для всех сайтов подходит:
cron + wget + find + sed

SergZ

Можно обойтись почти без программирования: http://pipes.yahoo.com + http://ifttt.com

Alexeja23

чей та не пойму, куда логику выбора контента писать? допустим мне по дате надо отпарсить что-то и вывести только новое, а затем это новое прислать на почту(смс)...

Barbie29

я щетаю что вам надо обратится в органы
p.s. регекспы
Оставить комментарий
Имя или ник:
Комментарий: