подскажите как создать робота для парсинга HTML
результат советую загонять в RSS. очень удобно, если пользуешься её.
Для высокой производительности лучше писать свой парсер на С, можно мозилловский взять. В php гуглить tidy, dom. Еще есть вероятность, что регекспов будет достаточно.
Для высокой производительности лучше писать свой парсер на СНаписано же: для домашних целей. Вполне хватит и питона
Для высокой производительности лучше писать свой парсер на С, можно мозилловский взять. В php гуглить tidy, dom. Еще есть вероятность, что регекспов будет достаточно.Мозилловский медленный и отделить его нереально.
Топикстартеру производительность не нужна, он не робота пишет, которому надо обойти интернеты. А 1000 страниц парсить всё равно чем.
php его вполне устроит...
http://parsing-and-i.blogspot.com/2009/08/html-php.html
http://parsing-and-i.blogspot.com/2010/05/php-simple-html-do...
во второй ссылке проще.
http://parsing-and-i.blogspot.com/2010/05/php-simple-html-do...
во второй ссылке проще.
cron + wget + find + sed
чей та не пойму, куда логику выбора контента писать? допустим мне по дате надо отпарсить что-то и вывести только новое, а затем это новое прислать на почту(смс)...
p.s. регекспы
Оставить комментарий
Alexeja23
Задача - для домашних целей мониторить определенный контент определенных сайтов (объявления о продаже при появлении нового контента удовлетворяющего определенным критериям, необходимо отправлять письмо на почтовый ящик, или быть может SMS(не уверен что это доступно легкими усилиями) или как вариант генерировать страницу в web.Подскажите какой инструментарий выбрать, быть может уже есть готовые решения (может быть даже он-лайн).
ЗЫ Имею небольшой опыт программирования на PHP.