программа для мониторинга сайта
Таких программ нету
Я знаю, что есть роботы для мониторинга интернет-сайтов, например СМИ. Их нельзя адаптировать под эту проблему?
Скриптик напиши, например, на перле и пусть в базу кладет все, что нашел.
очень врядли, закупки.гов.ру это говнопортал со сложной внутренней структурой, даже при написании парсера на низком уровне там надо перелопатить код, не говоря про готовый высокоуровнеый парсинг
Я фелосов. Твоя моя не кергуду, но программа очень нада.
Я фелосов. Твоя моя не кергуду, но программа очень нада.Запости на в разделе Job, веблансере или фрилансе, может кто и напишет за разумную плату.
по графикуcron
заходить на сайт, забивать запросwget или curl
проверять, есть ли новые тендерыdiff
скидывать сообщение на мэйл
sendmail
Я фелосовЯ тоже люблю пофилософствовать. Но если что-то надо, то надо просто разобраться и сделать.
Вот и ТЗ почти готово )
а как ты диффом будешь проверять ессть новые или нет? там страница меняется не из за появления тендера
Ну значит придётся более нетривиально парсить страницу. А из-за чего она ещё может поменяться?
и з за удаления например, все 100 страниц могут поменяться
можно вопрос? твоя работа заключается в том чтобы мониторить этот сайт и выявлять новые тендеры?
Удаление - будет diff в другую сторону. Так что не проблема.
стало 1-я страица cAbb, вторая страница AX.
(добавилось "c", убралось "b", одна 'A' переехала на вторую страницу)
и как отсюда по диффу сделать sendmail, при этом запомнив кто удалился а кто добавился с предыдущей страницы?
А чтойта было 5 элементов на страницу, а стало 4? Если такой ахтунг сам собой там происходит, то конечно это жесть.... но откуда тогда растут руки тех, кто это делал, я даже боюсь предположить...
Запости на в разделе Job, веблансере или фрилансе, может кто и напишет за разумную плату.только надо быть готовым к тому что когда через месяц они поправят структуру страницы придётся писать новый парсер.
придётся писать новый парсер.За отдельные деньги
Либо сам осваивай, либо плати другим.
он просто клонит к тому что разово писать тут парсер нету смысла
он просто клонит к тому что разово писать тут парсер нету смыслаЯ этого не отрицая, лишь уточняю, что любая работа должна оплачиваться.
он просто клонит к тому что разово писать тут парсер нету смыслаКак и везде, здесь нужно соотнести риски и выгоду. Если даже просто diff-ом парсить не прокатит (я конечно не буду спорить, что чтобы это прокатило, должно немного повезти то как правило алгоритм парсинга вряд ли будет превышать десяток строк кода. Так что главное не забыть попросить у исполнителя все исходники (особенно если он зачем-то решит писать не на скриптовом языке) и последующие версии обойдутся значительно дешевле.
Я в своё время писал парсер для этого сайта, там быль мильон строк Работал хорошо, по моему с того момента сайт почти не поменялся. (это госсайт и на нем врядли что то с годами изменится)
это госсайт и на нем врядли что то с годами изменитсяоххх
Когда на сайтах министерств не было RSS (да их и сейчас не особо структуры менялись постоянно. Парсер сотни госсайтов приходилось в неделю переписывать по два-три раза.
Не полностью, конечно, только соответствующие регэкспы, но все же
Там оказывается кнопка RSS есть.
пожалуйста за наводку
А ларчик просто открывался. Зато сколько обсуждений...
Вспоминается сага о X, Y и Z. Только про Z вспомнили поздновато.
Поэтому такая штука, которую ты сам настраиваешь и сам запускаешь, была бы лучше, чем РСС. Мало ли, как работает их РСС. Может специально плохо работать.
Мало ли, как работает их РССНу так посмотри как работает, сравни с обновлениями самого сайта. Зачем гадать-то?
ам оказывается кнопка RSS естссылку на страницу с кнопкой встудею
В его разгаботку вложили кучу денегабсолютно вегно
По теме: проверь, что сайт действительно тебя обманывает. самое простое, что там встречается — замена букв на визуально похожие (русская 'c' и латинская 'c', и всякое такое чтобы поиском не находилось. Над формулировкой задачи ещё надо поработать.
Оставить комментарий
marmon
Друзья, посоветуйте программу для мониторинга сайта.Есть сайт www.zakupki.gov.ru, на котором публикуются государственные тендеры. Нужно найти программу, которая по графику могла бы заходить на сайт, забивать запрос, и проверять, есть ли новые тендеры. Если они есть, то скидывать сообщение на мэйл.