программа для мониторинга сайта

marmon

Друзья, посоветуйте программу для мониторинга сайта.
Есть сайт www.zakupki.gov.ru, на котором публикуются государственные тендеры. Нужно найти программу, которая по графику могла бы заходить на сайт, забивать запрос, и проверять, есть ли новые тендеры. Если они есть, то скидывать сообщение на мэйл.

solovushka

Таких программ нету

marmon

Я знаю, что есть роботы для мониторинга интернет-сайтов, например СМИ. Их нельзя адаптировать под эту проблему?

jgimi

Скриптик напиши, например, на перле и пусть в базу кладет все, что нашел.

solovushka

очень врядли, закупки.гов.ру это говнопортал со сложной внутренней структурой, даже при написании парсера на низком уровне там надо перелопатить код, не говоря про готовый высокоуровнеый парсинг

uncle17

а если договориться с тамошним держателем акций пароля и структуры БД? Сайт-то располагает

marmon

Я фелосов. Твоя моя не кергуду, но программа очень нада.

jgimi

Я фелосов. Твоя моя не кергуду, но программа очень нада.
Запости на в разделе Job, веблансере или фрилансе, может кто и напишет за разумную плату.

dangerr

по графику
cron
заходить на сайт, забивать запрос
wget или curl
проверять, есть ли новые тендеры
diff
скидывать сообщение на мэйл

sendmail
Я фелосов
Я тоже люблю пофилософствовать. :) Но если что-то надо, то надо просто разобраться и сделать.

jgimi

Вот и ТЗ почти готово )

solovushka

а как ты диффом будешь проверять ессть новые или нет? там страница меняется не из за появления тендера

dangerr

Ну значит придётся более нетривиально парсить страницу. А из-за чего она ещё может поменяться?

solovushka

и з за удаления например, все 100 страниц могут поменяться

nas1234

можно вопрос? твоя работа заключается в том чтобы мониторить этот сайт и выявлять новые тендеры?

dangerr

Удаление - будет diff в другую сторону. Так что не проблема.

solovushka

было 1-я страница AbbbA, вторая страница X
стало 1-я страица cAbb, вторая страница AX.
(добавилось "c", убралось "b", одна 'A' переехала на вторую страницу)
и как отсюда по диффу сделать sendmail, при этом запомнив кто удалился а кто добавился с предыдущей страницы?

dangerr

А чтойта было 5 элементов на страницу, а стало 4? Если такой ахтунг сам собой там происходит, то конечно это жесть.... но откуда тогда растут руки тех, кто это делал, я даже боюсь предположить...

YUAL

Запости на в разделе Job, веблансере или фрилансе, может кто и напишет за разумную плату.
только надо быть готовым к тому что когда через месяц они поправят структуру страницы придётся писать новый парсер.

jgimi

придётся писать новый парсер.
За отдельные деньги :)
Либо сам осваивай, либо плати другим.

solovushka

он просто клонит к тому что разово писать тут парсер нету смысла

jgimi

он просто клонит к тому что разово писать тут парсер нету смысла
Я этого не отрицая, лишь уточняю, что любая работа должна оплачиваться.

dangerr

он просто клонит к тому что разово писать тут парсер нету смысла
Как и везде, здесь нужно соотнести риски и выгоду. Если даже просто diff-ом парсить не прокатит (я конечно не буду спорить, что чтобы это прокатило, должно немного повезти то как правило алгоритм парсинга вряд ли будет превышать десяток строк кода. Так что главное не забыть попросить у исполнителя все исходники (особенно если он зачем-то решит писать не на скриптовом языке) и последующие версии обойдутся значительно дешевле.

356ft85

Я в своё время писал парсер для этого сайта, там быль мильон строк Работал хорошо, по моему с того момента сайт почти не поменялся. (это госсайт и на нем врядли что то с годами изменится)

uncle17

это госсайт и на нем врядли что то с годами изменится
оххх
Когда на сайтах министерств не было RSS (да их и сейчас не особо структуры менялись постоянно. Парсер сотни госсайтов приходилось в неделю переписывать по два-три раза.
Не полностью, конечно, только соответствующие регэкспы, но все же

marmon

Там оказывается кнопка RSS есть.

uncle17

пожалуйста за наводку

dangerr

Этапять :grin:
А ларчик просто открывался. Зато сколько обсуждений...
Вспоминается сага о X, Y и Z. Только про Z вспомнили поздновато.

marmon

Вообще-то сайт закупки.ру сделан таким образом, чтобы плохо работать. В его разгаботку вложили кучу денег, но еще больше вложили, чтобы он плохо работал, и чтобы в нем ничего не надо было найти.
Поэтому такая штука, которую ты сам настраиваешь и сам запускаешь, была бы лучше, чем РСС. Мало ли, как работает их РСС. Может специально плохо работать.

dangerr

Мало ли, как работает их РСС
Ну так посмотри как работает, сравни с обновлениями самого сайта. Зачем гадать-то?

356ft85

ам оказывается кнопка RSS ест
ссылку на страницу с кнопкой встудею

okis

В его разгаботку вложили кучу денег
абсолютно вегно
По теме: проверь, что сайт действительно тебя обманывает. самое простое, что там встречается — замена букв на визуально похожие (русская 'c' и латинская 'c', и всякое такое чтобы поиском не находилось. Над формулировкой задачи ещё надо поработать.
Оставить комментарий
Имя или ник:
Комментарий: