Как найти архивные вакансии на сайте hh.ru?
http://hh.ru/vacancy/1830000 - http://hh.ru/vacancy/1840000 найдут несколько страниц с искомым названием компании.
Как я понимаю, страницы с архивными вакансиями являются не индексируемыми, но должны же существовать программы, которые перебором по диапазону страниц вида
да, это программы sh, wget и grep.
wget - скачивает сайт полностью, а мне нужно всего несколько страниц, содержащихся в диапазоне из 10 тыс. страниц, с искомым названием компании.
grep - ищет строки в файлах, а не на множестве web-страниц.
Поэтому, кажется, не совсем то что нужно.
wget - скачивает сайт полностьюwget скачивает в первую очередь отдельные веб-страницы. Хотя может выкачивать их и рекурсивно, включая контент, но это в данном случае не нужно.
grep - ищет строки в файлах, а не на множестве web-страниц.Не поверишь, но скачанная веб-страница - это тоже файл.
http://hh.ru/vacancy/ на одном уровне находится несколько миллионов страниц, и я не знаю, можно ли программой wget выделить из них диапазон в несколько тысяч страниц.
Я работаю в Windows. Ты говоришь, что мне надо скачать 10 тыс. страниц (файлов) программой wget и потом произвести по ним поиск программой grep? Разве это не займет очень много времени? К тому же по ссылке Я работаю в WindowsТам есть свои средства автомазизации, например PowerShell. Правда о нём я ничего, кроме самого факта существования не знаю.
Ты говоришь, что мне надо скачать 10 тыс. страниц (файлов) программой wget и потом произвести по ним поиск программой grep? Разве это не займет очень много времени?это займёт столько времени, сколько нужно на то, чтобы скачать объём информации, равный объёмы одной страницы умноженному на их количество (вернее чуть дольше, так как есть ещё время на запрос и генерацию странцы серверным скриптом).
не знаю, можно ли программой wget выделить из них диапазон в несколько тысяч страницКонечно нет, это не задача wget. Для этого и есть скриптовый язык.
Получается, если я не владею скриптовым языком, то не смогу найти эти несколько страниц, содержащихся в заданном диапазоне из 10 тыс. страниц? Никаких простых программ и решений нет?
Сложно представить себе "простую" программу для столь специфичного случая. Вероятность её существования конечно ненулевая, но это только если кто-то сталкивался с практически такой же задачей, как у тебя и решил её написать и почему-то решил это сделать не в виде 2-3-строчного скрипта, а в виде гуйни с кнопочками.
Я работаю в Windows. Ты говоришь, что мне надо скачать 10 тыс. страниц (файлов) программой wget и потом произвести по ним поиск программой grep? Разве это не займет очень много времени?поразительная вежливость!
читаю и умиляюсь
а, ну и попробуй так в гугле:Это все попробовал. Страницы не индексируются, ни Гугл, ни Яндекс их не видит.
газпром site:hh.ru
дальше нажимай ссылку "Сохранено в кэше"
Сейчас разбираюсь, как запустить bat-файл на скачку 10 тыс. страниц по маске программой wget.
Получается, если я не владею скриптовым языком, то не смогу найти эти несколько страниц, содержащихся в заданном диапазоне из 10 тыс. страниц?почему же. Ты можешь нанять человека, владеющего скриптовым языком
Никаких простых программ и решений нет?думаю, нет. впрочем, можешь также нанять человека, умеющего пользоваться гуглом
почему же. Ты можешь нанять человека, владеющего скриптовым языкомО том, что можно нанять человека и он все найдет, я и без тебя догадывался. Также можно нанять человека, который все найдет вручную или вручную найти самому.
Мда пацаны так ничё и не узнал
Тоже был такой запрос, если вакансия закрыта недавно, её можно найти на сайтах агрегаторов, которые парсят вакансии в том числе с hh.ru. Обновление у них происходит с задержкой, видимо, в моем случае вакансия была снята недели 2 назад или больше с hh.ru, а на сайте-агрегаторе я её увидел. Я нашел её на сайте moskva.jobfilter.ru
Оставить комментарий
mao_2003
Подскажите, можно ли найти архивные вакансии на сайте hh.ru по конкретной компании? Страницы вида "http://hh.ru/vacancy/1831750" с этими вакансиями должны существовать, но Яндекс и Гугл ничего не находит.