На чём писать web-spider
Язык почти пофиг, но тот же python, вполне справляется с парсингом html. Парсить данные сайта можно как банальными регулярками, так и с помощью BeautifulSoup. Второй способ намного более приятный, поскольку фактически тебе надо указать xpath.
Правильно ли я понимаю, что поскольку парсинг html - дело линейное (через приведение к xml DOM и xpath запросы то упираться в c++ чтобы получить выигрыш по времени бессмысленно (сеть работает медленнее) и можно обойтись явой? Или ява - это тоже излишне быстро и достаточно питона?
Откуда кто знает, что у тебя там за сервер с которого скачивать, какие объемы скачивать, и на каком канале ты их собираешься скачивать.
Вообще да, как правило самая тяжелая операция - скачивание, а не построение дома етц. И хватит и джавы и питона и чегоугодно.
мне нужно в локальную базу результаты складывать. Предложенный cloud софт это умеет?предложенный cloud позволяет тебе собирать данные, не напрягая твоих мощностей, а потом как хочешь, так и экспортируй.
синхронизироваться с удалённой базой - дело простое.
Есть желание периодически просматривая страницы некоторого сайта, поддерживать актуальную базу на основе данных, вытащенных с этого сайта. То есть нужно написать демон-спайдер, который будет лазить по этому сайту и составлять/обновлять базу. Сайт умеет работать без javascript. На чём это лучше всего писать?тебе нужен curl.
Если в базе 50000 записей, и надо проверять - новая это запись или старая, то такая проверка сравнима по времени со скачкой через cURL.
Если не проверять - то самое долгое - cURL.
Я слышал, что кУРЛ может многопоточно - я не пробовал.
кУРЛ порядка 1 страницу в секунду скачивает (без картинок).
Если в базе 50000 записей, и надо проверять - новая это запись или старая, то такая проверка сравнима по времени со скачкой через cURL.Ааа, какой феерический бред.
Если не проверять - то самое долгое - cURL.
Я слышал, что кУРЛ может многопоточно - я не пробовал.
кУРЛ порядка 1 страницу в секунду скачивает (без картинок).
написал один раз подобный проект на .NET. там есть все необходимые библиотеки(построение запросов, разбор с помощью регексп). хотя я пользовался штукой предложенной Красиным. он подкинул библиотеку которая нормализует html в xml, а дальше можно рекурсивно разбирать нужный xml-файл... мне помогло.
с xpath я знаком, так что буду его юзать. Но реализации этой фичи есть во всех популярных языках программирования
тебе нужен не просто xpath, а xpath по html. можешь столкнуться с неприятными моментами в случае недопонимания.
верно говоришь
Оставить комментарий
yroslavasako
Есть желание периодически просматривая страницы некоторого сайта, поддерживать актуальную базу на основе данных, вытащенных с этого сайта. То есть нужно написать демон-спайдер, который будет лазить по этому сайту и составлять/обновлять базу. Сайт умеет работать без javascript. На чём это лучше всего писать?