реально ли выкачать форум (или какую-то его часть)? как это делается?

alex12345

Есть форум (не этот но написанный на таком же движке. Он единственный в своём роде в рунете и на нём огромное количество специальной необходимой информации. Это кладезь, так сказать, для музыканта...
И вот он уже 2 раза падал (какие-то проблемы у них там были с хостингом - точно не в теме его переносили с места на место.
И вот как-то сцыкатно, вдруг в какой-то момент всё возьмет и развалится! Информации (очень полезной!) там действительно много, было бы обидно лишиться такого архива...
Вопрос прост: как-нибудь можно автоматически (в плане не жать на каждой странице "сохранить как" и плеваться потом от полного отсутсвия иерархии) загрузить его себе на хард? Как это делается?
Может нужно поставить сперва сам движок на что-нибудь?
Подскажите? ;)

elena-kotenok75

попросить бэкап у админа? :)

alex12345

попросить бэкап у админа?
да, я действительно знаю админа, но не уверен, что это хороший вариант...
да и записи ведь каждый день добавляются

spitfire

Мне кажется, если хочется что-то уже написанное на данный момент сохранить, это один из лучших вариантов. Чем в большем числе мест будет находиться бэкап --- тем он бэкапистее (если его ещё и обновлять периодически притом).

Ivanopulo

Попробуй качнуть прогой Teleport Pro

alex12345

Мне кажется, если хочется что-то уже написанное на данный момент сохранить, это один из лучших вариантов. Чем в большем числе мест будет находиться бэкап --- тем он бэкапистее (если его ещё и обновлять периодически притом).
На этом форуме сидят серьезные люди, многим уже под сорок, обсуждают серьезные вещи (звук, технику, прибамбасы и т.д.) и его уже однажды пытались скопировать аферисты. Просто создали с таким же оформлением и названием (скопировали даже логотип, который мы все вместе, сообща придумывали но в домене ".ру", насоздавали на нем имена пользователей (самых влиятельных, тех к кому большинство прислушивается и которых многие в этом кругу знают лично) и стали писать всякую байду: рекламировать какие-то левые инструменты (которые они сами подделывают и продают в своём магазине свой магазин, левых мастеров по настройке и опускать брэнды (основной мотив - "теперь они делаются в китае" - вообще бред :grin: )
Так что если я буду просить бэкап, про меня могут автоматически плохо подумать... Если бы админ был моим закадычным другом, проблем бы не возникло, но мы едва знакомы (общались только через форум, да и то не часто). Да и разница у меня с ним лет эдак 15...
Потому и спрашиваю, есть ли другой способ...
Понятно, что для меня этот форум просто как учебник и нет желания создавать лжефорумы, на которых кого-то надувать...

alex12345

Teleport Pro
Она ведь не качает форумы? Только сайты. Да и к тому же, вроде даже без php... (Поправьте, если я ошибаюсь).
Хочется услышать способ, чтобы наверняка работало...

feliks28

Чтобы _наверняка_ работало - это нужно, чтобы кто-то это уже на данном конкретном сайте за тебя попробовал.
А так можешь проверить не наверняка прогой WinHTTrack

elena-kotenok75

ты хочешь сохранить это для себя, или чтобы можно было восстановить форум если вдруг?..

alex12345

не знаю, наверное всё же для себя

alex12345

Чтобы _наверняка_ работало - это нужно, чтобы кто-то это уже на данном конкретном сайте за тебя попробовал.
А так можешь проверить не наверняка прогой WinHTTrack
Не обязательно. Нужно, что бы кто-нибудь когда-нибудь уже выкачивал какой-нибудь форум...
Я вот, помнится, триста лет тому назад раздел "Графика" пытался качать с фдс-нет телпортом, что-то нифига не получилось.
А за прогу спасибо. Попробую сегодня вечером.

love_4ever

Она ведь не качает форумы? Только сайты. Да и к тому же, вроде даже без php... (Поправьте, если я ошибаюсь).
Хочется услышать способ, чтобы наверняка работало...
Телепорт качает всё.
Только лучше взять телепорт ультра, который стоит, кажись, за 100 баксов, кейген-кряк к которому, правда, лежит за каждым углом.
Правда будь готов к тому, что он скачает каждый тред раз по 10...

okis

Можно ещё WinHTTrack, таки open source

hwh2010

смотри. все эти проги (Teleport Pro, wget и др.) качают сайты рекурсивно. Т.е сохраняют страницу, нажимают на все ссылки, сохранют все эти страницы, нажимают на все ссылки на них итд. Когда я пробовал выкачать форум таким образом я, во-первых, выкачал довольно мало, а во-вторых добавил ОЧЕНЬ много тем себе в напоминания.
Я склоняюсь к варианту попросить у одмина бекап или даже устроить регулярно обновляемое read-only зеркало.

serega1604

вообще можно написать скрипт, который выкачает все темы
как пример -
for i in {1..8104702} ;do wget "http://forumbgz.ru/showflat.php?Number=$i" ;done 

но восстанавливать иерархию тебе придется потом отдельно, хотя и это вполне возможно.

alex12345

для чего этот скрипт?
кстати, вот те кто минусы ставит, они чем-то руководствуются или просто дебилы?

serega1604

для bash (1)
можно батник совершенно аналогичный написать.
но я не рекомендую им пользоваться - лучше всё-таки попросить у админа бекап :).

yroslavasako

уж лучше тогда архив постов взять в готовом виде.

fufa58

на флокале он ручками прикручет, на том такого похоже нету

Dasar

при наличии базовых знаний о программировании форумы выкачиваются элементарно
выкачиваешь главную страницу, разбираешь - получаешь разделы (идентификаторы)
для каждого раздела - получаешь id-ы тредов
для каждого треда пробегаешься по постам
разбор делается через html->xml->xpath (лучше) или через regex-ы(хуже)

yolki

да-да-да.
я так свежие номера "Московского комсомольца" выкачиваю :)
http://www.greenone.ru/
там не форум, но принцип примерно тот же :p

apl13

Бугаго, архив журнала "Звукорежиссер" сперва скачай, там тебе чтива хватит на годы. :lol:

alex12345

вообще-то для меня это развлекаловка и не так важна (я ж тебе говорил, что только для сольфы пока...) :p
а вот тот форум реальне важен и причем именно сейчас ;)

VoodooXP

зачем копировать сайт? ты его распечатать хочешь?

alex12345

ну я же написал уже...
и зачем мне его распечатывать? :shocked:

VoodooXP

а копировать зачем? у тебя перебои с интернетом?
//невнимательно прочитал :) странно, что сайт с кучей полезной информации "разваливается". а если причина в том, что его скопировали и перевыложили, то ту же инфу можно взять с клона :grin:

alex12345

//невнимательно прочитал :) странно, что сайт с кучей полезной информации "разваливается". а если причина в том, что его скопировали и перевыложили, то ту же инфу можно взять с клона :grin:
ты еще раз всё невнимательно прочитал :(
он не разваливается, но 2 раза уже были моменты, когда на протяжении нескольких дней на него невозможно было зайти...
и да, у меня могут быть проблемы с инетом (т.к. он не всегда есть...)
и еще. его не скопировали полностью (у аферистов мозгов не хватило или желания, либо это невозможно). они просто создали сайт с таким же названием и оформлением, спёрли логотип, скопировали названия разделов, некоторые темы, насоздавали лжепользователей с известными никами, но в основном контент набили свой, причем это ересь полная...

alex12345

Можно ещё WinHTTrack, таки open source
воспользовался им. теперь сижу в непонятках. как оно работает?
оно умудрилось скачать гиг с лишним,

при том, что где-то 800 метров одних темпов :confused:

которые сразу удалились, когда я прервал сканирование :o
а самих страничек метров на 300-400 (и откуда столько взялось - тоже хзхз)
собсно че он делает? и почему кушает трафа в 3 раза больше полезного? :shocked: (кпд получается 33% :smirk: )
и какой у него алгоритм закачки? почему почти во всех темах только в скаченой странице только одно (первое) сообщение? он вернется потом к последующим?

Dimon89

Я бы все-таки предложил TeleportPro с адекватной фильтрацией ссылок, т.е. чтоб он ходил только по ссылкам на топики и не нажимал ненужные кнопочки.

love_4ever

Телепорт про пробовать не надо.
Надо сразу пробовать телепорт ультра.
Хотя если бабки платить, то про сильно дешевле, пробуй сначала его (если вообще собирался бабки платить за проги).
Кряки пользовать религия позволяет (проги платные и демо-версией толком ничего не выкачаешь)?

alex12345

позволяет :cool:

okis

воспользовался им. теперь сижу в непонятках. как оно работает?
оно умудрилось скачать гиг с лишним
А ты завершал закачку двойным нажатием cancel? Если да, то, действительно, закачка прервётся резко. Он строит стек закачиваемых страниц, который, похоже, хранит в данных tmp-файлах. Недокачанные страницы, скорее всего, хранятся там же. Так как на момент следующей закачки что-то в ресурсе может измениться, httrack сделает запрос head на все страницы, которые уже загружены, обновит по необходимости, далее продолжит закачку дальше.
Про опенсорс я упомянул не просто так к слову, а в связи с тем, что многие ресурсы могут содержать специальные ссылки, затрудняющие загрузку роботами, да и тот же алгоритм загрузки можно поменять. Hапример, загружать страницы не "в ширину", а "в глубину", чтобы треды на форумах загружались последовательно, но целиком, а не все сразу, но по чуть-чуть. Проприетарное ПО не позволит сделать такие изменения, да и не буду я его покупать.
Что значит кушает трафа в 3 раза больше полезного? Он считает объём трафика, а не загруженных страниц совокупно. Естественно, это разные вещи. Если сервер применяет сжатие gzip, то вполне возможно, что страниц по объёму будет больше, чем трафика.
Оставить комментарий
Имя или ник:
Комментарий: