Можно ли скачать какой-либо форум

ms_nadin

И сохранить структуру ссылок в нем?
Если это возможно, то какой прогой это сделать?

disna

wget -r forum.local

sirius

Offline Explorer

Helga87

А он не умрет? Есть предположение, что даже на 500 Гб винт результаты такого дампа не поместятся.

aleks058

Включи NTFS-сжатие.
ЗЫ. Все равно я знаю, что ты этим заниматься не будешь

disna

насколько я знаю, наш форум занимает неболее 15 гигов

Andbar

n ящиков пива (или альтернатива) админу чтобы он (в случае если получится уговорить) тебе дал часть базы данных (не содержащую секретные данные)...

Helga87

Только папка upload занимает более 10 Гб. Но это фигня. Главное, что в базе сообщения хранятся как только текст, а wget получит уже html версию с кучей ненужного. Впрочем, как правильно отметил , сжатие спасет галактику. Только тогда неясно, сколько времени будет проходить процесс упаковки такого объема информации, и не успеют ли за это время нафлудить еще столько же.
Кстати, тут еще проблема есть: wget нажмет на все кнопки. То есть:
1. Будет вызван поиск всех сообщений, в том числе архивных, для всех пользователей
2. Будут отправлены нотифаи для каждого сообщения
Уже этой веселухи будет достаточно для физического отключения от сети счастливого обладателя wget

bleyman

Кстати, тут еще проблема есть: wget нажмет на все кнопки. То есть:
Вообще-то он должен не "нажать на все кнопки", а пройти по всем ссылкам. Это как бы принципиальная разница.

Ivan8209

Решение: поставить ссылку, которая в ответ отсылает поток из /dev/urandom.
---
...Я работаю антинаучным аферистом...

Helga87

Кнопка "Найти все посты", например, оформлена в виде ссылки

bleyman

Ну значит это авторы форума долбы.
Помнишь же ту страшную историю из dailyWTF, про какой-то проект, в котором была авторизация через жаваскрипт и кнопки вида "удалить этот контент" в виде ссылок, в результате первый же заход гуглопаука удалил вообще всё.

Ivan8209

> Ну значит это авторы форума долбы.
Почему?
Робот формы ведь не заполняет?
Да и всё равно на кнопки нажимать надо в конце концов.
---
...Я работаю антинаучным аферистом...

bleyman

Да, действительно.
Хватит меня запутывать! =)

Helga87

Вот страничка, на которой по ссылке можно пройти на поиск всех сообщений автора, в том числе по архиву и альтам.

Ivan8209

И что?
Роботу, если только он не заточен под такое, всё равно не удастся отправить записку.
---
...Я работаю антинаучным аферистом...

Helga87

Роботу, если только он не заточен под такое, всё равно не удастся отправить записку.
Ты про что?
Я про то, что по приведенной ссылке робот начнет искать все посты всех пользователей во всех разделах (в т.ч. в архиве что легко нагнет форум, либо никогда не завершится.

Ivan8209

Ну, не завершится, дальше-то что?
Это же не отправка сообщений!
---
...Я работаю антинаучным аферистом...

Helga87

Но все равно не даст скачать форум, не так ли?

Ivan8209

Ну, при условии бесконечно большого времени,
бесконечно быстрой сети для скачивающего
и бесконечно медленной --- для пишущих,
может быть и получится.
---
...Я работаю антинаучным аферистом...

Andbar

млин, зря вы спорите... Правильно подстроенный робот скачает форум.локал без больших проблем. Поясню свою мысль: каждое действие выполняется своим скриптом, так что настроив фильтры, можно всё нормально скачать, не особо нагибая форум... Правда долго будет. Без настройки фильтров можно вообще далеко уйти.

aleks058

сколько времени будет проходить процесс упаковки такого объема информации
Хочешь, дам rar-архив, содержащий 2 Тб. Сжатие заняло где-то 3-7 суток (уже точно не помню - давно было) с максимальной степенью сжатия. А зип, используемый в NTFS, работает побыстрее рара.
Я к тому, что скачивание и запись занимают значительно больше времени, чем сжатие зипом.

lurgi48

Я к тому, что скачивание и запись занимают значительно больше времени, чем сжатие зипом.
таким образом гарантируется падение скорости не более, чем в два раза?

aleks058

Пусть форумная страница занимает 100Кб.
Я сделал папку, содержащую 100Мб страниц.
Затем скопировал ее в обычную папку. Это заняло 60 секунд.
Затем скопировал ее в папку, у которой установлено NTFS-сжатие. Это заняло 61 секунду.
Сжатая папка занимает в два раза меньше несжатой.
Выводы можешь сделать сам.

vtataurov

потому как для современных систем зипование упераеися в скорость дисковой подсистемы

Ivan8209

Если зиповать древним DEFLATE, то да.
Если жать более современными способами, то это далеко не правда.
---
...Я работаю антинаучным аферистом...
Оставить комментарий
Имя или ник:
Комментарий: