Ещё один способ сделать архив дневника diary.ru

понедельник, 06 ноября 2017

zHz00

22:39 Ещё один способ сделать архив дневника diary.ru

Многие взволнованы, что архив дневника никак не придёт. Поэтому преходят к альтернативным методам сохранения дневников: kxena.diary.ru/p214074272.htm .

Администрация же не рекомендует подобные методы, т.к. те создают нагрузку на сервер.

Мой метод создаёт минимальную нагрузку на сервер, но большую нагрузку на мозг! Не для средних умов. И с учётом требования по IQ -- это неподробная инструкция.
Требуется винда. Думаю, будет работать начиная с 2000-й.

Используйте данный метод на свой страх и риск. Если вас забанят -- я не виноват.

Уже четыре дневника так сохранил.

(линуксоидам понравится)1. Качаем wget. Это программа по скачиванию веб-страниц из командной строки.

sourceforge.net/projects/gnuwin32/files/wget/1....

2. Ставим его.
3. Добавляем его в переменную PATH.

Для этого (метод работает начиная с Висты):
а) нажимаем Win+Pause/Break.
б) нажимаем "Дополнительные параметры системы"->"Переменные среды..."->"Системные переменные".
в) находим Path, потом жмём "Изменить...".
г) в появившемся окошке в поле "Значение переменной" дописываем в конец";", а потом ту папку, куда вы поставили wget.

4. Делаем папку, где будет архив нужного дневника.
5. Создаём файл save.bat, в который пишем следующее:

for /F %%a in (list.txt) do wget %%a --load-cookies cookies.txt && ping 127.0.0.1 -n 300
ren *.html* *.html*.html
pause

Первая команда пробегается по списку адресов в файле list.txt и скачивает эти адреса. 300 -- это пауза между скачиванием страниц в секундах. Можно уменьшить, например, до 60. Но к чему торопиться?
Вторая переименует файлы так, чтобы их можно было октрывать браузером без дополнительных вопросов.
Третья нужна, чтобы окно комнадной строки не закрылось после завершения.

Теперь надо подготовить файлы list.txt и cookies.txt

6. Готовим list.txt

а) идём на интересующий дневник и листаем его до конца, чтобы посмотреть номер последней страницы. Можно листнуть один раз, а потом в адресной строке вместо from=20 написать что-нибудь большое, например 20000. И посмотреть, будут ещё страницы или нет. Смотрим на номер последней страницы, вычитаем единицу, умножаем на 20 (это число постов на странице).
б) создаём файл list.txt.
в) пишем в нём: http://name.diary.ru/?from=число&oam . Вместо числа пишем то, что насчитали раньше. oam нужно, чтобы раскрыть все каты сразу. Да, эта опция работает на списке постов тоже! name -- имя дневника.
г) тиражируем эту строку много раз.
д) вручную уменьшаем на 20 в каждой строке число, пока не дойдём до нуля. Процесс можно ускроить с помощью Excel, но это уже расширенная техника. О ней: zhz00.diary.ru/p174430378.htm .
е) в конце последней строки на всякий случай нажимаем Enter.

7. Готовим cookies.txt. 手料理。 Если в том дневнике, что вы хотите сохранить, нет закрытых постов, и он доступен без логина, этот шаг можно пропустить.

Надеюсь, все знают, что такое кукисы. Файл кукисов позволит wget'у получать страницы с сайта так, как будто вы залогинены, поскольку дайари хранит сведения о текущем пользователе как раз в кукисах.

а) создаём файл cookies.txt
б) копируем туда вот это дерьмо:

.diary.ru	TRUE	/	FALSE	1541462400	user_id	0000
.diary.ru	TRUE	/	FALSE	1541462400	user_login	0000
.diary.ru	TRUE	/	FALSE	1541462400	user_ip	0000
.diary.ru	TRUE	/	FALSE	1541462400	user_pass	0000

Важно: вот эти пропуски обязательно должны быть символами табуляции, а не пробелами.
Это страшное число в строках -- время истечения кукисов в формате unix time. Для примера я взял время примерно ноября 2018. Что будет, если указать время, которое уже прошло -- не знаю.

в) смотрим в браузере список кукисов. Дальше в качестве примера я привожу ФФ.
г) Tools -> Options -> Privacy&Security -> remove individual cookies.
д) открываем ветку diary.ru (перед этим вы должны залогиниться на сайте от пользователя, у которого есть доступ к нужному дневнику и его закрытым постам).
е) ищем поля, соответствующие тем, что указано в списке выше (второе значение справа).
ж) копируем содержимое соответствующих полей вместо 0000 в тексте выше.

8. Запускаем save.bat и идём заниматься своими делами. Общее время скачивания будет 5 минут * число страниц. Следить за ходом мероприятия можно будет по появлению новых файлов в назначенной папке.

9. Примечания
а) файлы cookies.txt и save.bat пригодны к повторному использованию.
б) содержимое Библиотеки изображений не сохраняется.
в) скачивание дополнительных файлов, помимо текста страниц, не производится.
г) пока diary работают, ваши скачанные страницы будут выглядеть прилично, однако если они выключатся, всё оформление слетит. Впрочем, текст прочитать будет можно.
д) комментарии не сохраняются.
е) если включена защита CloudFlare, ничего работать не будет. Её периодически включают-отключают. Когда создастся первый файл в папке, откройте его браузером и проверьте, что там то, что вам надо, а не привет от CloudFlare.

@темы: Лайфхак, Борьба с техникой

URL

Ши: Есть один(?) вопрос. Вот почему, объясните мне кто-ни...

Сегодня смотрел на машины и думал о женщинах...Или наобор...

Португалия янкам проиграла, так ведь еще всю игру проигры...

Сегодня ночью смотрел концерт в честь 50-летнего правлени...

Иду сегодня на Словения - Южная Африка. Вперед, братья...

Обнимет, закопает в пески.... Хочу на Карнавал в Гелен...

Crawling Chaos

06.11.2017 в 23:52

Можно же написать за вечер, нормальный, приличный парсер специально заточенный под дайри. Который и стили скачает и всё сделает. Просто я уверен, что дайри ещё полгода протянет и что все архивы свои получат - поэтому не парюсь)

URL

U-mail Дневник Профиль

Crawling Chaos

06.11.2017 в 23:59

Есть такая либа PHPQUERY, с ней изишно (но я бы лично сам на питоне бы писал), ты же любишь у нас пхп. Ещё у меня есть расширение для браузера, которое имитирует деятельность человека и как раз парсит один сайт, там просто защита от парсеров очень хорошая - можно так же сделать.

URL

U-mail Дневник Профиль

zHz00

07.11.2017 в 00:09

Парсер написать можно, но это уже более сложные способы. Данный метод позволяет сохранить ИНФОРМАЦИЮ, а парсить её можно и потом.

URL

U-mail Дневник Профиль

Гость

07.11.2017 в 22:15

Зануда mode ON.

for /F %%a in (list.txt) do wget %%a --load-cookies cookies.txt && ping 127.0.0.1 -n 300

Вместо цикла можно использовать опцию --input-file, вместо пинга — --wait (см. также --random-wait). Причём --input-file я настоятельно советую, потому что у тебя сейчас на каждую страничку запускается новая копия wget, открывающая HTTP-соединение; будь копия одна, соединение бы переиспользовалось и нагрузка на сервер была бы ещё меньше.

г) тиражируем эту строку много раз.
д) вручную уменьшаем на 20 в каждой строке число, пока не дойдём до нуля

Пишут, что for поддерживает интервалы: ss64.com/nt/for_l.html Можно сделать что-то типа такого:

FOR /L %%G IN (100500,-20,0) DO echo URL%%G | wget --input-file=-

г) пока diary работают, ваши скачанные страницы будут выглядеть прилично, однако если они выключатся, всё оформление слетит. Впрочем, текст прочитать будет можно.

См. опции --page-requisites и --convert-links, а также --continue (чтобы не выкачивать одни и те же стили по сто раз), --recursive и --no-parent.

Зануда mode o--- O-- O-- Блин! Не выключается! Да и фиг с ним, все равно я его перед каждым комментарием включаю.

-- Minoru

URL

U-mail Профиль

zHz00

07.11.2017 в 22:39

Minoru: спасибо, буду изучать опции вгет. Пока я их знаю слабо.

Что касается копий, тут ты не прав. Бат-файлы всё запускают по очереди, поэтому копия вгет всегда одна.

URL

U-mail Дневник Профиль

Гость

07.11.2017 в 22:48

Копия wget всегда одна, но каждый раз новая — в последнем-то и проблема (но небольшая).

-- Minoru

URL

U-mail Профиль

zHz00

07.11.2017 в 22:57

А, теперь ясно, о чём ты. Да, метод можно усовершенствовать. Только вряд ли я это делать буду.

URL

U-mail Дневник Профиль

Foul thing

31.01.2020 в 18:42

О, я сюда из Гугла попал внезапно )

ПОТОМУШТО АРХИВ БЛЕВНИЧКА БОЛЬШЕ НЕЛЬЗЯ ЗОКАЗАДЬ!

URL

U-mail Дневник Профиль

zHz00

31.01.2020 в 22:27

Foul thing, это чудо правильного именования поста!

Ох ё, я и забыл, что я такую штуку придумал. Спасибо, что напомнил.

Данный метод всё ещё должен работать.

URL

U-mail Дневник Профиль

DDD

22.02.2020 в 15:20

Для дневничков я очередную качалку написал, но всем как обычно.

URL

U-mail Дневник Профиль

Ули

19.11.2020 в 16:10

Спасибо тебе, добрый человек, дай бог здоровья и всего хорошего.

URL

U-mail Дневник Профиль

Влюблённый ангел

26.01.2021 в 18:52

DDD, а где посмотреть?)

URL

U-mail Дневник Профиль

Ули

27.01.2021 в 14:02

Влюблённый ангел,
ее забанили и удалили, что-то такое.
так что скачивать либо вгетом, либо оффлайн эксплорером, либо методами, которые дыбр предлагает, они пока обновляют инфу по мере изменения дайров

URL

U-mail Дневник Профиль

Влюблённый ангел

29.01.2021 в 16:19

Ули, поняла, спасибо.
а если для дыбра качать их программкой, можно залить на дыбр и с дыбра сделать нормальный архив?
сразу он нормальным, как я поняла, не получается)

URL

U-mail Дневник Профиль

Ули

01.02.2021 в 18:27

Влюблённый ангел,
вроде да, кто-то предлагал такой вариант

URL

U-mail Дневник Профиль

Добавить комментарий

Расширенная форма

Использовать аватар

Изображения

Подписаться на новые комментарии