Программа для скачивания текущей страницы. Как просмотреть то, что мы скачали

19.03.2019

Скачать сайт целиком. Как это сделать и зачем это нужно?

Зачастую для сохранения важной информации с сайта используется сочетание клавиш Ctrl + S , работающее в любом браузере .

В некоторых случаях может возникнуть необходимость в скачивании большего объема информации и сохранении десятков, а, может, и сотен страниц вручную, а это может занять довольно много времени и сил.

Для решения таких задач существуют специальные и программные продукты .

К преимуществам on —line ресурсов для скачивания можно отнести кроссплатформенность и отсутствие необходимости в установке программного обеспечения на компьютер.

Под кроссплатформенностью следует понимать возможность работы независимо от операционной системы , установленной на ПК.

Таким образом, скачивание сайтов с помощью on —line ресурсов более универсальное, нежели с помощью специальных программ.

Но недостатком такого способа является скудный выбор сервисов, а также отсутствие продвинутых настроек, в отличие от аналогичного программного обеспечения.

Обзор on —line сервисов для скачивания сайтов

Недостатки:

— платная;
— нет поддержки русского языка;
— программа работает только в среде MS Windows;
— архаичный интерфейс программы.

Offline Explorer Pro .

Программа от компании Metaproducts , для работы в среде MS Windows , за которую разработчики просят довольно немаленькие деньги.

Рассматриваемая в обзоре программа HTTrack Website Copier для загрузки сайта в наше время уже не настолько востребована, как раньше. В наше время высокая скорость и безлимитный Интернет позволяет просматривать любые сайты. А не так давно многим пользователям было удобнее скачать сайт целиком и просматривать его локальную копию на своём компьютере без подключения к Интернету. Однако во многих случаях, например, для изучения структуры сайта, утилита HTTrack Website Copier может пригодиться и сейчас. Программа позволяет загружать сайт в соответствии с заданными правилами и сохранять его локальное зеркало на нашем компьютере.

Перед тем, как начнётся скачивание сайта, необходимо создать в HTTrack Website Copier проект, где мы определим все параметры загрузки. Жмём кнопку [Далее] в окне программы.

В поле Имя нового проекта вводим название проекта, также указываем категорию и Каталог , где будет сохраняться загружаемая информация. Если проект уже был создан ранее, его можно выбрать в списке для продолжения загрузки или изменения параметров.

На следующем этапе потребуется указать адрес загружаемого сайта (или несколько ссылок), а также выбрать способ загрузки. HTTrack Website Copier поддерживает несколько способов: загрузка сайтов, загрузка отдельных файлов, всех сайтов с указанной страницы, тестирование ссылок со страницы, продолжение прерванной загрузки или обновление существующей закачки. Список загружаемых сайтов можно составить и сохранить в текстовой файл, после чего указать его в поле URL list (.txt) .

Кнопка [Задать параметры…] открывает массу дополнительных параметров загрузки сайта. Здесь можно указать прокси-сервер, каким браузером будет идентифицировать себя HTTrack Website Copier, определить нижний колонтитул на HTML-страницах, настроить параметры логов и кеширования. Кстати, в программе «кривой перевод», поэтому все пункты меню, где встретится слова «мода», его нужно рассматривать как «режим», например: «Мода сканирования» - «Режим сканирования».

Ещё несколько параметров рассмотрим подробнее. Вкладка Фильтры позволяет ограничить загрузку нежелательных типов файлов. Например, чтобы исключить мелкие картинки (баннеры, иконки, аватарки) формата GIF, можно ввести «-*.gif ». Для включения в загрузку определённых указываем маску со знаком +. Программа позволяет создавать и более гибкие правила, в том числе файлы или каталоги, в имени которых есть указанный текст, ссылки с указанных доменов, или содержащие указанный текст и т.д.

Вкладка Ограничения поможет настроить такие параметры, как Максимальная глубина , это количество уровней ссылок. Например, при значении, равном 2, HTTrack Website Copier скопирует главную страницу сайта и страницы, которые открываются по ссылкам с неё. Параметр Максимальная глубина внешних ограничивает уровень сканирования и закачки других сайтов, ссылки на которые могут быть на загружаемом сайте. Здесь же задаются ограничения на размер загружаемых html- и других страниц, максимальный размер сайта, время и скорость загрузки. Выбрать представление структуры загружаемого сайта можно во вкладке Структура .

По завершении настроек можно сразу запустить закачку сайта или отложить её на потом. Во время загрузки сайта отображается сканируемая страница или папка, а также скорость соединения, загрузки, размер сохранённой информации, количество просканированных и сохранённых страниц/каталогов. Прервать загрузку сайта в HTTrack Website Copier можно нажатием кнопки [Отмена] . Лог закачки поможет получить информацию о загруженных страницах и файлах.

Чтобы просмотреть загруженный сайт, жмём кнопку [Просмотр зеркала] , после чего локальная копия сайта загружается в браузере. Для этого даже не требуется подключение к интернету. Обратим внимание, все ссылки на сайте HTTrack Website Copier подменяет на локальные, благодаря чему возможна навигация по сайту:

Характеристики:
Язык интерфейса: русский, английский и др.
ОС: Windows 2000, XP, Vista, 7
Размер файла: 3,8 Мб
Лицензия: бесплатная

Обновление локальной копии
Для того, чтобы продолжить скачивание большого блога или синхронизировать локальную версию с тем, что есть в Интернете, httrack может обновить скачанный проект. Насколько я понял, для этого нужно добавить к вышеупомянутому заклинанию ключик --update

То есть для обновления уже скачанного блога с blogspot из директории, где находится директория hts-cache (в ней лежит файл hts-cache/doit.log который содержит все нужные параметры) и пишем:

httrack "http://ВАШБЛОГТУТ .blogspot.com/" "+*.css" "+*.js" "+*.jpg" "+*.jpeg" "+*.tiff" "+*.png" "+*.gif" "+*.giff" "+*.swf" "+.ico" -v --disable-security-limits -s0 "-*666*" "-*BlogBacklinkURL*" --update

И httrack пытается обновить проект. И обновляет его, выкачивая оставшиеся файлы. Кстати, чтобы пропускать файлы со слишком тормозных серверов, можно ещё тайм-аут для httrack поставить поменьше, добавив ключик --timeout 20 после чего тайм-аут будет 20 секунд.

Отмечу так же, что в каталоге hts-cache лежат два больших архива в формате ZIP - так вот, удалить можно только тот из них, который называется old.zip, а new.zip лучше не трогать. Дело в том, что эти файлы содержат информацию, необходимую httrack для обновления скачанного сайта, и если эти файлы удалить, то вы не сможете просто обновить копию (придётся выкачивать всё заново).

Ссылки в тему
Над этой темой бились лучшие умы блоговедения и блоготехники, достижения коих увековечены к примеру в заметке Дмитрия Конищева Создание зеркала сайта и в посте Андрея Афанасенко Архив блога/blogarchive . За что оным умам (а так же всем, кто принимал участие в обсуждениях) низкий поклон и огромная благодарность.
Так же благодарность тов. vnaum за то, что разыскал в дебрях документации к Блоггеру ссылку на возможность получить все посты Blogger с помощью скриптов на Python.

15 комментариев: | | RSS-лента дискуссии. |

Programmaster комментирует... 21 дек. 2009 г., 16:53:00

Любопытненько. Передо мной задача зеркалирования блога не вставала, но задумка интересная. Попробую-ка свой скопировать ради интереса…

Olly Cat комментирует... 21 дек. 2009 г., 20:31:00

Спасибо, очень интересно и познавательно. Надо подумать как теперь это дело использовать для переноса с одного блога на другой (давно хотел перенести свой старый ЖЖ в блогспот, да руки все не доходили).

Сергей комментирует... 21 дек. 2009 г., 22:41:00

Хотел заметить, что получить архив своего блога проще всего из панели управления — Настройки/Основные сведения/Инструменты блога/Экспорт блога. И получаем XML со всем-всем-всем. Хороший XML. Только данные (но в том числе и все настройки-стили), никакого генерируемого HTML.

У меня была мысль, что можно написать скрипт, формирующий по этому XML-архиву документ TeX, вестаемый автоматически для чтения оффлайн — под печать или e-book. Вроде ljbook или blurb, но лучше:-) Дарю идею.

vnaum комментирует... 23 дек. 2009 г., 00:23:00

Ну и мои две копейки:
http://code.google.com/apis/blogger/docs/1.0/developers_guide_python.html#RetrievingWithoutQuery

(python-gdata в дебиане есть)

virens комментирует... 23 дек. 2009 г., 01:59:00

@ Programmaster пишет...
Любопытненько. Передо мной задача зеркалирования блога не вставала, но задумка интересная.
Скоро встанет такая задача и перед тобой, когда постов будет за сотню. Не всегда есть подключение к интернету - вон в МИФИ вторую неделю интернета нету. Хотя он уж и не МИФИ, я нияу... но не суть.

@ Olly Cat пишет...
Надо подумать как теперь это дело использовать для переноса с одного блога на другой (давно хотел перенести свой старый ЖЖ в блогспот, да руки все не доходили).
Таким способом, думаю, вряд ли. Блогспот загружает один здоровенный XML-файл, но я без понятия, как его сформировать.

@ Сергей пишет...
Хотел заметить, что получить архив своего блога проще всего из панели управления — Настройки/Основные сведения/Инструменты блога/Экспорт блога. И получаем XML со всем-всем-всем.
О, а вот и оберфельдфебель Эвиденц в тред нагрянул! :-)) Извини, Сергей, не смог удержаться;-))

Хороший XML. Только данные (но в том числе и все настройки-стили), никакого генерируемого HTML.
Хорошая девочка Лида, а чем же она хороша?! :-)
Серьёзно, просмотреть его не получается. А раздавать этот файл всем - это у меня и так статьи тырят, а там просто двойники пойдут косяками.

У меня была мысль, что можно написать скрипт, формирующий по этому XML-архиву документ TeX, вестаемый автоматически для чтения оффлайн — под печать или e-book.
Ох ты ёлки-лампочки... Вот до чего хаскель-то доводит, мамочки, поди ж ты... :-)

@vnaum пишет...
Ну и мои две копейки
Это целый рубль, vnaum! Спасибо!

P.S. Прошу простить за немного ироничные ответы, т.к. писал весь день отчёты. После этого сильно пробивает на посмеяться:-)

В наше время, когда интернет доступен практически в любой момент, иногда возникает необходимость скачать сайт целиком. Зачем это нужно? Причины могут быть разные: и желание сохранить важную информацию на будущее, и необходимость получить доступ к нужным данным при отсутствии доступа в сеть, и возможность ознакомиться с тем, как сверстаны страницы. Могут быть и другие резоны. Важно знать, как выполнить эту задачу, и далее мы покажем несколько способов как сделать копию сайта для последующего его использования в оффлайн режиме.

Самый простой способ о котором все знают, даже если ни разу не пользовались. Эта возможность есть в любом браузере. Достаточно лишь нажать комбинацию клавиш «Ctrl»+«S», после чего в открывшемся окне отредактировать название сохраняемой страницы и указать папку, в которую ее следует поместить.

Казалось бы, куда проще. Вот только есть в этом способе один существенный недостаток. Мы скачали всего лишь одну страницу, а в интересующем нас сайте таких страниц может быть весьма большое количество.

Хорошо, если сайт маленький, или состоит всего из одной страницы, а если нет? Придется выполнять это действие для каждый из них. В общем, работа для усидчивых и целеустремленных, не знающих об одном из основных двигателей прогресса.

Способ 2. Использование онлайн-сервисов

Вот оно, самое простое решение. Сейчас много есть полезных онлайн-ресурсов для перекодирования файлов, редактирования аудиофайлов и т. п. Среди достоинств этого метода – кроссплатформенность, отсутствие необходимости захламлять свою операционную систему утилитами, которые, возможно, понадобятся лишь однажды.

Всего делов-то, зайти на такой ресурс, ввести в строку адрес интересующего сайта, нажать кнопку запуска процесса скачивания и подставить «емкость», в которую польется интересующая информация…

В теории так, но, к сожалению, подобных онлайн-ресурсов, позволяющих скачать сайт целиком, раз, два, три и… И, пожалуй, все, если говорить о бесплатной возможности сохранить копию сайта на компьютер. А за все остальное придется платить, или мириться с урезанным функционалом.

Но давайте рассмотрим примеры поближе.

Едва ли не единственный бесплатный и русскоязычный ресурс. Интерфейс предельно прост. В строке вводим адрес интересующего сайта, вводим капчу, нажимаем кнопку «Скачать» и ждем…

Процесс небыстрый, к тому же с первого раза может и не получиться. Если все удачно, то на выходе получим архив с сайтом.

Условно-бесплатный ресурс, позволяющий один раз воспользоваться его услугами бесплатно, после чего за скачивание сайтов придется платить.

Работает webparse.ru быстрее предыдущего ресурса, но делает это не бесплатно. В итоге получаем архив со скачанным сайтом. В настройках нет настройки глубины парсинга структуры скачиваемого сайта, поэтому убедиться, что удалось скачать сайт полностью, придется только самостоятельной сверкой оригинала и его копии.

Другие ресурсы

Среди других способов можно отметить ресурс , создающий PDF-файл со страницами скачиваемого сайта. Естественно, часть функционала сайта будет утеряна. Если это допустимо, то воспользоваться данным ресурсом можно.

Еще один ресурс, позволяющий скачать сайт – . К сожалению, пользоваться им можно только на платной основе.

Способ 3. Специализированные программы

Использование утилит для скачивания файлов — пожалуй, наиболее функциональный вариант, позволяющий добиться своей цели. Придется смириться с тем, что в системе появятся дополнительные программы, одна часть из которых бесплатна, а другая – более меркантильна и требует за выполнение тех же функций поощрение. Причем, бес платные программы (иногда их еще называют оффлайн-браузерами) по возможностям практически не уступают платным аналогам.

В отличие от онлайн-сервисов, подобная программа работает гораздо быстрее, хотя придется искать подходящую под вашу ОС версию этого ПО. Некоторые программы можно найти не только для ОС Windows, но и для других.

Рассмотрим несколько примеров таких программ.

WinHTTrack WebSite Copier

Одна из самых популярных программ, предназначенных для создания оффлайн-копий сайтов. Справедливости ради надо сказать, что бесплатных аналогов практически нет.

Для того, чтобы пользоваться программой, надо скачать с сайта разработчика подходящую версию, проинсталлировать ее в свою систему и запустить. В первом окне будет предложено выбрать язык интерфейса. Среди всех вариантов есть и русский.

Интерфейс программы прост и запутаться в нем не получится. В первом окне надо указать имя и категорию проекта, а также указать место, где будет храниться скачиваемый сайт.

Теперь надо ввести адрес сайта, который надо скачать. Программа имеет большое количество настроек, где задается глубина просмотра сайта, определяются фильтры, указывающие что скачивать надо, а что – нет. Например, можно запретить скачку изображений, исполняемых файлов и т. п. Настроек много, и если есть необходимость, можно внимательно с ними ознакомиться.

В следующем окне надо нажать кнопку «Готово», после чего остается только дождаться окончания процесса. По окончании в указанной папке будут находиться файлы скачанного сайта. Для того, чтобы открыть его для просмотра необходимо выбрать файл index.htm.

Теперь папку с проектом можно скачивать на любой носитель и просматривать там, где это удобно.

Англоязычная программа с солидно выглядящим интерфейсом и большими возможностями по настройке процедуры скачивания сайта. Достаточно только вести адрес интересующего ресурса, указать папку, в которую сохранить скачанные данные и нажать кнопку «Copy Website».

Все, теперь остается дождаться окончания работы программы и в указанном места найти файл «index.htm», который и будет начальной страницей ресурса, который подготовили для оффлайн-просмотра.

Из недостатков можно отметить только отсутствие русификации, а также то, что Cyotek WebCopy работает только на ОС Windows, начиная с версии Vista. Версий под другие ОС нет.

Teleport Pro

Одна из старейших программ, к сожалению, платная. Имеется тестовый период. После установки и запуска появится главное окно, где необходимо указать режим скачивания сайта. Это может быть полная копия, можно сохранить только определенный тип файлов и т. п.

После этого надо создать новый проект, который будет ассоциирован со скачиваемым сайтом и ввести адрес интересующего интернет-ресурса. По умолчанию глубина переходов по страницам имеет значение 3. Этот параметр можно изменить. После этого можно нажать кнопку «Далее».

Создастся новый проект, необходимо указать папку, в которую сохранять данные. Для запуска процедуры скачивания надо нажать кнопку «Start» (синий треугольник) в панели управления. Начнется процесс сохранения сайта на ваш диск.

Offline Explorer

Еще одна платная, но весьма функциональная программа. Есть русифицированная версия. Триальная версия работает 30 дней, при этом есть ограничение на количество скачиваемых файлов – 2000. Программа существует разновидностях Standard, Pro и Enterprise. Самая дешевая версия стоит 59.95$, а самая дорогая – 599.95$.

Как и в других программах, работа начинается с того, что необходимо создать новый проект и указать адрес интересующего сайта. Доступно большое количеств настроек, при помощи которых можно отфильтровать ненужную информацию, задать глубину просмотра сайта и т. п.

После того как проект создан, отредактированы параметры загрузки, можно нажать кнопку «Загрузить» и дожидаться результата.

Возможностей у программы действительно много. Есть многопоточная загрузка, собственный веб-сервер для просмотра того, что было скачано, масса настроек. Если оценивать все возможности, то программа действительно ценная (уж простите за тавтологию), вот только стоимость ее неприлично высока.

Webcopier

Платная программа с 15-дневным триальным периодом. Существует в версиях для Windows и Mac OS. Алгоритм работы не отличается оригинальностью, что, впрочем, является плюсом. Для скачивания сайта надо создать новый проект, ввести URL.

Мастер попросит ответить на несколько вопросов, например, ввести логин и пароль пользователя на скачиваемом сайте, указать папку назначения, позволит изменить некоторые параметры, например, отключить возможность скачивания изображений. После окончания создания проекта для начала процедуры создания локальной копии сайта надо нажать кнопку «Start download». Будет отображаться процесс при помощи графика, показывающего скорость работы, а также время работы.

Заключение

Возможностей создать локальную коллекцию нужных сайтов для их просмотра достаточно. Есть и онлайн-ресурсы, есть и специализированное ПО. Каждый из вариантов имеет свои достоинства и недостатки. К сожалению, большинство программ платные, и готовы ли вы раскошелиться за более широкий функционал или достаточно того, что умеют бесплатные утилиты – решать каждому самостоятельно.

Прежде чем отдавать предпочтение тому или иному решению, следует попробовать их все, благо даже платные программы имеют тестовый период, пусть и с некоторыми ограничениями. Это позволит оценить возможности этого ПО, понять, необходим ли вам весь этот функционал, насколько корректно производится скачивание сайтов.

Занимаясь различными способами заработка в интернете, например, нередко требуется скопировать одностраничные сайты.

Зачем создавать лендинги, когда их можно позаимствовать? Сделать это не сложно, тем более уже созданы специальные программы для этого.

Как скопировать любой сайт? Сначала нужно скачать его на компьютер, а потом перенести на хостинг, предварительно внеся изменения (например, изменив ссылки).

Всего несколько минут уходит на это, если использовать Httrack website copier. Это бесплатная утилита, у которой есть русская версия.

Копирование сайта целиком

У Httrack website copier есть много аналогов, в большинстве своем они платные (например, Offline Explorer). Платить не надо, функционала этой программы хватает.

Скачивайте её с официального сайта (httrack), учитывая версию своей операционной системы.

Устанавливается она как любая другая программа, а после запуска нужно проделать следующие действия:

Создавайте новый проект, имя указывайте произвольное. Категорию можно оставить пустой. Выбирайте папку, куда сохранятся данные и жмите далее:

Дальше выбираете тип операции, оставляйте без изменения загрузку сайта и прописывайте адрес ресурса:

На предыдущем шаге, перед нажатием «Далее», необходимо открыть «Задать параметры». Там открывайте вкладку с фильтрами, чтобы избавиться от весомых и ненужных файлов:

Также зайдите на вкладку с ограничениями, чтобы указать, насколько далеко от указанной страницы нужно загружать сайт. Если это одностраничный сайт, настройки не трогайте:

Если хотите, чтобы сайт загрузился максимально быстро, установите флажки на вкладке «Линки», как это показано на изображении:

Последняя дополнительная настройка это выбор способа сохранения файлов. Выбирайте структуру сайта на вкладке «Структура»:

Когда все параметры настроены, можно жать кнопку «ОК» и возвращаться к продолжению загрузки. Всё, что остается сделать, это оставить галочку на первом пункте и нажать «Готово»:

Начнется процедура загрузки файлов, нужно дождаться, пока она закончится. Время зависит от объема данных:

Теперь на вашем компьютере появится папка, в которой сохранены все данные копируемого сайта. Можете зайти в неё и открыть файл HTML в браузере, чтобы проверить, всё ли правильно отображается:

Последний шаг копирования сайта, это его перенос на хостинг. Там всё просто, копируете данные и привязываете заранее арендованный домен. Всё, можно ввести адрес сайта и проверить, всё ли получилось.

Программа Httrack website copier помогает, как сохранить страницу сайта, так и загрузить его полностью. С помощью этой простой утилиты, можно использовать любые красивые одностраничники и повышать конверсию, только не забывайте вносить изменения в код, как минимум, редактируя внешние ссылки.