WikiSort.ru - Не сортированное

ПОИСК ПО САЙТУ | о проекте

Архивирование веб-сайтов — процесс сохранения текущей версии сайта в архиве для последующих исследований историками и обществом. Как правило, для архивирования используется специальное программное обеспечение — веб-сканер.

Крупнейшей компанией в мире в области архивирования интернета является «Internet Archive». С 2001 года работает Международный семинар архивирования интернета (The International Web Archiving Workshop), который позволяет обмениваться опытом. С 2003 года открыт Международный консорциум сохранения интернета (International Internet Preservation Consortium), которые занимаются разработкой стандартов и курируют разработку инструментов с открытым исходным кодом.

Предпосылки

Сайты в интернете могут исчезнуть по ряду разных причин. Материалы сайтов изменяются с течением времени — текст может быть переписан или удалён. Срок аренды доменного имени или самого сервера может истечь, сайт может быть закрыт из-за недостатка финансирования и т. д. В связи с этим актуальна проблема сохранения версий сайта. Существует несколько сервисов, ведущих архивацию на постоянной основе.

Собираемая информация

Веб-сканер призван в первую очередь сохранить текстовое наполнение сайта, но, в зависимости от конфигурации, сканер может сохранять html-разметку, таблицы стилей, динамические скрипты, изображения и видео.

Помимо содержания к архиву записываются метаданные о собранных ресурсах. MIME-типы, длина содержания, время и дата архивирования, доменное имя и адрес страницы, и т. п. Эти данные используются для навигации, а также полезны для установления подлинности и происхождения.

Методы сбора

Существует несколько способов архивирования интернета, ниже описана часть из них.

Удалённый сбор

Метод веб-архивирования отдельных сайтов, автоматизирующий сбор веб-страниц.

Примеры веб-сканеров для персональных компьютеров:

Онлайн-сервисы веб-сканеров:

Метод веб-паука

Метод веб-архивирования, которым пользуются поисковые системы при индексации сайтов. Суть способа в том, что паук сканирует документ на предмет гиперссылок и добавляет каждую в очередь, архивирует сайт и переходит по следующей ссылке в очереди.

Архивирование баз данных

Метод веб-архивирования, который основан на архивированию основного содержания сайта из базы данных.

Таким образом работают системы DeepArc и Xinq, разработанные Национальной библиотекой Франции и Национальной библиотекой Австралии, соответственно. Первая программа позволяет, используя реляционную базу данных, отображать информацию в виде XML-схемы; вторая программа позволяет запомнить оригинальное оформление сайта, соответственно создавая точную копию.

Архивирование транзакциями

Метод архивирования, который сохраняет данные, пересылаемые между веб-сервером и клиентом. Используется, как правило, для доказательств содержания, которое было предоставлено на самом деле в определённую дату. Такое программное обеспечение может потребоваться организациям, которые нуждаются в документировании информации такого типа.

Такое ПО, как правило, просто перехватывает все HTTP-запросы и ответы, фильтруя дубликаты ответов.

Проблемы архивирования

Сканеры

Для веб-архивов, которые полагаются на веб-сканеры, имеются следующие проблемы:

  • Сайт может запретить для просмотра часть сайта как для веб-сканера, так и для пользователей.
  • Часть сайта может быть скрыта в deep Web.
  • Ловушки для сборщиков (Crawler traps), например, генерируемые календари и телефонные списки, могут привести к чрезвычайно большому или бесконечному количеству страниц.
  • За время обхода сайта уже обойдённые страницы могут измениться.

Однако, технологии сбора способны выдавать в результате страницы с полностью работоспособными ссылками.

Общие ограничения

Иногда администратор сайта настраивает сервер так, что тот выдает нормальные документы лишь пользователям обычных браузеров, но генерирует иные данные для ботов, архиваторов, пауков и т. п. автоматических программ. Это делается с целью обмана поисковых систем или же для увеличения пропускной способности канала, чтобы веб-сервер выдавал пригодный для просмотра материал для устройства и не скачивал ничего лишнего.

Веб-архив сталкивается и с юридическими проблемами. Сохранённый в нём документ может оказаться объектом интеллектуальной собственности, и правообладатель может потребовать удалить его. В других случаях веб-архив может подвергнуться преследованию со стороны какого-либо государства. Правовой основой (поводом) такого преследования обычно выступает законодательство об охране приватности либо о запрете распространения информации. Если архив находится в другой стране, юридическая процедура, ведущая к блокировке сайта, может пройти без ведома и участия владельца ресурса, и он теряет возможность защищаться и опротестовывать решение (если такая возможность предусмотрена).

Аспекты архивирования

Веб-архивирование, как и любой другой вид деятельности, имеет юридические аспекты, которые необходимо учитывать в работе:

  • Сертификация в надёжности и целостности содержания веб-архива.
  • Сбор проверяемых веб-активов.
  • Предоставление поиска и извлечения из массива данных.
  • Сопоставимость содержания коллекции

Ниже представлен набор инструментов, который использует Консорциум по архивированию интернета

  • Heretrix — архивация.
  • NutchWAX — поиск коллекции.
  • Открытый исходный код «Wayback Machine» — поиск и навигация.
  • Web Curator Tool — выбор и управление.

Другие инструменты с открытым исходным кодом для манипуляций над веб-архивами:

  • WARC-инструменты — для программного создания, чтения, анализа и управления веб-архивами.

Просто бесплатное ПО:

  • Инструменты поиска Google — для полнотекстового поиска.
  • WSDK — набор утилит, Erlang-модулей для создания WARC-архива.

Компании, архивирующие интернет

Архив Интернета

В 1996 году была основана некоммерческая организация «Архив Интернета» (англ. Internet Archive). Архив собирает копии веб-страниц, графические материалы, видео-, аудиозаписи и программное обеспечение. Архив обеспечивает долгосрочное архивирование собранного материала и бесплатный доступ к своим базам данных для широкой публики. Размер Архива — 9 петабайт на декабрь 2012 года, еженедельно добавляется около 20 терабайт[1]. На начало 2009 года он содержал 85 миллиардов веб-страниц.[2], в мае 2014 года — 400 миллиардов[3]. Сервер Архива расположен в Сан-Франциско, зеркала — в Новой Александрийской библиотеке и Амстердаме. С 2007 г. Архив имеет юридический статус библиотеки. Основной веб-сервис архива — The Wayback Machine. Содержание веб-страниц фиксируется с временны́м промежутком c помощью бота. Таким образом, можно посмотреть, как выглядела та или иная страница раньше, даже если она больше не существует.

В июне 2015 года сайт был заблокирован на территории России по решению Генпрокуратуры РФ за архивы страниц, признанных содержащими экстремистскую информацию[4], позднее был исключён из реестра.

WebCite

«WebCite» — интернет-сервис, который выполняет архивирование веб-страниц по запросу. Впоследствии на заархивированную страницу можно сослаться через url. Пользователи имеют возможность получить архивную страницу в любой момент и без ограничений, и при этом неважен статус и состояние оригинальной веб-страницы, с которой была сделана архивная копия. В отличие от Архива Интернета, WebCite не использует веб-краулеров для автоматической архивации всех подряд веб-страниц. WebCite архивирует страницы только по прямому запросу пользователя. WebCite архивирует весь контент на странице — HTML, PDF, таблицы стилей, JavaScript и изображения. WebCite также архивирует метаданные о архивируемых ресурсах, такие как время доступа, MIME-тип и длину контента. Эти метаданные полезны для установления аутентичности и происхождения архивированных данных. Пилотный выпуск сервиса был выпущен в 1998 году, возрождён в 2003.

По состоянию на 2013 год проект испытывает финансовые трудности и проводит сбор средств, чтобы избежать вынужденного закрытия.

Peeep.us

Сервис Peeep.us позволяет сохранить копию страницы по запросу пользования, в том числе и из авторизованной зоны, которая потом доступна по сокращённому URL. Реализован на Google App Engine.

Сервис peeep.us, в отличие от ряда других аналогичных сервисов, получает данные на клиентской стороне — то есть, не обращается напрямую к сайту, а сохраняет то содержимое сайта, которое видно пользователю. Это может использоваться для того, чтобы можно было поделиться с другими людьми содержимым закрытого для посторонних ресурса. Таким образом, peeep.us не подтверждает, что по указанному адресу в указанный момент времени действительно было доступно заархивированное содержимое. Он подтверждает лишь то, что у инициировавшего архивацию по указанному адресу в указанный момент времени подгружалось заархивированное содержимое[5]. Таким образом, Peeep.us нельзя использовать для доказательства того, что когда-то на сайте была какая-то информация, которую потом намеренно удалили (и вообще для каких-либо доказательств). Сервис может хранить данные «практически вечно», однако оставляет за собой право удалять контент, к которому никто не обращался в течение месяца[6]. Возможность загрузки произвольных файлов делает сервис привлекальным для хостинга вирусов, из-за чего peeep.us регулярно попадаёт в чёрные списки браузеров[7].

Archive.is

Сервис archive.is (ранее archive.today) позволяет сохранять основной HTML-текст веб-страницы, все изображения, стили, фреймы и используемые шрифты, в том числе страницы с Веб 2.0-сайтов, например с Твиттер. С помощью archive.is также можно обходить блокировки сайтов, вставив ссылку на заблокированную страницу в окно «Архивировать страницу, которая сейчас онлайн» или в окно «Искать сохранённые страницы».

Веб-гётаку

Японский сервис megalodon.jp действует с 2006 года. Следует указаниям robots.txt[источник не указан 1479 дней].

Поисковые системы

Поисковики собирают страницы интернета для выполнения своего основного предназначения, и многие из них заодно дают доступ к недавно сохранённым копиям, представляя собой поверхностный во временном смысле архив.

Офлайн-браузеры

Для частного архива можно использовать один из офлайн-браузеров, которые специально спроектированы на преимущественную работу в офлайн-режиме — создании локальных копий веб-страниц и сайтов.

Примечания

  1. The Wayback Machine FAQ, 2014-12-01: «December 1, 2014 the Internet Archive Wayback Machine contains almost 9 petabytes of data and is currently growing at a rate of ~20 terabytes per week. This eclipses the amount of text contained in the world’s largest libraries, including the Library of Congress.»
  2. Крупнейший интернет-архив обзавелся новым дата-центром. Lenta.ru. Архивировано 25 августа 2011 года.
  3. Wayback Machine Hits 400,000,000,000! // Web Archive blog, May 9, 2014
  4. Георгий Перемитин. РБК (25 июня 2015).
  5. Алексей Козлов. Сайт дня: Peeep.us — вечная жизнь веб-страниц // ferra.ru 13.06.2012
  6. Frequently Asked Questions. peeep.us. Проверено 19 августа 2017.
  7. Google Transparency Report

Литература

Ссылки

Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".

Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.

Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .




Текст в блоке "Читать" взят с сайта "Википедия" и доступен по лицензии Creative Commons Attribution-ShareAlike; в отдельных случаях могут действовать дополнительные условия.

Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.

2019-2024
WikiSort.ru - проект по пересортировке и дополнению контента Википедии