WikiSort.ru - Не сортированное

ПОИСК ПО САЙТУ | о проекте

Архивирование веб-сайтов — процесс сохранения текущей версии сайта в архиве для последующих исследований историками и обществом. Как правило, для архивирования используется специальное программное обеспечение — веб-сканер.

Крупнейшей компанией в мире в области архивирования интернета является «Internet Archive». С 2001 года работает Международный семинар архивирования интернета (The International Web Archiving Workshop), который позволяет обмениваться опытом. С 2003 года открыт Международный консорциум сохранения интернета (International Internet Preservation Consortium), которые занимаются разработкой стандартов и курируют разработку инструментов с открытым исходным кодом.

Предпосылки

Сайты в интернете могут исчезнуть по ряду разных причин. Материалы сайтов изменяются с течением времени — текст может быть переписан или удалён. Срок аренды доменного имени или самого сервера может истечь, сайт может быть закрыт из-за недостатка финансирования и т. д. В связи с этим актуальна проблема сохранения версий сайта. Существует несколько сервисов, ведущих архивацию на постоянной основе.

Собираемая информация

Веб-сканер призван в первую очередь сохранить текстовое наполнение сайта, но, в зависимости от конфигурации, сканер может сохранять html-разметку, таблицы стилей, динамические скрипты, изображения и видео.

Помимо содержания к архиву записываются метаданные о собранных ресурсах. MIME-типы, длина содержания, время и дата архивирования, доменное имя и адрес страницы, и т. п. Эти данные используются для навигации, а также полезны для установления подлинности и происхождения.

Методы сбора

Существует несколько способов архивирования интернета, ниже описана часть из них.

Удалённый сбор

Метод веб-архивирования отдельных сайтов, автоматизирующий сбор веб-страниц.

Примеры веб-сканеров для персональных компьютеров:

Онлайн-сервисы веб-сканеров:

Метод веб-паука

Метод веб-архивирования, которым пользуются поисковые системы при индексации сайтов. Суть способа в том, что паук сканирует документ на предмет гиперссылок и добавляет каждую в очередь, архивирует сайт и переходит по следующей ссылке в очереди.

Архивирование баз данных

Метод веб-архивирования, который основан на архивированию основного содержания сайта из базы данных.

Таким образом работают системы DeepArc и Xinq, разработанные Национальной библиотекой Франции и Национальной библиотекой Австралии, соответственно. Первая программа позволяет, используя реляционную базу данных, отображать информацию в виде XML-схемы; вторая программа позволяет запомнить оригинальное оформление сайта, соответственно создавая точную копию.

Архивирование транзакциями

Метод архивирования, который сохраняет данные, пересылаемые между веб-сервером и клиентом. Используется, как правило, для доказательств содержания, которое было предоставлено на самом деле в определённую дату. Такое программное обеспечение может потребоваться организациям, которые нуждаются в документировании информации такого типа.

Такое ПО, как правило, просто перехватывает все HTTP-запросы и ответы, фильтруя дубликаты ответов.

Проблемы архивирования

Сканеры

Для веб-архивов, которые полагаются на веб-сканеры, имеются следующие проблемы:

Сайт может запретить для просмотра часть сайта как для веб-сканера, так и для пользователей.
Часть сайта может быть скрыта в deep Web.
Ловушки для сборщиков (Crawler traps), например, генерируемые календари и телефонные списки, могут привести к чрезвычайно большому или бесконечному количеству страниц.
За время обхода сайта уже обойдённые страницы могут измениться.

Однако, технологии сбора способны выдавать в результате страницы с полностью работоспособными ссылками.

Общие ограничения

Иногда администратор сайта настраивает сервер так, что тот выдает нормальные документы лишь пользователям обычных браузеров, но генерирует иные данные для ботов, архиваторов, пауков и т. п. автоматических программ. Это делается с целью обмана поисковых систем или же для увеличения пропускной способности канала, чтобы веб-сервер выдавал пригодный для просмотра материал для устройства и не скачивал ничего лишнего.

Веб-архив сталкивается и с юридическими проблемами. Сохранённый в нём документ может оказаться объектом интеллектуальной собственности, и правообладатель может потребовать удалить его. В других случаях веб-архив может подвергнуться преследованию со стороны какого-либо государства. Правовой основой (поводом) такого преследования обычно выступает законодательство об охране приватности либо о запрете распространения информации. Если архив находится в другой стране, юридическая процедура, ведущая к блокировке сайта, может пройти без ведома и участия владельца ресурса, и он теряет возможность защищаться и опротестовывать решение (если такая возможность предусмотрена).

Аспекты архивирования

Веб-архивирование, как и любой другой вид деятельности, имеет юридические аспекты, которые необходимо учитывать в работе:

Сертификация в надёжности и целостности содержания веб-архива.
Сбор проверяемых веб-активов.
Предоставление поиска и извлечения из массива данных.
Сопоставимость содержания коллекции

Ниже представлен набор инструментов, который использует Консорциум по архивированию интернета

Heretrix — архивация.
NutchWAX — поиск коллекции.
Открытый исходный код «Wayback Machine» — поиск и навигация.
Web Curator Tool — выбор и управление.

Другие инструменты с открытым исходным кодом для манипуляций над веб-архивами:

WARC-инструменты — для программного создания, чтения, анализа и управления веб-архивами.

Просто бесплатное ПО:

Инструменты поиска Google — для полнотекстового поиска.
WSDK — набор утилит, Erlang-модулей для создания WARC-архива.

Компании, архивирующие интернет

Архив Интернета

В 1996 году была основана некоммерческая организация «Архив Интернета» (англ. Internet Archive). Архив собирает копии веб-страниц, графические материалы, видео-, аудиозаписи и программное обеспечение. Архив обеспечивает долгосрочное архивирование собранного материала и бесплатный доступ к своим базам данных для широкой публики. Размер Архива — 9 петабайт на декабрь 2012 года, еженедельно добавляется около 20 терабайт^[1]. На начало 2009 года он содержал 85 миллиардов веб-страниц.^[2], в мае 2014 года — 400 миллиардов^[3]. Сервер Архива расположен в Сан-Франциско, зеркала — в Новой Александрийской библиотеке и Амстердаме. С 2007 г. Архив имеет юридический статус библиотеки. Основной веб-сервис архива — The Wayback Machine. Содержание веб-страниц фиксируется с временны́м промежутком c помощью бота. Таким образом, можно посмотреть, как выглядела та или иная страница раньше, даже если она больше не существует.

В июне 2015 года сайт был заблокирован на территории России по решению Генпрокуратуры РФ за архивы страниц, признанных содержащими экстремистскую информацию^[4], позднее был исключён из реестра.

WebCite

«WebCite» — интернет-сервис, который выполняет архивирование веб-страниц по запросу. Впоследствии на заархивированную страницу можно сослаться через url. Пользователи имеют возможность получить архивную страницу в любой момент и без ограничений, и при этом неважен статус и состояние оригинальной веб-страницы, с которой была сделана архивная копия. В отличие от Архива Интернета, WebCite не использует веб-краулеров для автоматической архивации всех подряд веб-страниц. WebCite архивирует страницы только по прямому запросу пользователя. WebCite архивирует весь контент на странице — HTML, PDF, таблицы стилей, JavaScript и изображения. WebCite также архивирует метаданные о архивируемых ресурсах, такие как время доступа, MIME-тип и длину контента. Эти метаданные полезны для установления аутентичности и происхождения архивированных данных. Пилотный выпуск сервиса был выпущен в 1998 году, возрождён в 2003.

По состоянию на 2013 год проект испытывает финансовые трудности и проводит сбор средств, чтобы избежать вынужденного закрытия.

Peeep.us

Сервис Peeep.us позволяет сохранить копию страницы по запросу пользования, в том числе и из авторизованной зоны, которая потом доступна по сокращённому URL. Реализован на Google App Engine.

Сервис peeep.us, в отличие от ряда других аналогичных сервисов, получает данные на клиентской стороне — то есть, не обращается напрямую к сайту, а сохраняет то содержимое сайта, которое видно пользователю. Это может использоваться для того, чтобы можно было поделиться с другими людьми содержимым закрытого для посторонних ресурса. Таким образом, peeep.us не подтверждает, что по указанному адресу в указанный момент времени действительно было доступно заархивированное содержимое. Он подтверждает лишь то, что у инициировавшего архивацию по указанному адресу в указанный момент времени подгружалось заархивированное содержимое^[5]. Таким образом, Peeep.us нельзя использовать для доказательства того, что когда-то на сайте была какая-то информация, которую потом намеренно удалили (и вообще для каких-либо доказательств). Сервис может хранить данные «практически вечно», однако оставляет за собой право удалять контент, к которому никто не обращался в течение месяца^[6]. Возможность загрузки произвольных файлов делает сервис привлекальным для хостинга вирусов, из-за чего peeep.us регулярно попадаёт в чёрные списки браузеров^[7].

Archive.is

Сервис archive.is (ранее archive.today) позволяет сохранять основной HTML-текст веб-страницы, все изображения, стили, фреймы и используемые шрифты, в том числе страницы с Веб 2.0-сайтов, например с Твиттер. С помощью archive.is также можно обходить блокировки сайтов, вставив ссылку на заблокированную страницу в окно «Архивировать страницу, которая сейчас онлайн» или в окно «Искать сохранённые страницы».

Веб-гётаку

Японский сервис megalodon.jp действует с 2006 года. Следует указаниям robots.txt^{[источник не указан 1479 дней]}.

Поисковые системы

Поисковики собирают страницы интернета для выполнения своего основного предназначения, и многие из них заодно дают доступ к недавно сохранённым копиям, представляя собой поверхностный во временном смысле архив.

Офлайн-браузеры

Для частного архива можно использовать один из офлайн-браузеров, которые специально спроектированы на преимущественную работу в офлайн-режиме — создании локальных копий веб-страниц и сайтов.

Примечания

↑ The Wayback Machine FAQ, 2014-12-01: «December 1, 2014 the Internet Archive Wayback Machine contains almost 9 petabytes of data and is currently growing at a rate of ~20 terabytes per week. This eclipses the amount of text contained in the world’s largest libraries, including the Library of Congress.»
↑ Крупнейший интернет-архив обзавелся новым дата-центром (неопр.). Lenta.ru. Архивировано 25 августа 2011 года.
↑ Wayback Machine Hits 400,000,000,000! // Web Archive blog, May 9, 2014
↑ Георгий Перемитин. РБК (неопр.) (25 июня 2015).
↑ Алексей Козлов. Сайт дня: Peeep.us — вечная жизнь веб-страниц // ferra.ru 13.06.2012
↑ Frequently Asked Questions (неопр.). peeep.us. Проверено 19 августа 2017.
↑ Google Transparency Report

Литература

Brown, A. Archiving Websites: a practical guide for information management professionals. — Facet Publishing, 2006. — ISBN 1-85604-553-6.
Brügger, N. Archiving Websites. General Considerations and Strategies. — The Centre for Internet Research, 2005. — ISBN 87-990507-0-6.
Day, M. (2003). “Preserving the Fabric of Our Lives: A Survey of Web Preservation Initiatives” (PDF). Research and Advanced Technology for Digital Libraries: Proceedings of the 7th European Conference (ECDL): 461—472.
Eysenbach, G. and Trudel, M. (2005). “Going, going, still there: using the WebCite service to permanently archive cited web pages”. Journal of Medical Internet Research. 7 (5): e60. DOI:10.2196/jmir.7.5.e60. PMC 1550686. PMID 16403724.
Fitch, Kent (2003). "Web site archiving — an approach to recording every materially different response produced by a website". Ausweb 03. Проверено 2015-01-31.
Jacoby, Robert Archiving a Web Page (неопр.) (August 19, 2010). Проверено 23 октября 2010. Архивировано 3 января 2011 года.
Lyman, P. (2002). “Archiving the World Wide Web”. Building a National Strategy for Preservation: Issues in Digital Media Archiving.
Masanès, J. (ed.). Web Archiving. — Springer-Verlag, 2006. — ISBN 3-540-23338-5.
Toyoda, M., Kitsuregawa, M. (2012). “The History of Web Archiving”. Proceedings of the IEEE. 100 (special centennial issue). DOI:10.1109/JPROC.2012.2189920.
Алексей Кутовенко. Интернет-летописцы. Сервисы кэширования веб-ресурсов // Мир ПК : журнал. — 2011. — № 6. — С. 58—61. — ISSN 02353520.

Ссылки

Нежурбеда Г. Г. Создание архивов Интернет-документов как новая задача национальных библиотек / IX Конференция Крым-2002 «Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества», СЕКЦИЯ 3: СЕТЕВЫЕ ТЕХНОЛОГИИ, МУЛЬТИМЕДИА И ИНТЕРНЕТ В БИБЛИОТЕКАХ
International Internet Preservation Consortium (IIPC) — International consortium whose mission is to acquire, preserve, and make accessible knowledge and information from the Internet for future generations (англ.)
International Web Archiving Workshop (IWAW) — Annual workshop that focuses on web archiving, 2001—2010 (англ.)
National Library of Australia, Preserving Access to Digital Information (PADI) (англ.)
Library of Congress — Web Archiving (англ.)
Web archiving bibliography — Список архиваторов веб-сайтов, 2004 (англ.)
Julien Masanès, Bibliothèque Nationale de France — Towards continuous web archiving. First Results and an Agenda for the Future / D-Lib Magazine, December 2002, Volume 8 Number 12. ISSN 1082-9873 (англ.)
Сравнение веб-архиваторов (англ.)

Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".

Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.

Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .

Текст в блоке "Читать" взят с сайта "Википедия" и доступен по лицензии Creative Commons Attribution-ShareAlike; в отдельных случаях могут действовать дополнительные условия.

Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.

2019-2025
WikiSort.ru - проект по пересортировке и дополнению контента Википедии

[1] The Wayback Machine FAQ, 2014-12-01: «December 1, 2014 the Internet Archive Wayback Machine contains almost 9 petabytes of data and is currently growing at a rate of ~20 terabytes per week. This eclipses the amount of text contained in the world’s largest libraries, including the Library of Congress.»

[2] Крупнейший интернет-архив обзавелся новым дата-центром (неопр.). Lenta.ru. Архивировано 25 августа 2011 года.

[3] Wayback Machine Hits 400,000,000,000! // Web Archive blog, May 9, 2014

[4] Георгий Перемитин. РБК (неопр.) (25 июня 2015).

[5] Алексей Козлов. Сайт дня: Peeep.us — вечная жизнь веб-страниц // ferra.ru 13.06.2012

[6] Frequently Asked Questions (неопр.). peeep.us. Проверено 19 августа 2017.

[7] Google Transparency Report