Терминология
Вымирание ссылок называется также «смертью ссылок» или «поломкой ссылок». Ссылка, которая больше не работает, называется «битой ссылкой», «мёртвой ссылкой» или «висячей ссылкой». Формально, это вид висячего указателя — объект, на который указывает ссылка, больше не существует.
Причины
Одна из наиболее частых причин появления битых ссылок — веб-страница, на которую ссылка указывает, больше не существует. Это часто приводит к ошибке 404, которая показывает, что веб-сервер отвечает, но указанную страницу найти он не может. Другой вид мёртвой ссылки случается, когда сервер, который содержит страницу, перестаёт работать или переехал в другое доменное имя. Браузер может вернуть ошибку DNS или показать сайт, не имеющий отношения к странице, которую искали. Последнее может произойти, если доменное имя переходит другому владельцу. Другими причинами битых ссылок могут стать:
- Веб-сайт перестроен или перепроектирован, или лежащая в основе технология изменена, в результате чего меняются или делаются недоступными большое число входящих и внутренних ссылок.
- Многие сайты новостей хранят статьи короткое время, а затем переводят их в платный доступ[en]. Это приводит к существенным потерям ссылок в группах обсуждения новостей, использующих информационные интернет-порталы для ссылок.
- Содержимое может автоматически становиться недоступным по истечении некоторого определённого периода.
- Содержимое может быть намеренно удалено владельцем.
- Сервер может быть обновлён и код (например, PHP) может не работать в результате корректно.
- Ссылки могут быть удалены в результате судебного иска.
- Результаты поиска из соцсетей, таких как Facebook и Tumblr, склонны к битым ссылкам, ввиду частых изменений в конфиденциальности пользователей, удалений аккаунтов, ссылок результата поиска на динамические страницы, которые дают новые результаты, отличающиеся от кэшированного результата, или удаления ссылки или фото.
- Ссылки могут содержать короткоживущую, специфичную для пользователя информацию, такую как сессия или дата входа. Поскольку такая информация верна не всё время, результатом может стать битая ссылка.
- Ссылка может оказаться битой ввиду некоторых видов блокировки, таких как контент-фильтры или межсетевые экраны.
- Веб-сайт может быть закрыт или выключен, что приводит к неработающим ссылкам, если они указывают на этот сайт.
- Веб-сайт может сменить своё доменное имя. Ссылки на старое доменное имя могут тогда стать битыми.
- Мёртвые ссылки могут случаться на стороне сервера, когда содержимое собирается из источников в интернете без надлежащей проверки ссылок.
- Когда новые частные gTLD домены становятся популярными, домены верхнего уровня, такие как
.mcdonalds
или .xperia
, упраздняются[2].
Распространённость
Ответ 404 «Not Found» знаком даже случайным пользователям сети. В большом числе исследований рассматривалась распространённость битых ссылок в интернете, в научной литературе и в электронных библиотеках[3]. В эксперименте 2003 года Фетерли (с соавторами) обнаружил, что примерно одна ссылка из 200 исчезает каждую неделю из интернета. МакКоун (с соавторами, 2005) обнаружил, что половина URL, указанных в статьях журнала D-Lib Magazine[en], не были доступны через 10 лет после публикации, а другие исследования показали даже худшее вымирание ссылок в научной литературе[4][5]. Нельсон и Аллен[6] изучали вымирание ссылок в цифровых библиотеках и нашли, что около 3 % объектов были недоступны после одного года. В 2014 владелец сайта закладок Pinboard[en] Мацей Цегловский сообщал, что «довольно стабильная доля» в 5 % ссылок вымирает за год[7]. Исследование ссылок из каталога Yahoo! показало период полураспада случайной страницы в 2016—2017 годах (вскоре после того, как Yahoo! перестала публиковать этот каталог) около двух лет[8].
Некоторые исследования на ранних этапах существования интернета (в конце 1990-х — начале 2000-х) показали существенное различие (более чем на порядок) периодов полураспада между разными коллекциями ссылок[9].
В 2014 году исследователи Юридического факультета Гарвардского университета Джонатан Зиттрейн, Кендра Альберт и Лоуренс Лемминг обнаружили, что примерно 50 % URL в заключениях Верховного суда США не ссылаются на исходную информацию[1]. Они нашли также, что в наборе юридических журналов между 1999 и 2011 более 70 % ссылок не работают как следует. При изучении в 2013 году года журнала BMC Bioinformatics[en] проанализировано около 15000 ссылок в тезисах со страниц Science citation index[en] (индекс научного цитирования) компании Thomson Reuters и нашли, что среднее время жизни веб-страниц составляло 9,3 года, а 62 % было архивировано[10]. В августе 2015 сайт Weblock.io проанализировал более 180000 ссылок из текстов трёх главных публикаторов с открытым доступом и нашёл, что более 24,5 % цитируемых ссылок недоступны[11].
Обнаружение
Обнаружение битых ссылок может быть проведено вручную или автоматически. Автоматизированные методы, включая плагины для WordPress, Drupal и других систем управления контентом, могут быть использованы для обнаружения битых URL. Альтернативой является использование проверочных средств битых ссылок, таких как Xenu's Link Sleuth. Однако, если URL возвращает HTTP код 200 (OK), страница может быть доступной, но содержимое страницы может быть изменено и более не относится к делу. Так что ручная проверка страниц, по-видимому, должна быть обязательной. Некоторые сервера возвращают soft 404, сообщая запрашивающему компьютеру, что ссылка работает, хотя, на самом деле, она не работает. Бар-Йосеф (с соавторами, 2004)[12] разработал эвристический алгоритм, автоматически обнаруживающий страницы, возвращающие soft 404.
Борьба
Есть много решений для преодоления битых ссылок. Некоторые методы пытаются предотвращать их вообще, в то время как другие пытаются обойти их, когда битая ссылка обнаруживается. Есть также множество средств для борьбы с вымиранием ссылок.
Со стороны авторов
- Тщательно отбирайте и используйте гиперссылки и проверяйте их регулярно после публикации. Лучшие технологии включают ссылки на основные источники, а не вторичные и предпочтение следует отдавать устойчивым сайтам. МакКоун с соавторами в 2005 предложили избегать цитирование URL, которые ссылаются на персональные страницы исследователей.
- Всегда ищите наиболее компактный и прямой URL и убедитесь, что это семантический URL без не имеющей отношения к делу информации после основы URL[13]. Этот процесс часто называется нормализацией URL или приведением URL к каноническому виду[en].
- Насколько возможно, используйте постоянные идентификаторы, такие как ARK (Ключ Архивации Ресурса, англ. Archival Resource Key), DOIs, Handle System[en] ссылки и PURL.
- Избегайте ссылок на PDF-документы, где возможно, поскольку PDF-документы, всё-таки, документы, а не веб-страницы, их содержимое может меняться без уведомления, а их названия часто содержат символы, такие как пробел, так что их необходимо кодировать для URL. Документы PDF большого размера могут медленно загружаться и вызывать ошибку по тайм-ауту[13].
- Избегайте указания ссылок на страницы, глубокие для сайта, что известно как внешнее связывание.
- Используйте сервисы архивирования веб-сайтов (например, WebCite) для постоянного архивирования и извлечения цитированных интернет-ссылок[14].
На стороне сервера
- Никогда не изменяйте URL и никогда не удаляйте страницы. Если есть причины, по которой страница больше не нужна, такие как редактирование сообщения на новостных сайтах, замените на страницу с объяснением причин удаления.
- Если URL меняется, используйте механизм перенаправления, такой как «301: Moved Permanently» для автоматической информации браузеров и поисковиков о новом местоположении.
- Система управления веб-содержимым может обеспечить встроенные решения для управления ссылками, обновляя их, если они меняются или передвигаются на сайте.
- WordPress предохраняет от вымирания ссылок путём замены неканонических URL каноническими[en] версиями[15].
- Peridot[en] пытается автоматически исправлять битые ссылки.
- Создание постоянных ссылок останавливает образование битых ссылок гарантированием, что содержимое не будет перенесено в обозримом будущем. Другой вид создания постоянных ссылок — ссылка на постоянную ссылку, которая затем перенаправляет на актуальное содержимое, что обеспечивает сохранение ссылки, даже если реальное содержимое переносится в другое место, так что ссылки, указывающие на ресурс, остаются неизменными.
- Разрабатывайте URL — например, семантические URL — так, чтобы их не нужно было менять, когда другое лицо начинает заниматься обслуживанием документа, или когда на сервере используется другое программное обеспечение[16].
С пользовательской стороны
- Виджет Linkgraph определяет URL правильной страницы, основываясь на старом битом URL, путём использования исторической информации о местоположении.
- Виджет «Google 404 Widget» пытается «угадать» правильный URL и даёт пользователю диалоговое окно для поиска правильной страницы.
- Когда пользователь получает код 404, панель инструментов Google пытается помочь пользователю найти отсутствующую страницу [17].
Архивирование веб-сайтов
Чтобы противостоять вымиранию ссылок, активно используется архивирование веб-сайтов для сохранения веб-страниц или отдельных частей сети и обеспечения, чтобы набор страниц был сохранён в архивах, таких как архивный сайт[en], для будущих исследователей, историках и общества. Целью архивации интернета является создание архива всей сети, выполняя периодические выполнение снимков страниц, к которым можно получить затем свободный доступ через Wayback Machine. В январе 2013 компания объявила, что достигнута веха в 240 миллиардов архивированных URL[18]. Национальные библиотеки, государственные архивы[en] и другие организации также вовлечены в архивации культурно важного Веб-контента.
Отдельные граждане могут использовать много средств, которые позволяют им архивировать веб-ресурсы, которые могут стать недоступными в будущем:
- «WayBack Machine» некоммерческой организации Архив Интернета[19], является свободным веб-сайтом, который архивирует старые веб-страницы. Он не архивирует веб-сайты, владельцы которых указывают, что они не хотят, чтобы их сайт был архивирован.
- Средство WebCite, специально разработанное для научных авторов, редакторов журналов и издателей для архивирования «по запросу» и выборки ссылок в интернете[14].
- Архивный сайт Archive.is сохраняет снимки веб-страниц. Он извлекает одну страницу за запрос, но, в отличие от WebCite, он включает сайты Веб 2.0, такие как Карты Google и Твиттер.
- Сервис Perma.cc[en], поддерживаемый Юридическим факультетом Гарвардского университета вместе с широкой коалицией университетских библиотек, делает снимок URL контента и возвращает постоянную ссылку[1].
- Проект Hiberlink, созданный Эдинбургским университетом в сотрудничестве с Лос-Аламосской национальной лабораторией и другими организациями, работает для измерения «вымирания ссылок» в онлайновых научных статьях, а также определения, куда веб-содержимое было архивировано[20]. Связанный проект Memento установил технический стандарт для получения доступа к онлайновому содержимому, как он существовал в прошлом[21].
- Некоторые веб-сайты социальных закладок позволяют пользователям сделать онлайновый клон любой веб-страницы в интернете, создавая копию с независимым url, которая остаётся доступной, даже если исходная страница прекратила существование.
- Средство Amber, созданное в Гарварде в Berkman Center[en], является средством для борьбы с вымиранием ссылок путём архивации на WordPress и Drupal, чтобы предотвратить цензурирование сети и поддержать архивирование[22].
Однако такие системы сохранения могут испытывать выключение/включение сервиса, так что сохранённые URL периодически становятся недоступными[23].
Примечания
- 1 2 3 Zittrain, Albert, Lessig, 2014, с. 88–99.
- ↑ The death of a TLD (неопр.). blog.benjojo.co.uk. Архивировано 26 июля 2018 года.
- ↑ Habibzadeh, Sciences, 2013, с. 455–64.
- ↑ Spinellis, 2003, с. 71–77.
- ↑ Lawrence, Pennock, Flake и др., 2001, с. 26—31.
- ↑ Nelson, Allen, 2002.
- ↑ Cegłowski, 2014.
- ↑ Van der Graaf, 2017.
- ↑ Koehler, 2004.
- ↑ Hennessey, Xijin Ge, 2013, с. S5.
- ↑ All-Time Weblock Report (неопр.) (August 2015). Проверено 12 января 2016. Архивировано 4 марта 2016 года.
- ↑ Bar-Yossef, Broder, Kumar, Tomkins, 2004, с. 328.
- 1 2 Kille, 2014.
- 1 2 Eysenbach, Trudel, 2005, с. e60.
- ↑ Rønn-Jensen, 2007.
- ↑ Berners-Lee, 1998.
- ↑ Mueller, 2007.
- ↑ Wayback Machine: Now with 240,000,000,000 URLs | Internet Archive Blogs (неопр.) (9 января 2013). Проверено 16 апреля 2014. Архивировано 12 сентября 2017 года.
- ↑ Internet Archive: Digital Library of Free Books, Movies, Music & Wayback Machine (неопр.) (10 марта 2001). Проверено 7 октября 2013. Архивировано 26 января 1997 года.
- ↑ Hiberlink (неопр.). Проверено 15 января 2015. Архивировано 29 января 2015 года.
- ↑ Memento: Time Travel for the Web (неопр.). Проверено 15 января 2015. Архивировано 7 января 2015 года.
- ↑ Harvard University's Berkman Center Releases Amber, a "Mutual Aid" Tool for Bloggers & Website Owners to Help Keep the Web Available | Berkman Center (неопр.). cyber.law.harvard.edu. Архивировано 2 февраля 2016 года.
- ↑ Habibzadeh, 2015, с. 1.
- Ziv Bar-Yossef, Andrei Z. Broder, Ravi Kumar, Andrew Tomkins. Sic transit gloria telae: towards an understanding of the web's decay // Proceedings of the 13th conference on World Wide Web - WWW '04. — 2004. — С. 328–337. — ISBN 978-1581138443. — DOI:10.1145/988672.988716.
- Jesper Rønn-Jensen. Software Eliminates User Errors And Linkrot. — Justaddwater.dk, 2007. Архивировано 11 октября 2007 года.
- Tim Berners-Lee. Cool URIs don't change. — 1998. Архивировано 27 сентября 2013 года.
- Hans Van der Graaf. The half-life of a link is two year // ZOMDir's blog. — 2017. Архивировано 17 октября 2017 года.
- Maciej Cegłowski. Web Design: The First 100 Years. — 2014. — Сентябрь. Архивировано 22 июля 2015 года.
- Jonathan Zittrain, Kendra Albert, Lawrence Lessig. Perma: Scoping and Addressing the Problem of Link and Reference Rot in Legal Citations // Legal Information Management. — 2014. — Июнь (т. 14, вып. 2). — С. 88–99. — DOI:10.1017/S1472669614000255.
- Jason Hennessey, Steven Xijin Ge. A Cross Disciplinary Study of Link Decay and the Effectiveness of Mitigation Techniques // BMC Bioinformatics. — 2013. — Т. 14. — С. S5. — DOI:10.1186/1471-2105-14-S14-S5. — PMID 24266891. Архивировано 21 января 2015 года.
- John Mueller. FYI on Google Toolbar's Latest Features. — Google Webmaster Central Blog, 2007. Архивировано 13 сентября 2008 года.
- Parham Habibzadeh. Are current archiving systems reliable enough? // International Urogynecology Journal. — 2015. — Т. 26, вып. 10. — ISSN 0937-3462. — DOI:10.1007/s00192-015-2805-7. — PMID 26224384.
Литература для дальнейшего чтения
Вымирание ссылок в интернете
- Leighton Walter Kille. The Growing Problem of Internet "Link Rot" and Best Practices for Media and Online Publishers. — Journalist's Resource, Harvard Kennedy School, 2014. — Ноябрь. Архивировано 12 января 2015 года.
- Gunther Eysenbach, Mathieu Trudel. Going, going, still there: Using the WebCite service to permanently archive cited web pages // Journal of Medical Internet Research. — 2005. — Т. 7, вып. 5. — С. e60. — DOI:10.2196/jmir.7.5.e60. — PMID 16403724.
- Wallace Koehler. A longitudinal study of web pages continued: a consideration of document persistence // Information Research. — 2004. — Т. 9, вып. 2.
- Dennis Fetterly, Mark Manasse, Marc Najork, Janet Wiener. A large-scale study of the evolution of web pages // Proceedings of the 12th international conference on World Wide Web. — 2003.
- John Markwell, David W. Brooks. Broken Links: The Ephemeral Nature of Educational WWW Hyperlinks // Journal of Science Education and Technology. — 2002. — Т. 11, вып. 2. — С. 105–108. — DOI:10.1023/A:1014627511641.
- Tim Berners-Lee. Cool URIs Don't Change. — 1998.
В академической литературе
- Habibzadeh P., Schattauer Sciences. Decay of References to Web sites in Articles Published in General Medical Journals: Mainstream vs Small Journals // Applied Clinical Informatics. — GmbH - Publishers for Medicine and Natural, 2013. — Т. 4, вып. 4. — С. 455–64. — DOI:10.4338/aci-2013-07-ra-0055. — PMID 24454575.
- Daniel Gomes, Mário J. Silva. Modelling Information Persistence on the Web // Proceedings of the 6th International Conference on Web Engineering. — 2006.
- Robert P. Dellavalle, Eric J. Hester, Lauren F. Heilig, Amanda L. Drake, Jeff W. Kuntzman, Marla Graber, Lisa M. Schilling. Going, Going, Gone: Lost Internet References // Science. — 2003. — Т. 302, вып. 5646. — С. 787–788. — DOI:10.1126/science.1088234. — PMID 14593153.
- Steve Lawrence, David M. Pennock, Gary William Flake, Robert Krovetz, Frans M. Coetzee, Eric Glover, Finn Arup Nielsen, Andries Kruger, C. Lee Giles. Persistence of Web References in Scientific Research // Computer. — 2001. — Т. 34, вып. 2. — С. 26–31. — DOI:10.1109/2.901164.
- Wallace Koehler. An Analysis of Web Page and Web Site Constancy and Permanence // Journal of the American Society for Information Science. — 1999. — Т. 50, вып. 2. — С. 162–180. — DOI:10.1002/(SICI)1097-4571(1999)50:2<162::AID-ASI7>3.0.CO;2-B.
- Frank McCown, Sheffan Chan, Michael L. Nelson, Johan Bollen. The Availability and Persistence of Web References in D-Lib Magazine // Proceedings of the 5th International Web Archiving Workshop and Digital Preservation (IWAW'05). — 2005.
- Carmine Sellitto. The impact of impermanent Web-located citations: A study of 123 scholarly conference publications // Journal of the American Society for Information Science and Technology. — 2005. — Т. 56, вып. 7. — С. 695–703. — DOI:10.1002/asi.20159.
- Diomidis Spinellis. The Decay and Failures of Web References // Communications of the ACM. — 2003. — Т. 46, вып. 1. — С. 71–77. — DOI:10.1145/602421.602422.
В цифровых библиотеках
- Michael L. Nelson, B. Danette Allen. Object Persistence and Availability in Digital Libraries // D-Lib Magazine. — 2002. — Т. 8, вып. 1. — DOI:10.1045/january2002-nelson.
Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".
Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.
Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .