WikiSort.ru - Не сортированное

ПОИСК ПО САЙТУ | о проекте

Стандарт исключений для роботов (robots.txt) — файл ограничения доступа роботам к содержимому на http-сервере. Файл должен находиться в корне сайта (то есть иметь путь относительно имени сайта /robots.txt). При наличии нескольких поддоменов файл должен располагаться в корневом каталоге каждого из них.

Использование файла добровольно. Стандарт был принят консорциумом W3C 30 января 1994 года в списке рассылки robots-request@nexor.co.uk и с тех пор используется большинством известных поисковых машин.

Файл robots.txt используется для частичного управления индексированием сайта поисковыми роботами. Этот файл состоит из набора инструкций для поисковых машин, при помощи которых можно задать файлы, страницы или каталоги сайта, которые не должны индексироваться.

Описание структуры

Файл состоит из записей. Записи разделяются одной или более пустых строк (признак конца строки: символы CR, CR+LF, LF). Каждая запись содержит непустые строки следующего вида:

<поле>:<необязательный пробел><значение><необязательный пробел>

где поле — это либо User-agent, либо Disallow.

В директиве User-agent указываются роботы, которые должны следовать указанным инструкциям (например, User-agent: Yandex, User-agent: YandexBot, User-agent: * ).

Сравнение производится методом простого поиска подстроки. Например, запись Disallow: /about запретит доступ как к разделу http://example.com/about/, так и к файлу http://example.com/about.php, а запись Disallow: /about/ — только к разделу http://example.com/about/.

Проверка синтаксиса

Неправильно составленный robots.txt может привести к отрицательным последствиям. Например, весь сайт может «выпасть» из поискового индекса. Для проверки синтаксиса и структуры файла robots.txt существует ряд специализированных онлайн-служб:

Яндекс.Вебмастер — Анализ robots.txt (рус.) (выполняет проверку синтаксиса и разрешения для каждой отдельной страницы)
Google Search Console – Инструмент проверки файла robots.txt (рус.) (позволяет проверить разрешения для каждой отдельной страницы)

Примеры

Запрет доступа всех роботов ко всему сайту:

User-agent: *
Disallow: /

Запрет доступа определённого робота к каталогу /private/:

User-agent: googlebot
Disallow: /private/

Нестандартные директивы

Allow: имеет действие, обратное директиве Disallow — разрешает доступ к определенной части ресурса. Поддерживается всеми основными поисковиками. В следующем примере разрешается доступ к файлу photo.html, а доступ поисковиков ко всей остальной информации в каталоге /album1/ запрещается.

Allow: /album1/photo.html
Disallow: /album1/

Crawl-delay: устанавливает время, которое робот должен выдерживать между загрузкой страниц. Если робот будет загружать страницы слишком часто, это может создать излишнюю нагрузку на сервер. Впрочем, современные поисковые машины по умолчанию задают достаточную задержку в 1-2 секунды. На данный момент эта директива не учитывается Googlebot.

User-agent: *
Crawl-delay: 10

Sitemap: расположение файлов Sitemaps, которые могут показать, что именно нужно проиндексировать поисковому роботу.

Sitemap: http://example.com/sitemap.xml

Расширенный стандарт

В 1996 году был предложен расширенный стандарт robots.txt, включающий такие директивы как Request-rate и Visit-time. Например:

User-agent: *
Disallow: /downloads/
Request-rate: 1/5         # загружать не более одной страницы за пять секунд
Visit-time: 0600-0845     # загружать страницы только в промежуток с 6 утра до 8:45 по Гринвичу.

См. также

Ссылки

A Standard for Robot Exclusion (англ.)
robotstxt.org.ru — о файле robots.txt и роботах в Рунете по-русски
О файлах robots.txt — cправка Google
Использование robots.txt — помощь Яндекса
Использование robots.txt — помощь Mail.Ru

Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".

Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.

Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .

Текст в блоке "Читать" взят с сайта "Википедия" и доступен по лицензии Creative Commons Attribution-ShareAlike; в отдельных случаях могут действовать дополнительные условия.

Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.

2019-2026
WikiSort.ru - проект по пересортировке и дополнению контента Википедии

Поисковая оптимизация
Исключения	robots.txt Метатеги nofollow noindex
Маркетинг	Интернет-маркетинг Партнёрская программа Маркетинг по электронной почте Реклама на экране Интернет-статистика
Поисковый маркетинг	Поисковый маркетинг Оптимизация сайта под социальные сети (SMO) Маркетинг в социальных сетях (SMM) Управление присутствием личной информации в сети Платное включение в индекс Оплата за клик Поисковая бомба
Спам	Поисковый спам Пессимизация Автоматический сбор данных Сайты с неоригинальным контентом Линкоферма Дорвеи Клоакинг
Ссылки	Внешние факторы в поисковой оптимизации Популярность ссылки Обмен ссылками Взаимные ссылки Многолинки Биржа ссылок Бэклинки (ссылки на сайт) Поисковый индекс
Прочее	Страница приземления Геотаргетинг Поисковая система с ручным отбором результатов Статистика запросов Стоп-слова Подозрительные слова

Веб и веб-сайты
Глобально	Всемирная паутина Веб 1.0 Веб 2.0 Веб 3.0 Семантическая паутина Нейронет
Локально	Сайт Портал Страница Служба Кольцо
Виды сайтов и сервисов	Виртуальный атлас Баннерная сеть Библиотека Блог (платформа) Видеохостинг Вики Сайт-визитка Вопрос-ответ Закладки Службы знакомств Браузерная игра Каталог ресурсов Интернет-магазин Микроблог Новостной сайт Поисковая система Порносайт Веб-почта Социальная сеть Тамблелог BitTorrent-трекер Файлообменник Форум Сервис Имиджборд Фотохостинг Чат
Создание и обслуживание	Мастер Разработка Дизайн Вёрстка Программирование Юзабилити Опыт взаимодействия Продвижение сайта Поисковая оптимизация (SEO) Хостинг Системный администратор Модератор Учётная запись Авторизация
Типы макетов, страниц, сайтов	Статический Динамический Фиксированный Резиновый Динамично эластичный Адаптивный
Техническое	Веб-сервер (сравнение) Браузер (сравнение) DNS CMF CMS HTTP (ответы заголовки) SPDY QUIC CGI HTML XHTML CSS PHP JavaScript DHTML Cookie DOM XML AJAX JSON Flash RSS Atom Информер Микроформат favicon.ico robots.txt Sitemaps Карта сайта .htaccess
Маркетинг	Интернет-маркетинг Интернет-реклама Баннер Контекстная реклама Тизер Киберсквоттинг
Социум и культура	Блогосфера Интернет-сообщество (районное) Сетевая литература