Использование robots.txt

Все, кто сталкивался с разработкой или просто использованием сайтов слышали о таком термине как robots.txt.
Это специальный файл с кодировкой UTF-8, который должен находится в корне домена (https://mypersonaldomen.com/robots.txt) и весить не более 500 Кб. Команды в этом файле рекомендуют (но не гарантируют) поисковым роботам Google, Yandex и другим исполнять те или иные указания. Например, мы можем попросить ботов не индексировать страницы с регистрацией, формой поиска, личного кабинете клиентов или любую другую страницу.
Важно понимать, что это просто рекомендации которые мы хотим передать, однако это не дает 100% гарантии. Если на закрытую страницу в robots.txt будет найдена внутренняя или внешняя ссылка то существует некая вероятность что страница все равно попадет в индекс поисковой выдачи.

Синтаксис файла robots.txt

User-Agent: указывает название бота поисковой системы, к которому будем обращаться.

Disallow: путь к странице, куда хотим закрыть доступ.

Crawl-delay: команда, указывающая как часто должен робот поисковой системы заходить на сайт.
Иногда может быть полезно при большой посещаемости, для уменьшения нагрузки на сервер.

На заметку:

  • Символ #: используется для комментариев внутри файла robots.txt
  • Файлы и папки нужно писать, учитывая их регистр
  • Host: директива для Яндекс, которая указывает главное зеркало сайта
  • Sitemap: тут прописывается полный пусть с https к карте сайта
  • * - данный знак обозначает любую последовательность символов

Пример использования файла robots.txt

Запрещаем индексацию всех страниц (полезно при разработке нового сайта):
User-agent: *
Disallow: /

Запретим роботу от google индексировать папку /tmp
User-agent: Googlebot
Disallow: /tmp/

Запретим роботу от google индексировать файл /provider.html
User-agent: Googlebot
Disallow: /tmp/provider.html

Запретим всем ботам индексировать файлы .pdf
User-agent: *
Disallow: /*.pdf$

Разрешим роботам Яндекс индексироват страницу provider.html
User-agent: Yandex
Allow: /tmp/provider.html

Путь к карте сайта:
User-agent: *
Disallow:
Sitemap: https://mypersonaldomen.com/sitemap.xml

Для чего используется мета тег noindex

В отличии от наших рекомендаций в файле robots.txt, мы можем указать для ботов поисковых систем гарантированный запрет индексации страницы.
Для этого в HEAD страницы нужно прописать строку:

<meta name="robots" content="noindex, follow"> - запретить индексацию, но разрешить переходить по ссылкам на текущей странице

<meta name="robots" content="noindex, nofollow"> - запретить как индексацию так и переходить по ссылкам на текущей странице