Что такое robots.txt и зачем он нужен
Чтобы лучше понять, что это такое robots txt и зачем он нужен, мы сначала скажем пару слов о поисковых машинах. Поисковые роботы - это специальные машины. Они индексируют сайты, хранят списки URL страниц и регулярно считывают содержимое страниц, на которые ведут эти адреса. Если во время нового индексирования робот выявляет новую ссылку, то он добавляет ее в свой рабочий список. Именно благодаря роботам информация сайта становится видимой для поисковика.
Не смотря на наличие или отсутствие robots.txt, роботы все равно будут обрабатывать ресурс. Но при попадании на сайт сначала будут искать именно этот файл. Robots.txt - текстовый документ, своего рода инструкция, что формируется для поисковых машин.
Он:
User-agent
Определяет перечень роботов, на которых распространяются действующие правила.
Allow и Disallow
Данные команды призваны разрешать или блокировать индексацию страниц и разделов:
Но в этих командах есть дополнительные операторы, в них тоже нужно разбираться:
Sitemap
Указывает путь карте сайта, при этом URL полностью идентичен URLу в адресной строке. Прописывать Sitemap можно в любой части документа, привязка к виду робота не требуется. Можно прописывать не одну, а сразу несколько директив Sitemap.
Отображает главное зеркало сайта, прописывается ЕДИНОЖДЫ в конце документа. Обращаем внимание, что данную директиву принимают во внимание только роботы Яндекс и Мэил.ру. Остальные боты эту команду просто не учитывают.
Обозначает интервал между скачиваниями в секундах. Принимается во внимание только ботами Яндекс, Бинг, Мэил.ру и Yahoo.
Clean-param
Используется для ботов Яндекса и запрещает краулеру индексацию адресов с определенными характеристиками. В качестве аргумента указывается URL-адрес раздела и соответствующие характеристики.
Кроме вышеперечисленных правил есть и другие директивы, призванные ограничить количество загружаемых страниц в единицу времени, обозначить временные интервалы загрузки страниц и т.д. Однако сегодня они утратили свою актуальность и не используются крупнейшими поисковыми системами.
При этом нужно следить за объемом файла, если он превысит 32 Кб, то доступ автоматически будет открыт для всех.
Теперь осталось проверить работу готового файла. Для этого нужно загрузить его в Google Search Console или ЯндексВебмастер, а затем прочитать результаты. Спустя 2 недели желательно перепроверить, появились ли в результатах выдачи новые страницы, что не должны подлежать индексации. Если вы выявили ряд таких страниц, то файл robots.txt следует доработать и расширить.
Он:
- Разрешает или запрещает индексацию определенных страниц или разделов
- Указывает корректное зеркало сайта
- Обозначает рекомендуемый временной интервал для скачивания документов.
Алгоритм создания robots.txt
Формирование файла не требует от исполнителя специальных знаний или навыков, справиться с этой задачей сможет даже начинающий вебмастер. Нужно просто создать новый текстовый документ и назвать его robots.txt. Можно использовать любой удобный для вас текстовый редактор.Перечень основных команд, которые прописываются в robots.txt
Данные правила (директивы) для роботов были описаны в спецификации в 1994 году и дополнены в 1996 году, когда стандарт получил расширение. Остановимся на наиболее значимых командах:User-agent
Определяет перечень роботов, на которых распространяются действующие правила.
- Если они рассчитаны на всех роботов, то используется команда «User-agent: *»
- Если нужно выделить определенного бота, то следует указать «User-agent:GoogleBot». Обращаем внимание, что регистр символов не имеет никакого значения.
Allow и Disallow
Данные команды призваны разрешать или блокировать индексацию страниц и разделов:
- Allow – можно
- Disallow – нельзя
Но в этих командах есть дополнительные операторы, в них тоже нужно разбираться:
- «*» - обозначает любое количество символов, в том числе и «0»
- «$» - указывает на то, что предшествующий перед данным оператором символ является завершающим
- «#» - запрещается учитывать все, что будет находиться после него в строке.
Sitemap
Указывает путь карте сайта, при этом URL полностью идентичен URLу в адресной строке. Прописывать Sitemap можно в любой части документа, привязка к виду робота не требуется. Можно прописывать не одну, а сразу несколько директив Sitemap.
Host
Отображает главное зеркало сайта, прописывается ЕДИНОЖДЫ в конце документа. Обращаем внимание, что данную директиву принимают во внимание только роботы Яндекс и Мэил.ру. Остальные боты эту команду просто не учитывают.
Crawl-delay
Обозначает интервал между скачиваниями в секундах. Принимается во внимание только ботами Яндекс, Бинг, Мэил.ру и Yahoo.
Clean-param
Используется для ботов Яндекса и запрещает краулеру индексацию адресов с определенными характеристиками. В качестве аргумента указывается URL-адрес раздела и соответствующие характеристики.
Кроме вышеперечисленных правил есть и другие директивы, призванные ограничить количество загружаемых страниц в единицу времени, обозначить временные интервалы загрузки страниц и т.д. Однако сегодня они утратили свою актуальность и не используются крупнейшими поисковыми системами.
Примеры роботов
У каждой поисковой системы есть целый набор роботов, которые призваны решать разного рода задачи. Поэтому директивы рекомендуется прописывать для каждого робота в отдельности. Рассмотрим, какие существуют виды ботов на примере ПС Google:- GoogleBot – главный индексирующий бот
- GoogleBot – News – индексирует новости
- GoogleBot – Image - изображения
- GoogleBot – Video – видеоматериалы
- AdsBot-Google-Mobile-Apps – приложения
- AdsBot-Google – качество целевой страницы
- Mediapartners – AdSense и Mobile AdSense.
При этом нужно следить за объемом файла, если он превысит 32 Кб, то доступ автоматически будет открыт для всех.
Теперь осталось проверить работу готового файла. Для этого нужно загрузить его в Google Search Console или ЯндексВебмастер, а затем прочитать результаты. Спустя 2 недели желательно перепроверить, появились ли в результатах выдачи новые страницы, что не должны подлежать индексации. Если вы выявили ряд таких страниц, то файл robots.txt следует доработать и расширить.