Автоматизация на базе amoCRM

Файл robots.txt: Зачем он нужен и как его составить

Поделиться:
Составляем robots.txt самостоятельно: Руководство к действию

Файл robots.txt – посредник между Вашим сайтом и веб-пауками (или поисковыми роботами), которые регулярно посещают Ваш ресурс, чтобы проиндексировать новые и обновленные страницы.

На любом (или почти на любом) сайте есть такие страницы, которые вебмастер не хотел бы показывать поисковой системе. Это могут быть страницы с неуникальным контентом, который Вы вынуждены добавить на сайт (например, отрывок из закона, условия дисконтной программы и т.д.) или страницы админпанели, которые системе видеть совсем ни к чему.

зачем нужен robots.txt

Именно при помощи robots.txt можно сделать эти нежелательные для индексации страницы невидимыми для поисковика. Robots.txt дает возможность запретить индексацию страниц, целых разделов и подразделов сайта, или же весь сайт полностью.

Составляем файл robots.txt корректно

Файл robots.txt хранится в корневой папке (директории) сайта. Создать файл можно двумя способами: самостоятельно (вручную) и с помощью автоматической генерации.Сегодня разберем только “ручной” способ составления файла robots, т.к. способы автоматической его генерации — тема отдельная.

На самом деле, в составлении файла вручную нет ничего сложного – для этого лишь нужно знать об основных директивах, которые Вам может понадобиться использовать.

Директива User-agent

С этой директивы ОБЯЗАТЕЛЬНО начинается файл robots. Она – приветствие Вашим сайтом роботов поисковых систем.

как правильно прописать User-agent

Т.к. в robots.txt есть возможность ограничить или открыть для индексации страницы сайта отдельно для Google или Яндекс, User-agent как раз содержит информацию о том, для какого из роботов предназначены инструкции.

Например:

user-agent для разных поисковых систем

Если директива User-agent в файле отсутствует или находится не в начале файла, поисковые роботы будут думать, что для индексации открыты абсолютно все страницы сайта, включая даже страницы админпанели.

Директивы Allow и Disallow

Директива Allow разрешает страницу/раздел/сайт для индексации, директива Disallow, напротив, ограничивает доступ к старницам, которые Вы не хотите показывать поисковикам.

Директивы allow и disallow в robots.txt - Пример 1
Роботам Яндекса разрешено индексировать все страницы в директории “catalog”, но запрещено индексировать все остальные страницы сайта.
Директивы allow и disallow в robots.txt - Пример 2
Роботам всех поисковых систем запрещено индексировать сайт полностью.
Использование директив allow и disallow в robots.txt - Пример 3
Основному роботу Google запрещено индексировать отдельную страницу

С помощью файла robots.txt можно закрыть от индексации определенную директорию сайта, при этом оставив открытой отдельные подразделы и страницы, в нее входящие.

Например:

Применение директив allow и disallow в robots.txt - Пример 4
Мы закрыли от индексации основной каталог сайта, при этом оставив открытым подкаталог “Платья”

Однако, если Вы не укажете, какие именно элементы должны остаться открытыми внутри запрещенной для индексации директории, ни один ее элемент не будет виден поисковому роботу.

Некоторые фишки файла robots.txt:

  1. Новая директива — новая строка. Строго придерживайтесь этог оправила.
  2. При написании директив допустимо использовать только
  3. Для одного бота достаточно одной директивы User-agent, а все инструкции могут быть прописаны подряд.
  4. Символ * (звездочка) может запретить индексацию всего сайта, всех объектов, принадлежащих определенной директории или всех объектов, содержащих определенное слово.
  5. Если Вы закрываете от индексации директорию, символ / (слеш) должен быть и в начале, и в конце ее названия.
  6. Если директива Disallow не имеет инструкций, робот воспринимает это как знак того, что весь сайт открыт для индексации.
  7. Директивы для одного робота в robots.txt не должны повторяться.

Директива Sitemap

Позаботьтесь о том, чтобы в файле robots была прописана строка, указывающая, где находится карта сайта (sitemap). Это значительно ускорит индексацию сайта, а также не даст поисковому роботу пропустить отдельные страницы.

пример директивы карты сайта в файле robots.txt

Директива Host

При наличии у сайта зеркала (или зеркал), в robots.txt прописывается директива Host, которая указывает, какое зеркало является главным. Это не дает гарантий, что поисковая система также посчитает главным зеркалом именно его, однако значительно увеличит шансы.

Важно помнить, что директива Host должна следовать после директив Allow и Disallow.

Пример использования директивы Host в robots.txt

Как видите, написание файла robots.txt – не такая уж и сложная наука. Тем не менее, ошибки в этом файле встречаются достаточно часто, поэтому перед тем, как добавлять его в корневую папку сайта, воспользуйтесь анализатором robots.txt Яндекс.

Ну а если у Вас большой сайт с большим количеством директорий и составление robots.txt вручную кажется совсем уж рискованным мероприятием, можно воспользоваться автоматическими генераторами, о которых мы поговорим в другой нашей статье.

 


анастасия анненкова seo msa-it

 

Автор: Анастасия Анненкова, SEO-специалист MSA-IT

 

Предыдущая статья

Повышаем продажи Интернет-магазина в 5 шагов

Следующая статья

Видео: Обзор типов полей в amoCRM

Также советуем прочитать