Loading

 

Все наверняка знают, что такое файл robots.txt, для чего нужен этот файл и каким образом его применять для любого сайта. robots.txt – это текстовый файл, в котором содержатся инструкции для роботов поисковых систем — Google, Yandex, Rambler etc.

  В этой статье я опишу процедуру создания файла robots.txt для вашего сайта.

В файле robots.txt можно запрещать индексацию страниц или разделов на сайте, указывать правильное зеркало домена, указывать наличие карты сайта — sitemap.xml. Есть еще много различных функций команд, но речь в данной статье будет о самых основных командах. Рассмотрим это на примере самого популярного на сегодняшний момент движка WordPress.

Составление этого файла должно быть одним из первых действий при создании сайта или его продвижении (если этого файла еще нет). В моем случае этот файл я создавал собственноручно. Естественно, главное именно правильное его составление, так как при каких-либо недочетах могут возникнуть определенные проблемы с индексацией. Бытует мнение, которое несколько раз доказано на практике, что поисковые систем иногда не обращают внимания на robots.txt и индексируют все подряд, но это очень большая редкость и уже совсем другая история. Итак, какие команды потребуются нам для создания правильного robots.txt:

User-Agent

Указывается имя робота, к которому применяются правила, описанные в robots.txt (не должно быть пустым)

Allow и Disallow

Разрешается и запрещается соответственно доступ к некоторым разделам сайта, либо к всему ресурсу вцелом. Allow поддерживается только Яндексом и Гуглом.

Сначала нужно использовать директиву Allow, а только после нее Disallow, и между ними не должно быть пустой строки, как с директивой User-Agent.

Host

Указание главного зеркала сайта. Используется только для Яндекса, который пишет по этому поводу: «Данная директива не гарантирует выбор указанного главного зеркала, тем не менее, алгоритм при принятии решения учитывает ее с высоким приоритетом»

Sitemap

Указание роботу наличия и пути карты сайта в формате xml

Существуют также спецсимвол *, который означает любую последовательность символов. Теперь перейдем к самому созданию robots.txt — создаем обычный текстовый файл и начинаем с первой директивы User-Agent. Вот список самых актуальных ботов для РУнета – Yandex, YandexBlog, Googlebot, StackRambler, msnbot (бот Bing).

Если же обычный сайт, тогда не стоит выделять конкретных ботов, а написать единое правило для всех, если блог – тогда вначале нужно выделить бота Яндекс.Блогов и разрешить ему все, т.к. он ходит только по фидам и в админку и прочие не нужные разделы сам не полезет:

User-agent: YandexBlog
Disallow:

User-Agent: *

Если будет использоваться несколько юзерагентов, тогда перед каждым последующим обязательно должна быть пустая строка! И начинать лучше с конкретных роботов, а только потом использовать *. Так, теперь директивы Allow и Disallow.

Allow: /wp-content/uploads/
открывается доступ только к папке uploads для трафика по картинкам (в ней хранятся изображения загруженные через админ-панель WordPress), так как будет закрываться от индексации папка более верхнего уровня wp-content.

Переходим к Disallow — очень важная директива. С ее помощью можно закрывать разделы, в которых дублируются контент – это теги, категории, архивы, календарь и т.д. Что и зачем аакрывать будет приведено ниже в данной статье.

Не стоит бояться этого, делая нормальные, качественные сайты с уникальным контентом. Сначала необходимо закрыть служебные директории(страницы регистрации и авторизации, админк-панель, страницы темы, плагины):

Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content

Стоит делать выбор вам, какие разделы вашего сайта или блога на WordPress. В данном примере будет приведен принцип запрета популярных разделов:

Disallow: /tag
можно продвигать страницы тегов в поисковых системах,необходимо обдумать этот ньюанс

Disallow: /category
Disallow: /archive
стоит осторожным и обратить внимание на то, каким образом в блоге выводятся статьи, так как в блоге статьи могут иметь урл – http://ваш сайт/archive/123 и таким образом можно закрыть их от индексации. По аналогии с /archive есть директивы

Disallow: /*?*
Disallow: /*?

Disallow: /author
если таковой присутствует в вашем шаблоне

Теперь закрываем от индексации фиды, различные трекбеки, комментарии в вашем фиде и страницы поиска по сайту:

Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=

И наконец, две последние директивы:

Host: ваш сайт
Sitemap: http:// ваш сайт/sitemap.xml

Параметр Host действует только для Яндекса, поэтому его желательно указывать в конце файла, или определив для какого именно поисковика вы задаете этот параметр. Тут же можно настроить представление сайта через www.вашсайт или просто по доменному имени, которое запонимается намного проще.

И наконец, хочу представить полную структуру файла robots.txt для сайта:

User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /archives/
Disallow: /category/
Disallow: /search/
Disallow: /page/
Disallow: /tag/
Allow: /wp-content/uploads
Host: ваш сайт
Sitemap:
http://вашсайт/sitemap.xml

При условии, что ссылка на сайт имеет вид http://вашсайт/2010/11/статья/