robots.txt - блог №236433

итак, поговорим о роботс.тхт. Большинство пользователей, услышав о рекомендации создать его, смотрят такими глазами, как будто им сказали сваять на аасемблере виндовс 12)) что же такое, этот страшный файл?

роботс — это простой текстовый документ, который сильно может облегчить Вам жызнь. С его помощью Вы можете запретить индексацию мусора и ненужных страниц.

User-agent: * Disallow: /*error Disallow: /*index Disallow: /link Disallow: /public/adDisallow:/topic/complain Disallow: /blog/complain Disallow: /forum/complain Disallow: /news/complain Disallow: /topic/reply Disallow: /blog/reply Disallow: /forum/reply Disallow: /news/reply Disallow: /topic/best Disallow: /blog/best Disallow: /forum/best Disallow: /news/best Disallow: /topic/ratetopic Disallow: /blog/ratetopic Disallow: /forum/ratetopic Disallow: /news/ratetopic Disallow: /topic/ratepost Disallow: /blog/ratepost Disallow: /forum/ratepost Disallow: /news/ratepost Disallow: /topic/edit Disallow: /blog/edit Disallow: /forum/edit Disallow: /news/edit Disallow: /topic/delete Disallow: /blog/delete Disallow: /forum/delete Disallow: /news/delete Disallow: /*tag=1 Disallow: /*health/alternative-medicine Disallow: /*health/aroma Disallow: /*health/cosmetology Disallow: /*health/healthy-food Disallow: /*health/image Disallow: /*health/sport Disallow: /*house/veterinarian Disallow: /mailto Disallow: /javascript User-agent: Yandex Disallow: /*error Disallow: /*index Disallow: /link Disallow: /public/ad Disallow: /topic/complain Disallow: /blog/complain Disallow: /forum/complain Disallow: /news/complain Disallow: /topic/reply Disallow: /blog/reply Disallow: /forum/reply Disallow: /news/reply Disallow: /topic/best Disallow: /blog/best Disallow: /forum/best Disallow: /news/best Disallow: /topic/ratetopic Disallow: /blog/ratetopic Disallow: /forum/ratetopic Disallow: /news/ratetopic Disallow: /topic/ratepost Disallow: /blog/ratepost Disallow: /forum/ratepost Disallow: /news/ratepost Disallow: /topic/edit Disallow: /blog/edit Disallow: /forum/edit Disallow: /news/edit Disallow: /topic/delete Disallow: /blog/delete Disallow: /forum/delete Disallow: /news/delete Disallow: /*tag=1 Disallow: /*health/alternative-medicine Disallow: /*health/aroma Disallow: /*health/cosmetology Disallow: /*health/healthy-food Disallow: /*health/image Disallow: /*health/sport Disallow: /*house/veterinarian Disallow: /mailto Disallow: /javascript Host: www.liveexpert.ru

вот так выглядит роботс этого сайта. давайте разберемся, что за директивы, и для чего они есть.

итак, здесь данный файл грамотно составлен, закрыты все технические страницы. Рекомендуеться закрывать такие страницы:

  • страницы с динамическими адресами, если на сайте есть и ЧПУ. если страницу можно найти и по адресу site.ru/vopros/ и site.ru/index.php?id2&page11, то закрыть нажно все страницы с динамическими адресами. пример — Disallow:/index.php?*
  • технические страницы — это и обратная связь. и вход в админку, и регистрация…
  • дубли страниц, так как если страницу можно найти по 2 адресам, то. соответственно, вес страницы, который она имеет в поисковиках,  делиться на 2.
  • страницы, которые генерирует поисковый модуль.
  • системные директории (типа wp-admin в Вордпресе)

также важны еще 2 директивы — Host и Sitemap

Host  — указание главного зеркала сайта — с www или без.

Host: www.liveexpert.ru

здесь указано главным зеркало с www. данная директива пнятна только Яндексу. но ее можно ставить в блок для все поисковиков. так как прочитает ее только Яндекс, а остальные роботы просто пропустят.

Sitemap — указание местоположения карты сайта. Рекомендуется ее прописывать, так как это существенно облегчит индексацию. наличие самой карты сайта обязательно. 

Популярные ошибки:

созданны 2 блока директив — в блоке для Яндекса только Хост, а в обшем блоке все остальные. при наличия общего блока (User-agent: * ) и блока для конкретного поисковика (например, User-agent: Yandex ) каждый робот будет читать директивы только из своего блока. Поэтому, если в блоке для Яндекса только Хост, то только его он и прочитает, а остальные директивы из общего блока пропустит. Если создаете данный файл — каждую директиву желательно дублировать во всех других блоках.

отсутствие запрета на индексацию страниц, созданных поисковым модулем. запретить индексацию их легко — вбивайте запрос и смотрите на адрес. Пример — если при запросе «sepr» адрес выглядит таким образом :

/index.php?first=no&what=&kp_query=sepr

то запрет нужно составлять таким образом — обрезаем адрес до запроса и добавляем *

Disallow: /index.php?first=no&what=&kp_query=*

на многих сайтах также не указаны директивы Хост и Сайтмап.

Вот здесь ЯША привел документацию по составлению данного файла. Составляйте данный файл грамотно. так как от этого зависит индексация Вашего сайта. И то, сколько мусора с него попадет в поисковики.

 


Опубликовать в социальных сетях

Посмотреть всех экспертов из раздела Технологии > Продвижение сайта, SEO


Комментарии

молодец, Игорь! спасибо за инфу.

04.04.12

Всегда рад помочь) кстати. сейчас дописываю статью про релевантность, может на днях закину.

04.04.12

отличная идея. занющие люди оценят твой вклад!

04.04.12
Пользуйтесь нашим приложением Доступно на Google Play Загрузите в App Store