пятница, 12 апреля 2013 г.

robots.txt для яндекса и гугла

robots.txt имеет простую цель - показать роботам, что можно индексировать, а что нельзя.

Сначала обычно пишется, для кого правило, а потом само правило:


User-agent: * 
Disallow: /


* - Означает для всех
Disallow - запретить
/ - все директории, начиная с корня сайта



Disallow - запрещает доступ
Allow - разрешает



Вот возможные значения для яндекса:

YandexBot - основной индексирующий робот;
YandexMedia - робот, индексирующий мультимедийные данные;
YandexImages - индексатор Яндекс.Картинок;
YandexCatalog - "простукивалка" Яндекс.Каталога, используется для временного снятие с публикации недоступных сайтов в Каталоге;
YandexDirect - робот Яндекс.Директа, особым образом интерпретирует robots.txt;
YandexBlogs - робот поиска по блогам, индексирующий посты и комментарии;
YandexNews - робот Яндекс.Новостей;
YandexPagechecker - валидатор микроразметки;
YandexMetrika - робот Яндекс.Метрики;
YandexMarket - робот Яндекс.Маркета;
YandexCalendar - робот Яндекс.Календаря.




Googlebot - обозначение робота гугла
Googlebot-Image - гугловый робот для индексирования картинок


Sitemap - директива для обозначения пути до sitemap.xml
Пример: Sitemap: sitemaps.xml

Остальные директивы:

Host - используется для указания главного зеркала сайта роботу

Disallow: 
Host: www.host1.ru



Crawl-delay - задает таймаут между заказчками страниц для робота.

User-agent: Yandex
Crawl-delay: 2


Clean-param - директива, использующаяся для указания параметров, не влияющих на уникальность страницы

User-agent: Yandex
Disallow:
Clean-param: ref /some_dir/get_book.pl


Комментариев нет:

Отправить комментарий