Сначала обычно пишется, для кого правило, а потом само правило:
User-agent: *
Disallow: /
* - Означает для всех
Disallow - запретить
/ - все директории, начиная с корня сайта
Disallow - запрещает доступ
Allow - разрешает
Вот возможные значения для яндекса:
YandexBot - основной индексирующий робот;
YandexMedia - робот, индексирующий мультимедийные данные;
YandexImages - индексатор Яндекс.Картинок;
YandexCatalog - "простукивалка" Яндекс.Каталога, используется для временного снятие с публикации недоступных сайтов в Каталоге;
YandexDirect - робот Яндекс.Директа, особым образом интерпретирует robots.txt;
YandexBlogs - робот поиска по блогам, индексирующий посты и комментарии;
YandexNews - робот Яндекс.Новостей;
YandexPagechecker - валидатор микроразметки;
YandexMetrika - робот Яндекс.Метрики;
YandexMarket - робот Яндекс.Маркета;
YandexCalendar - робот Яндекс.Календаря.
Googlebot - обозначение робота гугла
Googlebot-Image - гугловый робот для индексирования картинок
Sitemap - директива для обозначения пути до sitemap.xml
Пример: Sitemap: sitemaps.xml
Остальные директивы:
Host - используется для указания главного зеркала сайта роботу
Disallow:
Host: www.host1.ru
Crawl-delay - задает таймаут между заказчками страниц для робота.
User-agent: Yandex
Crawl-delay: 2
Clean-param - директива, использующаяся для указания параметров, не влияющих на уникальность страницы
User-agent: Yandex
Disallow:
Clean-param: ref /some_dir/get_book.pl
Комментариев нет:
Отправить комментарий