Например, используя стандартный компонент SEF в CMS Joomla! и активировав в нём все три опции, Вы можете попасть в ситуацию, когда одна и та же страница будет иметь три адреса: стандартный (site.ru/index.php?option=com...), без модуля mod_rewrite (site.ru/index.php/stranichka.html) и короткий (site.ru/stranichka.html), иначе называемый как "красивый".
Чтобы поисковые системы не знали о существовании всех трёх адресов одной и той же страницы (дублирование), Вам следует составить следующий файл robots.txt:
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /component/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /index.php
User-agent - имя робота
Disallow - запретить файл/категорию к индексации
Allow - разрешить к индексации
Данный файл robots.txt подойдёт для роботов всех поисковых систем. Если Вам нужно ограничить доступ какому-то определённому роботу, то нужно подправить поле User-agent и вместо звёздочки вставить имя робота. Можно создавать настройки для нескольких роботов - например, если Вам нужно ограничить какой-то раздел сайта для поиска, а для показа контекстной рекламы его открыть. Для этого нужно сделать несколько строчек User-agent и после каждой из них писать запрещённые директории.
И ещё. Не стоит забывать, что нужно запрещать к индексации формы обратной связи и добавления информации - особенно, если Вы не используете на своих сайтах каптчу.
Комментариев нет:
Отправить комментарий