14 ноября 2010 г.

Регулярные выражения в robots.txt

   Столкнулся с такой проблемой: поисковики никак не могли полностью проиндексировать мой сайт. Уже пол года прошло с открытия, уже и в поиске успел выйти на первые страницы результатов, а сайт всё ещё даже на половину не был проиндексирован. Задался вопросом "В чём же дело? Что я сделал не так?", ведь и ссылочной массы довольно много, и 8 месяцев на индексацию 900 страниц вполне достаточно... Зашёл в инструменты Google для веб-мастеров, посмотрел "Предложения HTML" и всё встало на свои места: оказывается, на моём сайте были тысячи динамических ссылок, а поскольку сайт постоянно обновляется и старые материалы иногда удаляются, поисковые системы индексировали эти динамические страницы, а статические адреса нужных страниц оставались "за кадром" и не успевали обработаться роботом до того момента, когда их уже удаляли. Нужно было запретить к индексации кучу ненужные страниц, но вписывать каждую страницу в robots.txt не просто долго, а ещё и создание лишней нагрузки...
   Поискал информацию в интернете и наткнулся на инструкцию по запрету динамичных ссылок. Всё оказалось довольно легко и элементарно:
имеем страницу категории доски объявлений
site.ru/do.html?page=category&id=12&text=&city=6&expand=2
где:
id - номер категории;
city - выбор города;
expand - смотреть объявление полностью (1)/только описание (2).

   Предположим, нам нужно запретить к индексации все страницы, которые показывают только описания объявлений, без контактной информации. Составляем в robots.txt такое выражение:
site.ru/do.html?page=category&id=*&text=&city=*&expand=2
которое объясняет роботам поисковых систем "не обращая внимание на категорию и город, не индексировать объявления, которые не имеют контактной информации". То есть, в кратце получается так:
id=* - любая категория;
city=* - любой город;
expand=2 - показ только описаний объявлений.

   Такие выражения в robots.txt называются регулярными выражениями и используются для запрета индексации динамических (изменяющихся) Url. С такой же лёгкостью Вы можете запретить к индексации другие параметры, поставив в нужное место знак * (звёздочка). Это необходимо для оптимизации Вашего сайта.

Комментариев нет:

Отправить комментарий