7 причин позаботиться о правильной настройке robots.txt

Читая форумы, часто замечаю, что новички в веб-мастерстве задаются вопросом о рентабельности настройки файла robots.txt и вообще его существования на своём сайте. Кроме того, часто можно заметить сообщения, в которых форумчане утверждают, что их сайты живут без robots.txt и никаких отрицательных моментов от этого нет, а потому можно просто "забить".

   И это самое большое заблуждение, которое может возникнуть при работе с этим файлом. Файл robots.txt однозначно нужен и написанию правил необходимо уделять много внимания. Более того, мне кажется, что было бы правильнее, если бы сайты без robots.txt пауки поисковых систем обходили стороной, а страницы с них не участвовали в результатах поиска. Однако тут поисковым гигантам виднее.

   Чтобы более наглядно показать необходимость создания и настройки файла robots.txt, предлагаю ознакомиться с основными причинами, по которым ему уделяют внимание большинство веб-мастеров. Возможно, вы вкорне поменяете своё отношение к этому незаменимому файлу. Итак, поехали.

   Во-первых, посредством файла robots.txt вы можете позволить роботу поисковой системы сканировать лишь те страницы, которые необходимо показывать интернет-пользователям. Или, лучше будет выразиться, в правилах вы сообщаете, на каких именно страницах сайта есть полезная для посетителей информация.

   Во-вторых, посредством того же файла можно избавиться от индексирования так называемых "дублей" страниц. Избавление от них позволит поисковой системе лучше ранжировать те страницы, адреса которых веб-мастер желает показывать посетителям.

   В-третьих, чем меньше страниц роботу придётся каждый раз проверять, тем быстрее будут индексироваться новые материалы. Представьте, сколько потребуется роботу, чтобы заново просканировать несколько тысяч страниц перед тем, как он наткнётся на новую? Другое дело, если в правилах будет разрешено сканирование только нужных разделов сайта, робот быстро найдёт новую страничку.

   В-четвёртых, настроив доступ только к определённым разделам сайта, вы сможете скрыть от поисковой системы конфиденциальную информацию. Чтобы осознать необходимость в этом, достаточно вспомнить нашумевший сайт оператора мобильной связи "МегаФон" и данные из интернет-магазинов.

   В-пятых, укажите в robots.txt ссылку на основной файл Sitemap и вам не нужно будет беспокоиться о том, что поисковые системы не обнаружат на сайте новые страницы. Также не надо будет регистрироваться в инструментах для веб-мастеров, предоставляемых поисковыми системами, чтобы сообщить им эту ссылку.

   В-шестых, в robots.txt вы можете указать основной адрес (так называемое "зеркало", которое указывается директивой Host), тем самым повысив внимание к нужным страницам. Эта директива учитывается не всеми поисковыми системами, но при работе с поисковиком "Яндекс", откуда приходят многие посетители, весьма полезна.

   В-седьмых, закрывая для индексирования роботами поисковых и других систем ненужные страницы, вы снижаете нагрузку на хостинг. Если на сайте несколько тысяч страниц, запрет сканирования определённых страниц может значительно сэкономить ресурсы сервера.

   И, наконец, в-восьмых, управляя директивой Crawl-delay в robots.txt, вы также снижаете нагрузку на хостинг. Хотя эту директиву, опять же, учитывают не все роботы, с помощью неё всё-таки можно экономить ресурсы сервера при сканировании сайта пауками.

Тонкости настройки файла зависят от конкретного проекта, но можно с уверенностью утверждать, что в этом списке есть хотя бы два-три пункта, соблюдение которых будет полезно для любого многостраничного проекта, будь то блог, каталог фирм, доска объявлений или сайт по недвижимости.

Управляйте директивами, используйте регулярные выражения и создавайте более оптимальные правила для вашего проекта. Это сыграет вам на руку при раскрутке и продвижении сайта.

Филя Тарантас

24 мая 2012 г.