Как запретить индексирование сайта нежелательных поисковым ботам. Печать

  • 0

Процесс индексации сайта с большим количеством страниц может занимать длительное время и создавать большую нагрузку на сервере.
Поисковые боты при индексации посылают одновременно огромное количество запросов вашему сайту, что и приводит к проблеме. Поисковых роботов существует достаточно много (Google, Yahoo, Yandex, Mail.RU, …), и ограничивать им доступ к сайту полностью (т.к. они приносят пользу вашему ресурсу) некорректно.

Решение:
Создать файл robots.txt в директории вашего сайта, прописав в него следующие параметры:

User-agent: *

 Crawl-delay: 10

( User-agent - указывает для какой поисковой системы использовать заданные параметры. Crawl-delay - указывает временной интервал, с которым поисковые системы будут загружать страницы сайта. )

Также рекомендуем запретить индексацию ненужных каталогов, таких как каталоги с изображениями, кэшем и пр.

User-agent: *

 Disallow: /administrator/

 Disallow: /cache/

 Disallow: /cli/

 Disallow: /components/

 Disallow: /images/

 Disallow: /includes/

 Disallow: /installation/

 Disallow: /language/

 Disallow: /libraries/

 Disallow: /logs/

 Disallow: /media/

 Disallow: /modules/

 Disallow: /plugins/

 Disallow: /templates/

 Disallow: /tmp/

Индексацию нежелательных ботов вы можете запретить в robots.txt:

User-agent: bingbot

 Disallow: /

Также вы можете запретить индексацию и в .htaccess:

SetEnvIfNoCase User-Agent "^bingbot" search_bot

Корректное название робота, для которого вы хотите использовать то или иное правило, вы можете найти в логах доступа. В качестве примера приведем выдержку из логов доступа:

125.40.77.104 - - [08/Feb/2017:12:05:01 +0200] "GET ваш_сайт/ HTTP/1.0" 200 93488 "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"

125.40.77.104- - [08/Feb/2017:12:05:01 +0200] "GET ваш_сайт/ HTTP/1.0" 200 110513 "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"

Корректное название робота: bingbot/2.0
Если бы мы его хотели заблокировать в .htaccess, правило выглядело бы так:

SetEnvIfNoCase User-Agent bingbot/2.0 bad_bot

Order Allow,Deny

Allow from all

Deny from env=bad_bot

Если ранее приведенные варианты блокировки не решили проблему, тогда можно заблокировать поисковым ботам доступ к сайту по IP, прописав в .htaccess:

Deny from 125.40.77.104

где 125.40.77.104 — IP bingbot, который мы нашли в логах доступа.

 


Помог ли вам данный ответ?

« Назад