Новые правила для robots.txt от Google: какие изменения ожидаются?
С 1 сентября 2019 года ожидаются существенные изменения правил протокола Robots Exclusion Protocol (REP), на основе которого разрабатываются директивы для поисковых краулеров. В дальнейшем они отображаются в файле robots.txt.
REP-протокол в течение последних 25 лет был одним из ключевых инструментов, которыми пользовались поисковые оптимизаторы. Его применение позволяло ограничивать доступ роботам на какие-то определенные страницы сайта. Сейчас же компания Google вносит существенные изменения в данный протокол, ключевое из них – отказ от поддержки директивы noindex.
Ограничение доступа роботов осуществлялось по различным причинам, но основная – снижение нагрузки на сайт, ведь через robots.txt удавалось отсечь ненужных роботов. В результате таких действий скорость открытия веб-ресурсов повышалась и одновременно требовались меньшие расходы на поддержку пропускного канала.
Действия самых известных поисковых систем, включая Google, Bing и Yandex, всегда осуществлялись строго с правилами, что были указаны в файле robots.txt. Однако REP-протокол не был утвержден на официальной основе (за это отвечает международная организация Internet Engineering Task Force, IETF), поэтому и происходила трактовка правил обработки различными поисковыми системами по-разному.
Компания Google приняла решение официально задокументировать REP, следствием чего стало направление стандарта в организацию IETF. Эти действия корпорации нацелены на решение следующих задач:
- Расширить базу функциональных возможностей для того, чтобы создать возможность установки более конкретных правил;
- Определить понятные стандарты для исключения вероятности возникновения спорных вариантов по применению, то есть в итоге все связи причины/следствия по вопросам применения файла robots.txt должны стать одинаковыми и понятными для всех пользователей.
Каких изменений следует ожидать?
Можно выделить 4 наиболее важных изменений:
- Обеспечение возможности использования директивы для любого URI. Так, кроме HTTP/HTTPS правила теперь будут распространяться, например, и на CoAP, и на FTP.
- Все файлы, размещаемые в директиве, будут подвергаться кешированию. Данное введение необходимо для отсечения лишних запросов, которые посылаются на сервера. Кеширование планируется проводить на срок до 24 часов, что позволит поисковому оптимизатору в приемлемые сроки обновлять файл. Предусмотрена и возможность самостоятельно устанавливать значения по кешированию, для чего предполагается использование директивы кеширования с помощью заголовка Cache-Control.
- Поисковые краулеры теперь обязаны проводить сканирование первых 513 кб файла. При этом роботы могут сканировать и весь файл, но они это не обязаны делать для больших по размеру файлов. Также роботы могут отказаться от сканирования файла при нестабильном соединении.
- В случае недоступности файла директивы будут продолжать функционировать. Это означает, что если поисковый краулер не может получить доступ к файлу robots.txt, то правила, которые указаны выше, будут действовать еще в течение длительного отрезка времени.
Также был произведен пересмотр директив, которым предоставляется доступ в файле robots.txt. Кроме того, открыт и исходный код парсера robots.txt, применяемый краулером Google для проведения парсинга данных из robots.txt.
Отмечается, что правила, не вошедшие в стандарт, с 01.09.2019 не будут поддерживаться Google, что исключает реализацию поддержки правил noindex, что, в свою очередь, негативно скажется на продвижении сайта, если не внести в него соответсвующие корректировки.
Как реализовать noindex?
После вступления в силу изменений для использования директивы noindex можно ее указывать в мета-теге robots либо задавать в HTTP заголовках.
Если планируется задействовать HTTP-заголовок, то надо записывать таким образом: X-Robots-Tag. Это означает, что для закрытия страницы от индексации надо написать X-Robots-Tag: noindex.
В случаях, когда имеется только доступ к шаблону веб-ресурса, то уже потребуется применять мета-тег robots. Для запрета индексации страниц записывается следующий код:
<meta name="robots" content="noindex">.
Такой вариант используется для всех поисковых систем. Если требуется заблокировать заход ботов google, в name записывается значение googlebot, а не значение robots.
В то же время для исключения из индекса поисковой системы каких-либо страниц сайта надо работать с кодом ответа. Если проставляется код ответа 404 или 410, то это позволяет быстро решить проблему.
Для того чтобы задать время для кеширования файла robots.txt, требуется применять заголовок Cache-Control. Запись будет выглядеть следующим образом: Cache-Control: max-age=[ n секунд].
С помощью данной директивы задается отрезок времени, когда предоставляется возможность повторно использовать скачанный ответ. Отсчет будет начинаться с момента отправки запроса.
На что еще обратить внимание?
Инструмент Google Robots.txt Tester предлагается использовать для проверки настроек robots.txt. С его помощью проверяются директивы на валидность, а также выявляются ошибки в синтаксисе.
Стоит помнить, что все ссылки, помещенные в файл robots.txt, воспринимают большой и малый регистр.
Также надо учитывать следующие особенности:
- В поисковиках Bing и «Яндекс» не реализована поддержка директивы noindex в файле, поэтому «Яндекс» рекомендует применять noindex в X-Robots-Tag либо в метатеге robots.
- Директивы robots.txt касаются только верхнего уровеня хоста, поэтому отдельные правила для поддоменов в robots.txt можно не прописывать.
- Скрипты JavaScript и файлы CSS не следует закрывать в robots. Это связано с тем, что поисковая система используется рендеринг сайта, который осуществляется перед ранжированием. И в случае закрытия доступа к скриптам и стилям все равно будет проведен рендеринг веб-ресурса. Однако в этом случае нельзя ожидать корректного результата, а это, соответственно, негативно отразится на позициях ресурса в поисковой выдаче.
- Запрет robots.txt не распространяется на краулинговый бюджет, ведь он зависит преимущественно от пропускной способности сервера, а также авторитетности доменного имени.
В результате фиксация директив robots.txt в качестве стандарта позволяет устранить все ранее существовавшие неопределенности и установить понятные правила для различных поисковых систем.
Будет полезно знать: "Как искать и увеличивать количество клиентов с помощью инструментов Yandex"