Система поиска Яндекс
В 1997 году впервые была запущена поисковая система Yandex. С тех пор Яндекс стал самой популярной поисковой системой российского интернета. К нему обращаются ежедневно около 5 млн. пользователей из России и стран СНГ. Яндексом проиндексировано более 62 Тб различной информации на 5,4 млн. ресурсах при общем количестве доступных для поиска страниц в 2,5 млрд.
До сих пор Yandex остается популярным среди российских пользователей и не сдает свои позиции другому поисковику Google. Это связанно с тем, что поисковая система Yandex сегодня соответствует наиболее прогрессивным критериям поиска информации. Достичь такого результата позволяет постоянная кропотливая работа команды Yandex над усовершенствованием алгоритмов поиска.
Основой работы поисковых систем как Google, так и Yandex является система кластеров. Вся информация делится на определенные области, которые относятся к тому или иному кластеру. Индексация сайтов с целью получения данных о размещенной на них информации выполняется роботами-сканерами. Существуют следующие виды сканирующих роботов: основной робот-сканер и робот-сканер, отвечающий за сбор информации на ресурсах с частым обновлением содержания. Второй тип сканирующего робота предназначен для быстрого обновления списка проиндексированных ресурсов и значения их индексов в поисковой системе. Для наиболее полного обеспечения сбора информации в системе Yandex применяются обновления базы поиска и обновления программного кода:
- База поисковой информации обновляется несколько раз в течение месяца, при этом на поисковые запросы выдается обновленная информация с сайтов. Такая информация добавляется с помощью основного робота-сканера.
- При обновлении программного кода или «движка» выявляются недостатки и изменяются алгоритмы, отвечающие за ранжирование ресурсов в поисковике. Как правило, перед выходом таких обновлений Yandex публикует соответствующие анонсы.
Основные принципы работы поисковой системы Yandex
Особенности системы
Основная особенность системы, делающая популярной ее среди русскоязычных пользователей, – это способность определять различные словоформы с учетом морфологических особенностей русского языка. При этом значения запроса с помощью геотаргетинга и формул поиска преобразуется в максимально точную формулировку. Кроме того, Yandex отличается алгоритмом по определению релевантности индексируемых страниц (релевантностью называют соотношение содержания веб-страницы к содержанию поискового запроса). Также к положительным сторонам можно отнести высокую скорость ответной реакции на запросы и устойчивую, без перегрузок, работу серверов.
Для повышения удобства использования («юзабилити») поисковика, кроме собственно раздела, где подаются заявки на проведение индексации ресурсов, созданы разделы, посвященные индексации сайтов: форум http://forum.yandex.ru, блог для вебмастеров http://webmaster.ya.ru. А в случае возникновения проблем при индексации можно отправить сообщение разработчикам системы. При индексации сайтов следует учитывать, что процедура может продлиться примерно на целый месяц. Ускорить этот процесс может наличие внешних ресурсов, ссылающихся на индексируемый сайт. Исходя из существующего опыта, можно сказать, что быстрее всего регистрация проходит в доменной зоне «.ru», в сравнении с другими, в том числе и бесплатными доменами «pp.ru», «net.ru» и др.
Большое значение для поисковой системы имеют динамические ссылки, наличие которых может привести к отказу от индексации ресурса поисковым роботом.
В процессе индексации Yandex распознает текстовую информацию в документах с расширениями: .pdf, .rtf, .doc, .xls, .ppt. Последние два относятся к программам входящими в комплект Microsoft Office: Excel и PowerPoint.
При индексировании сайта поисковик считывает данные из файла robots.txt, при этом поддерживается атрибут Allow и часть метатегов, а метатеги Revisit-After и Keywords игнорируются.
Так как сниппеты – краткое описание найденной информации - составляются из фраз на искомой странице, то использование описания в теге не является обязательным, но может использоваться в отдельных случаях.
По заявлениям разработчиков кодировка индексируемых документов определяется автоматически, а значит, и метатег кодировки не имеет большого значения.
Поисковая система большое значение придает показателю последнего изменения информации (Last-Modified). Если сервер не будет передавать эту информацию, то процесс индексации данного ресурса будет происходить намного реже.
Пока что остается нерешенной проблема страниц, использующих фреймовые структуры, но она может быть обойдена с помощью скриптов, отправляющих пользователей поисковика в нужное место сайта.
Если у сайта существуют «зеркала», необходимо принять соответствующие действия для исключения их из процесса индексации. Если индексацию «зеркал» избежать не удалось, можно «склеить» их путем внесения необходимой информации в robots.txt.
В случае попадания сайтов в Яндекс.Каталог система будет идентифицировать их как заслуживающих отдельного внимания, что может повлиять на продвижение сайтов. Также это способствует упрощению процедуры определения тематики сайта, что в свою очередь означает получение сайтом значимой внешней ссылки.
Поисковые роботы-сканеры системы Yandex
Команда поисковой системы Yandex держит в секрете IP-адреса своих роботов. Но в лог-файлах отдельных сайтов можно встретить текстовые пометки, оставленные поисковыми роботами Yandex.
Одними из самых интересных роботов-сканеров поисковой системы Yandex можно назвать:
- Yandex/1.01.001 (compatible; Win16; I) - основной робот, занимающийся непосредственно индексацией сайтов;
- Yandex/1.01.001 (compatible; Win16; P) – робот-индексатор изображений;
- Yandex/1.01.001 (compatible; Win16; H) - робот, который выявляет «зеркала» индексируемых сайтов;
- Yandex/1.02.000 (compatible; Win16; F) - робот-индексатор пиктограмм ресурсов (favicons);
- Yandex/1.03.003 (compatible; Win16; D) - робот, который обращается к страницам, добавленным с помощью формы «Добавить URL»;
- Yandex/1.03.000 (compatible; Win16; M) – задействуется при переходе на страницу посредством ссылки «Найденные слова»;
- YaDirectBot/1.0 (compatible; Win16; I) – этот робот отвечает за индексацию страниц ресурсов, принимающих участие в рекламной сети Yandex.
Из всех поисковых роботов самый важный так и называется – основной поисковый робот. От того, как он проиндексирует страницы сайта, будет зависеть значимость ресурса для поисковой системы.
Работа всех роботов происходит по индивидуальному расписанию, и если сайт проиндексирован одним из них, то это не значит, что скоро будет произведена индексация и другим.
В помощь основным созданы и роботы, которые периодически посещают сайты и устанавливают, насколько те доступны. К таким можно отнести роботов «Яндекс.Каталога» и рекламной сети Yandex.
Для поисковика Yandex характерны следующие основные показатели внешней оптимизации:
- тИЦ – это общедоступный тематический индекс цитирования, он не оказывает прямого влияния на ранжирование и используется для определения позиций в тематической категории Яндекс.Каталога; применяется, когда необходима расктутка сайта, тИЦ показывает, какое количество ссылок, в среднем, обращается к сайту.
- вИЦ, или взвешенный Индекс Цитирования, представляет собой алгоритм для подсчета количества внешних ссылок; значение его не разглашается и используется поисковой системой как определяющее при ранжировании сайтов в поисковой системе.
- Присутствие сайта в «Яндекс.Каталоге».
- Общее число страниц сайта, принявших участие в индексации.
- Частота, с которой индексируется содержимое сайта.
- Наличие и отсутствие ссылок с сайта, присутствие сайта в поисковых фильтрах.
Влияние на индексацию:
- Использование в корневой директории сайта файла robots.txt: Текстовый файл robots.txt содержит инструкции, которые запрещают индексировать определенные страницы или разделы сайта.
- Использование метатегов: В коде странице указывается метатег Robots, с помощью которого можно задать возможность индексации и перехода по ссылкам.
- Тег : Содержимое тега не будет индексироваться поисковыми роботами Yandex. Следует учесть, что данный тег не прошел сертификацию W3C. Его использование может повлечь за собой некорректное отображение данных.
Эти методы позволяют поисковику определить, что будет предпочтительней для данного ресурса.
Это, конечно, не полная информация о системе поиска Yandex. Кроме собственно системы поиска, Yandex ведет разработку широкого круга приложений и сервисов. Но для большинства пользователей основными являются поисковые функции Yandex.