В предыдущей статье было описан общий процесс, который показал как работает поисковая система. Сейчас я опишу как происходит сам процесс индексирования страниц сайта.

Составление индекса, который вы можете найти во многих книга, это принцип работы поисковой системы. А сам процесс индексирования сайта состоит из следующих этапов …

После того как поисковый робот выкачивает все содержимое страницы, индексный робот отделяет текст страницы от прочей информации (код html и т.д.). Получив чистый текст, индексный робот продолжает работать со словами.

Процесс отбора слов

Процесс выборки слов не так прост как может показаться. Во первых поисковую машину нужно научить понимать что есть слово – последовательность букв (какого алфавита), числа, разделители (дефис и т.д.). Также научить понимать что словом не является (пробелы, знаки препинания и пр.).

Каждая поисковая система делает это по своему. После сбора всех слов, поисковая система собирает их в список по алфавиту.

Лингвистическая обработка

Каждая поисковая машина обрабатывает слова по разному. И эти процессы постоянно совершенствуются. Но принцип обработки слов приблизительно одинаков. Поисковые машины (во всяком случае большинство), не заносят слова в индекс в том виде, в котором они есть на страницах вашего сайта.

Для этого поисковые системы применяют лингвистические алгоритмы обработки слов. Эти алгоритмы приводят слова к их начальным грамматическим формам (основам). Такие алгоритмы называются машинной морфологией. Это необходимо для более точного и релевантного поиска, а также для экономии места в индексе.

Составления индекса

Все основы собранных слов сводятся в индекс, упорядочиваются в алфавитном порядке для удобства поиска. Каждая основа имеет номер страницы с которой она взята и место расположения на этой странице (номер вхождения).

Вот как это образно выглядит:

ОСНОВА СЛОВА + номер страницы + номер вхождения; + номер страницы + номер вхождения …

В реальности это процесс намного сложнее и поисковые системы постоянно оптимизируют свои индексы для ускорения их работы. Запросов каждый год становится больше, так же как и страниц. А главный показатель поисковой системы, это релевантность и скорость предоставления данных, читайте (назначение и доля рынка поисковых систем).

Координатный индекс

Координатный индекс, это индекс в котором учитываются не только номера страниц в котором встречается слово, а также номер расположение этого слова на странице. Такой индекс позволяет поисковым системам выдавать наиболее релевантные страницы для запросов, которые состоят из 2х и более слов.

Поисковая система может определить расположение каждого слова из запроса и определить номера вхождений этих слов в документе. Тем самым ранжировать более высоко те документы, где поисковая фраза находится в таком же виде как и запрос (учитывая и другие сигналы).

Первые алгоритмы поисковых систем не учитывали координаты расположение слов на странице, поэтому релевантность для многословных запросов была очень низкой.

Подсвечивания слов в результатах поиска

Помимо более релевантного поиска, координатный индекс позволяет подсвечивать слова на странице выдачи. Это происходит благодаря тому, что поисковые системы могут определить что искомая фраза или ее часть встречается на искомой странице в нужной последовательности.

Но как поисковая система так быстро находит нужную страницу в индексе?

Прямой индекс

Для показа фрагмента текста с сайта и выделения жирным вхождения ключевой фразы, поисковые системы используют так называемый прямой индекс. Это копия всех страниц интернета, которые присутствуют в индексе поисковой системы.

Для хранения полной копии всех страниц, инверсный индекс или координатный не подходит. Слишком долго восстанавливать текст из индекса. Прямой индекс крупных поисковых систем сохраняет полностью копию страницы со всеми ее элементами.

Посмотреть работу прямого индекса можно с помощью ссылки “Сохраненная копию” в выдаче Google и Яндекс. Это не что иное как кеш страницы.

Индексирование страниц сайта Владимир Полковниченко Индексация,,
В предыдущей статье было описан общий процесс, который показал как работает поисковая система. Сейчас я опишу как происходит сам процесс индексирования страниц сайта. Составление индекса, который вы можете найти во многих книга, это принцип работы поисковой системы. А сам процесс индексирования сайта состоит из следующих этапов ... После того как поисковый...
В предыдущей статье было описан общий процесс, который показал <a title="Как работает поисковая система" href="/seo/osnovy-poiskovyx-dvizhkov/indeksaciya/kak-rabotaet-poiskovaya-sistema.html" target="_blank">как работает поисковая система</a>. Сейчас я опишу как происходит сам процесс индексирования страниц сайта. Составление индекса, который вы можете найти во многих книга, это <a title="Принцип работы поисковых систем" href="/seo/osnovy-poiskovyx-dvizhkov/indeksaciya/princip-raboty-poiskovyx-sistem.html" target="_blank">принцип работы поисковой системы</a>. А сам процесс индексирования сайта состоит из следующих этапов ... После того как поисковый робот выкачивает все содержимое страницы, индексный робот отделяет текст страницы от прочей информации (код html и т.д.). Получив чистый текст, индексный робот продолжает работать со словами. <h2>Процесс отбора слов</h2> Процесс выборки слов не так прост как может показаться. Во первых поисковую машину нужно научить понимать что есть слово - последовательность букв (какого алфавита), числа, разделители (дефис и т.д.). Также научить понимать что словом не является (пробелы, знаки препинания и пр.). Каждая поисковая система делает это по своему. После сбора всех слов, поисковая система собирает их в список по алфавиту. <h2>Лингвистическая обработка</h2> Каждая поисковая машина обрабатывает слова по разному. И эти процессы постоянно совершенствуются. Но принцип обработки слов приблизительно одинаков. Поисковые машины (во всяком случае большинство), не заносят слова в индекс в том виде, в котором они есть на страницах вашего сайта. Для этого поисковые системы применяют лингвистические алгоритмы обработки слов. Эти алгоритмы приводят слова к их начальным грамматическим формам (основам). Такие алгоритмы называются машинной морфологией. Это необходимо для более точного и релевантного поиска, а также для экономии места в индексе. <h2>Составления индекса</h2> Все основы собранных слов сводятся в индекс, упорядочиваются в алфавитном порядке для удобства поиска. Каждая основа имеет номер страницы с которой она взята и место расположения на этой странице (номер вхождения). Вот как это образно выглядит: ОСНОВА СЛОВА + номер страницы + номер вхождения; + номер страницы + номер вхождения ... В реальности это процесс намного сложнее и поисковые системы постоянно оптимизируют свои индексы для ускорения их работы. Запросов каждый год становится больше, так же как и страниц. А главный показатель поисковой системы, это релевантность и скорость предоставления данных, читайте (<a title="назначение и доля рынка поисковых систем" href="/seo/seo-i-kommerciya/naznachenie-i-dolya-rynka-poiskovyx-sistem.html" target="_blank">назначение и доля рынка поисковых систем</a>). <h3>Координатный индекс</h3> Координатный индекс, это индекс в котором учитываются не только номера страниц в котором встречается слово, а также номер расположение этого слова на странице. Такой индекс позволяет поисковым системам выдавать наиболее релевантные страницы для запросов, которые состоят из 2х и более слов. Поисковая система может определить расположение каждого слова из запроса и определить номера вхождений этих слов в документе. Тем самым ранжировать более высоко те документы, где поисковая фраза находится в таком же виде как и запрос (учитывая и другие сигналы). Первые алгоритмы поисковых систем не учитывали координаты расположение слов на странице, поэтому релевантность для многословных запросов была очень низкой. <h3>Подсвечивания слов в результатах поиска</h3> Помимо более релевантного поиска, координатный индекс позволяет подсвечивать слова на странице выдачи. Это происходит благодаря тому, что поисковые системы могут определить что искомая фраза или ее часть встречается на искомой странице в нужной последовательности. Но как поисковая система так быстро находит нужную страницу в индексе? <h3>Прямой индекс</h3> Для показа фрагмента текста с сайта и выделения жирным вхождения ключевой фразы, поисковые системы используют так называемый прямой индекс. Это копия всех страниц интернета, которые присутствуют в индексе поисковой системы. Для хранения полной копии всех страниц, инверсный индекс или координатный не подходит. Слишком долго восстанавливать текст из индекса. Прямой индекс крупных поисковых систем сохраняет полностью копию страницы со всеми ее элементами. Посмотреть работу прямого индекса можно с помощью ссылки "Сохраненная копию" в выдаче Google и Яндекс. Это не что иное как кеш страницы.