Работа поисковой системы заключается в составлении и хранении предметного указателя интернета или индекса. См. принцип работы поисковых систем. А также в поиске нужной информации по заданным ключевым словам.

Этот этап состоит из определенной последовательности действий.

Составление списка страниц

Для сбора всех страниц в интернете и последующей индексации этих страниц, нужно с чего то начать. Поисковая система должна составить список страниц – набор адресов, по которым будет составляться индекс.

Так как все страницы в интернете разбросаны в хаотичном порядке, поисковой системе предоставляется первоначальный список сайтов, с которых она должна начать. Список сайтов можно взять к примеру из каталога.

После этого поисковый робот собирает все исходящие ссылки из первоначального набора сайтов, и добавляет эти ссылки к имеющимся адресам. Таким образом количество сайтов очень быстро увеличивается. На данный момент поисковые машины обрабатывают миллиарды сайтов.

Поэтому новый сайт на который ссылается небольшое количество ссылок, может очень долго ждать пока поисковый робот той или иной поисковой системы доберется до него. Если на сайт не стоит ни одной ссылки, то он может вообще быть незамеченным поисковым роботом.

Для таких случаев, поисковые системы предоставляют возможность добавить свой сайт в очередь на индексацию. Эти сервисы называют аудилками.

Добавить сайт в Яндекс.

Добавить сайт в Google.

Выкачивание страниц из Интернета

Для работы со страницами сайта и дальнейшего составления индекса, поисковый робот должен получить все содержимое станицы. Это делает специальный поисковый робот crawler или паук.

Этот робот обходит весь собранный на предыдущем этапе список страниц и выкачивает всю информацию.

В итоге поисковые системы выкачивают гигантские объемы информации и хранят их на своих жестких диска, далее эта информация передается на обработку индексному роботу для ее индексации.

Индексирования информации и составления индекса

Для составления индекса, индексный робот должен выбрать все слова из полученных данных и расположить их в алфавитном порядке с различной служебной информацией.

Для реализации этого процесса, индексный робот перебирает все выкаченные страницы, нумерует их, удаляет из текста “мусор” (html разметку, коды скриптов и т.д.), извлекает только слова и помещает их в индекс. Каждое слово содержит номер страниц с которых оно было извлечено и другую служебную информацию.

Как происходит процесс поиска

Сам процесс поиска по заданному запросу, происходит следующим образом …

Пользователь вводит поисковый запрос, поисковая система обращается к своему индексу и находит запись о заданном слове, далее она проверяет все номера страниц которые содержат данную запись и показывает их пользователю.

Если поисковый запрос состоит из нескольких фраз, то поисковая машина сравнивает списки ссылок на страницы для каждого слова и выбирает только те страницы, номера которых повторяются для каждого слова из запроса.

Это общий и упрощенный механизм работы поисковой машины. На самом деле там проводиться огромное количество вычислений и сравнений, учитываются синонимы и близкие слова и т.д.

Об этом читайте в следующих статьях.

Как работает поисковая система Владимир Полковниченко Индексация,,,
Работа поисковой системы заключается в составлении и хранении предметного указателя интернета или индекса. См. принцип работы поисковых систем. А также в поиске нужной информации по заданным ключевым словам. Этот этап состоит из определенной последовательности действий. Составление списка страниц Для сбора всех страниц в интернете и последующей индексации этих страниц, нужно с чего...
Работа поисковой системы заключается в составлении и хранении предметного указателя интернета или индекса. См. <a title="Принцип работы поисковых систем" href="/seo/osnovy-poiskovyx-dvizhkov/indeksaciya/princip-raboty-poiskovyx-sistem.html" target="_blank">принцип работы поисковых систем</a>. А также в поиске нужной информации по заданным ключевым словам. Этот этап состоит из определенной последовательности действий. <h2>Составление списка страниц</h2> Для сбора всех страниц в интернете и последующей индексации этих страниц, нужно с чего то начать. Поисковая система должна составить список страниц - набор адресов, по которым будет составляться индекс. Так как все страницы в интернете разбросаны в хаотичном порядке, поисковой системе предоставляется первоначальный список сайтов, с которых она должна начать. Список сайтов можно взять к примеру из каталога. После этого поисковый робот собирает все исходящие ссылки из первоначального набора сайтов, и добавляет эти ссылки к имеющимся адресам. Таким образом количество сайтов очень быстро увеличивается. На данный момент поисковые машины обрабатывают миллиарды сайтов. Поэтому новый сайт на который ссылается небольшое количество ссылок, может очень долго ждать пока поисковый робот той или иной поисковой системы доберется до него. Если на сайт не стоит ни одной ссылки, то он может вообще быть незамеченным поисковым роботом. Для таких случаев, поисковые системы предоставляют возможность добавить свой сайт в очередь на индексацию. Эти сервисы называют аудилками. <a title="Добавить сайт в яндекс" href="https://webmaster.yandex.ua/addurl.xml?" target="_blank">Добавить сайт в Яндекс</a>. <a title="Добавить сайт в Google" href="https://www.google.com/webmasters/tools/submit-url?hl=ru" target="_blank"> Добавить сайт в Google</a>. <h2>Выкачивание страниц из Интернета</h2> Для работы со страницами сайта и дальнейшего составления индекса, поисковый робот должен получить все содержимое станицы. Это делает специальный поисковый робот <strong>crawler</strong> или <strong>паук</strong>. Этот робот обходит весь собранный на предыдущем этапе список страниц и выкачивает всю информацию. В итоге поисковые системы выкачивают гигантские объемы информации и хранят их на своих жестких диска, далее эта информация передается на обработку индексному роботу для ее индексации. <h2>Индексирования информации и составления индекса</h2> Для составления индекса, индексный робот должен выбрать все слова из полученных данных и расположить их в алфавитном порядке с различной служебной информацией. Для реализации этого процесса, индексный робот перебирает все выкаченные страницы, нумерует их, удаляет из текста "мусор" (html разметку, коды скриптов и т.д.), извлекает только слова и помещает их в индекс. Каждое слово содержит номер страниц с которых оно было извлечено и другую служебную информацию. <h2>Как происходит процесс поиска</h2> Сам процесс поиска по заданному запросу, происходит следующим образом ... Пользователь вводит поисковый запрос, поисковая система обращается к своему индексу и находит запись о заданном слове, далее она проверяет все номера страниц которые содержат данную запись и показывает их пользователю. Если поисковый запрос состоит из нескольких фраз, то поисковая машина сравнивает списки ссылок на страницы для каждого слова и выбирает только те страницы, номера которых повторяются для каждого слова из запроса. Это общий и упрощенный механизм работы поисковой машины. На самом деле там проводиться огромное количество вычислений и сравнений, учитываются синонимы и близкие слова и т.д. Об этом читайте в следующих статьях.