Разработка сайтов.

Продвижение сайтов +7 (812) 945-44-70

Поисковые системы


Не секрет, что практически все имеющиеся на сегодняшний день крупные поисковые системы оснащены своей собственной отличительной структурой. Однако, в любом случае, можно выделить общие для всех поисковых систем их основные составляющие. Основополагающие различия в данных структурах могут заключаться в реализации различных механизмов активного взаимодействия  компонентов. Поиск в Интернете

Итак, остановимся на основных составляющих любой поисковой системы, которые способствуют раскрутке сайта.

1. Модуль индексирования представлен тремя вспомогательными программами - роботами:

 

- Spider или паук. Представляет собой программу, которая предназначена для активного скачивания страниц сайтов. Она также обеспечивает извлечение всех внутренних ссылок со скачиваемой страницы. При этом также скачивается html-код. Для осуществления скачивания той или иной страницы роботы пользуются протоколами HTTP.

 

Принцип работы "Паука" заключается в следующем. Специальный робот передает на сервер определенный запрос "get/path/document", включая также некоторые другие виды команд HTTP-запроса. Затем в ответ на это робот получает определенный текстовый поток, который содержит сам документ и непосредственно информацию служебного характера.



Извлечение ссылок производится из тэгов area, a, base, frameset, frame и др. Наряду со всевозможными ссылками, роботами также обрабатываются и перенаправления или (редиректы). При этом практически каждая скачанная страница может сохраняться в URL формате, http-заголовка ответа сервера, html-кода и т.д.


- Crawler или "путешествующий" паук представляет собой программу, которая проходит по всем существующим ссылкам, которые найдены на странице. Она выделяет абсолютно все ссылки, которые присутствуют на скачиваемой странице. Задачей "путешествующего паука" является определение, куда именно дальше он должен продвигаться, основываясь при этом на ссылках либо исходя исключительно из заданного заранее списка различных адресов. Crawler, также осуществляет активный поиск совершенно новых документов, следуя по уже существующим и найденным им ссылкам, которые были неизвестны поисковым системам.


- Indexer или робот - индексатор представляет собой специальную программу, которая осуществляет анализ веб-страниц. При этом робот - индексатор производит максимальный разбор страницы на различные составные части с последующим их анализом, применяя при этом собственные морфологические и лексические алгоритмы. Тщательному анализу подвергается множество разнообразных элементов страницы, такие, к примеру, как заголовки, текст, ссылки, стилевые и структурные особенности, служебные специальные html-теги и пр.

 


2. База данных или индекс поисковой системы представляет собой специальную систему хранения данных, которые преобразованы, обработаны и скачаны модулем индексирования.

3. Поисковый сервер представляет собой самый важный элемент всей поисковой системы, поскольку от лежащих в основе ее функционирования алгоритмов напрямую зависит скорость и качество поиска.

Работа поискового сервера осуществляется следующим образом:


- полученный запрос от пользователя подвергается тщательному морфологическому анализу. При этом происходит генерирование информационного окружения абсолютно каждого документа, который содержится в базе данных и которое в последующем будет иметь вид и отображение в виде сниппета или текстовой информации, которая полностью соответствует запросу;


- этот рейтинг, в зависимости от выбора пользователя, может быть отредактирован или скорректирован такими дополнительными условиями, как "расширенный поиск";


- следующим этапом является генерация сниппета, посредством которого из таблицы документов для каждого найденного документа извлекаются краткая аннотация и заголовок, которые наиболее соответствуют запросу, а также ссылки непосредственно на сам документ;


- результаты поиска, которые получены в результате запроса, передаются интересующемуся пользователю в виде SERP - специальной страницы выдачи результатов поиска.

4. Поисковый тематический индекс цитирования (ТИЦ) называют также "весом ссылки". Он предназначен для определения авторитетности различных интернет - ресурсов в зависимости от качественных и количественных характеристик ссылок с других сайтов.

5. PR представляет собой числовую величину, которая определяет важность страницы в поисковой системе при раскрутке сайта.

Все вышеперечисленные компоненты имеют тесную взаимосвязь друг с другом и активно работают только во взаимодействии, образовывая, таким образом, достаточно четкий и сложный механизм работы поисковых систем.