MySQL: 0.0009 s, 15 request(s), PHP: 0.1198 s, total: 0.1207 s, document retrieved from cache
ru |  en

Поисковый робот

Поиско́вый ро́бот («веб-пау́к», краулер) — программа, являющаяся составной частью поисковой системы и предназначенная для перебора страниц Интернета с целью занесения информации о них в базу данных поисковика. Он анализирует содержимое страницы, сохраняет его в некотором специальном виде на сервере поисковой машины, которой принадлежит, и отправляется по ссылкам на следующие страницы. Владельцы поисковых машин нередко ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. Кроме обычных пауков, существуют так называемые «дятлы» — роботы, которые «простукивают» проиндексированный сайт, чтобы определить его доступность.

Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения значимой информации определяются поисковыми алгоритмами.

Зачастую переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах.

Также многие поисковые системы предоставляют пользователю возможность самостоятельно добавить сайт в очередь для индексирования. Обычно это существенно ускоряет индексирование сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается практически единственной возможностью указать на его существование. Еще одним способом быстрой индексации сайта является добавление на сайт систем веб-аналитики. Например, таких как Google Analytics и Яндекс.Метрика.

Ограничить индексацию сайта можно с помощью файла robots.txt, все индексирующие боты современных поисковых систем его учитывают. Полная защита от индексации может быть обеспечена другими механизмами: установкой пароля на странице либо требованием заполнить регистрационную форму перед тем, как получить доступ к содержимому.


Телефон:+7 (920) 274 4682

Есть вопрос?Отправь запрос!

При поддержке