/ Индексирование в поисковых системах
Индексирование в поисковых системах

Индексирование в поисковых системах

Веб - индексирование или Индексирование в поисковых системах

- это процесс добавления сведений о веб - ресурсе роботом поисковой машины в определенную базу данных, которая далее используется для поиска информации, часто полнотекстового, на проиндексированных сайтах.
Когда ресурс появится в результатах поиска, поисковая система его индексирует и выбирает по своим алгоритмам полезные страницы и их заносит в поисковый индекс.
Сведения о сайте зачастую содержат ключевые слова, статьи, документы, ссылки, еще могут индексироваться аудио, изображения.
Алгоритм определения ключевиков зависит от поисковой системы.

Индексацию сайта условно делят на:

1. Поиск сайта как Интернет ресурса, поисковиками
2. Индексацию избранных страниц сайта
3. Поисковую индексацию
4. Ранжировние страниц в поисковой выдаче,
5. Поднятие страниц в Топ выдачи

 Этапы Индексирования сайта:

1. В Яндекс.Вебмастер, и в другие поисковые системы - Google Webmaster Tools, Webmaster.mail, Nigma.ru.Bing Webmaster Tools, добавляют свой сайт
2. Sitemap. Можно загрузить sitemap в специальном разделе сервиса.   Это влияет на приоритет обхода роботом в вашем сайте некоторых страниц.
3. Robots.txt —для роботов поисковых систем используется данный файл.
В этом файле есть :
o   Disallow - для запрета от индексирования избранных разделов сайта.
o   Crawl delay - для указания индексирующему роботу минимального промежутка времени между обращениями к страницам сайта.
o   Clean param - для указания поисковым роботам, какие cgi-параметры в адресе страницы незначащие.
Сервис Яндекс.Вебмастер дает возможность видеть список проиндексированных URL с вашего сайта. Его нужно регулярно проверять, потому что ошибки в коде приводят к росту числа ненужных URL на сайте и тем самым. увеличивают определенную нагрузку на сайт.
4. Ограничения при индексации Яндекс:
o   Не допускается большое количество cgi-параметров в URL, повторяющихся вложенных директорий и большая общая длина URL
o   Больше 10Мб документы не индексируются.
o   Индексирование flash:
- если на файлы *.swf, есть прямая ссылка или они встроены в html тегами <object> или <embed>, то они индексируются;
- исходный html документ находят по контенту, проиндексированному в swf файле, если flash содержит полезный контент,
o   В PDF документах индексируется только текстовое содержимое.
o   Яндекс индексирует корректно документы в формате OpenDocument и Open Office XML
o   При использовании тегов <freme> и <fremeset>, робот Яндекса индексирует контент, который подгружается в них, и находит по содержимому фреймов исходный документ
5. Сервер должен возвращать код ошибки 404, если было переопределено поведение сервера для нереальных URL. При получении кода ответа 404, поисковая система удалит документ из индекса. Все нужные и важные страницы сайта должны отдавать код 200 OK.
6. http-заголовки должны быть корректны. Важно, содержание ответа сервера на запрос «if-modified-since». Дату последнего изменения документа, причем корректную должен отдавать Заголовок Last-Modified
7. Версии сайта на различных языках и адаптированные лучше выносить на поддомен.
8. Для управления индексацией используется также директивы Allow, User-agent, Crawl-delay и другие.
9. Применяют для управления индексацией теги <noindex>для Яндекса и атрибут<nofollow>  для Google и также для Yahoo. Они закрывают содержимое сайта от роботов
10. Скорость индексации в Яндекс занимает от одной недели до четырех недель, в Google — от нескольких минут до одной недели.
11. Можно запретить индексировать не предназначенные для пользователей страницы, и управлять непростым поисковым роботом Яндекса.




Поделиться