Запросы от пользователей обрабатываются обычным образом как JS на стороне клиента. Динамический рендеринг можно настроить для всех страниц или только для некоторых. Битые ссылки, по которым страницы отдают код ответа 404, по словам Джона Мюллера из Google, не тратят краулинговый бюджет. Поисковый бот их обходит, но только для того, чтобы убедиться, https://deveducation.com/ что они не доступны — не в ущерб остальным страницам. Вредны страницы с ошибкой 404 SOFT — она возникает, когда при попытке попасть в удаленный документ сервер должен отвечать кодом 404 или 410, но вместо этого отдает код 200 ОК. Осталось понять, достаточно ли большой у вас проект, чтобы нужно было беспокоиться о лимитах краулера.
Краулинговый бюджет, который мы узнаем благодаря информации из Google Search Console и Яндекс.Вебмастер, будет примерный. Это связано с тем, что указанные сервисы засчитывают обращение роботов за день к любым страницам один раз. На сканирование всем сайтам, как увеличить краулинговый бюджет в зависимости от их размера, выделяется разный бюджет. Небольшому — до страниц, вероятнее всего, будет выделен меньший бюджет, нежели крупному сайту. Статья для тех, кто ни разу не считал краулинговый бюджет и не представляет, как это делается и для чего.
Как узнать краулинговый бюджет
Карта сайта – XML-файл, который поисковый бот посещает в первую очередь. Из нее он узнает о страницах, которые нужно индексировать. Однако ситуация кардинально меняется, если на ресурсе публикуется большое количество новых страниц и бюджета не хватает на то, чтобы краулер их обошел. В итоге скорость попадания документов в индекс замедляется, а сайт теряет потенциальных посетителей. Именно поэтому, если владельцы ресурса занимаются SEO продвижением и хотят видеть сайт в ТОПе, то они должны озаботиться оптимизацией краулингового бюджета.
Фактически вы можете рассчитывать только на то, что робот увидит ваш список URL для обхода и рано или поздно воспользуется им. Всё остальное, как правило, игнорируется во избежание манипуляций. Однако это вовсе не значит, что этих директив быть не должно. Следует избегать большого уровня вложенности страниц, стараться не превышать его более 4-х. Это значит, что пользователь с главной страницы должен добраться до любой другой не более чем за 4 клика. Иногда оптимизаторами допускаются ошибки в редиректах, например, перенаправление происходит два и более раз.
Почему краулинговый бюджет важен для SEO?
Важно, чтобы структура была логичной и все необходимые документы имели входящие ссылки. Страница при нормальной ее работе отдает 200 (OK) код, либо 301 при редиректе. Если говорить про редиректы, то при получении 302 кода, краулер «подумает», что посетил недоступную страницу – бюджет будет потрачен впустую. Оптимизация краулингового бюджета может затянуться на продолжительное время. Цель – привлечь ботов на важные разделы и страницы и исключить их посещения от мусорных.
Больше ссылок на страницу – выше её важность в глазах робота. Для оценки распределения ссылочного веса постранично рекомендую использовать браузерное расширение для Chrome LinksTamed. В некоторых случаях просто так закрыть дублирующую страницу от робота нельзя чисто технически.
Работа с кодами ответов страниц
Выберите соцсеть, которую роботы хорошо сканируют и постоянно мониторят, и закиньте туда ссылочку. Хоть как-то повлиять на процессы индексации страниц можно и вручную, хотя тут речь идёт, скорее, вовсе не об оптимизации краулинга. Поисковый робот или браузер обращается к определенному URL, запрашивая страничку. Если страничка не менялась с последнего взаимодействия, сервер возвращает заголовок “304 Not Modified”.
- В итоге скорость попадания документов в индекс замедляется, а сайт теряет потенциальных посетителей.
- Органическая выдача формируется на основании ранжирования тех страниц, которые попали в поиск по определённым ключевым вхождениям.
- Хоть как-то повлиять на процессы индексации страниц можно и вручную, хотя тут речь идёт, скорее, вовсе не об оптимизации краулинга.
- И это не считая других «жизненно важных» для поиска страниц.
Все помнят отчёт в Google Search Console «Обнаружена, не проиндексирована»? Даже если вы убрали ссылки с 301-редиректом с сайта, есть вероятность, что бот уже записал их себе в базу. Не стоит полагаться на то, что последняя дата обхода в GSC – достоверна.
Но если уж решит, что должен – обязательно просканирует. Иными словами, перспективы на попадание в содержание органической выдачи есть только у тех страниц, которые оказались в краулинговом бюджете. Это может быть большой проблемой, если речь идёт о масштабных изменениях, происходящих на тяжёлом многостраничном ресурсе. В следующей части статьи мы детально разберем, какие действия предпринять, чтобы исправить на сайте технические ошибки и повысить краулинговый бюджет. Наглядные графики и анализ отчетов помогут выявить возможные проблемы при сканировании, а также отследить изменения или проблемы краулингового бюджета.
Сама индексация имеет лимит на количество веб-страниц, которые индексируются роботом (краулером) за одну сессию на ресурсе. Лимит, который и носит название «краулинговый бюджет» для каждого сайта разный и определяется поисковой системой. Под термином «краулинговый бюджет» понимается количество страниц, которые поисковая система индексирует за определенную единицу времени. Скорость индексации и частота посещений поискового робота зависит от ряда факторов. Проблема оптимизации краулингового бюджета важна для крупных ресурсов с тысячами веб-страниц, в то время как для большинства сайтов этот вопрос не является актуальным. Необходимо управлять процессом индексации, чтобы ее ускорить.