Опасность медленной индексации. Ускоряем отправку новых страниц в индекс

По большому счету, если Ваш ресурс хороший, качественно сделанный, то проблем с его индексированием быть не должно. Если сайт, пусть и не на 100%, но отвечает требованиям поисковиков — «для людей», то они с радостью будут заглядывать к Вам на огонек и индексировать все новое, что будет добавлено.

Но как бы там ни было, первым шагом в продвижении сайта является добавление его в индекс ПС. До тех пор, пока ресурс не проиндексируется, по большому счету и продвигать то нечего, ведь поисковики вообще о нем не будут знать. Поэтому, в этой статье я рассмотрю, что такое индексация сайта в Яндексе и как отправить ресурс на индексацию. А также расскажу о том, как проверить попал ли сайт или отдельная страница в индекс Yandex и, что делать для ускорения индексации Яндексом.

Как происходит индексация сайта в Яндексе

Индексирование сайта в Яндексе – это обход роботами поисковой системы yandex Вашего сайта, и внесения всех открытых страниц в базу. Паук русского поисковика добавляет в базу данные о сайте: его страницах, картинках, видео, документах, которые доступны для поиска. Также, поисковой бот занимается индексированием ссылок и других элементов, что не закрыты специальными тегами и файлами.

Основные способы индексации ресурса:

    Принудительная - следует отправить сайт на индексацию в Яндекс через специальную форму.

    Естественная - поисковому пауку удается самостоятельно найти Ваш сайт, переходя с внешних ресурсов, что ссылаются на вебсайт.

Время индексации сайта в Яндексе для всех разное и может колебаться от пары часов до нескольких недель.

Это зависит от множества факторов: какие значения стоят в Sitemap.xml, как часто наполняется ресурс, как часто упоминание о сайте появляется на других ресурсах. Процесс индексации цикличен, поэтому робот будет приходить к Вам через (практически) равные промежутки времени. А вот с какой периодичностью — зависит от упомянутых выше факторов и конкретного робота.

Паук может проиндексировать веб-сайт полностью (если он маленький) или отдельный раздел (это относиться к интернет-магазинам или СМИ). На часто обновляемых ресурсах, типа СМИ и информационных порталах живут, так называемые, быстро-роботы для быстрой индексации сайта в Яндексе.

Порой на проекте могу возникнуть технические неполадки (или проблемы с сервером), в таком случае yandex индексация сайта не состоится, из-за чего поисковая система может прибегнуть к следующему сценарию:

  • сразу выкинуть непроиндексированные страницы с базы;
  • провести переиндексацию ресурса через определенное время;
  • поставить страницы, что не были проиндексированы, на исключение из базы, и если не обнаружит их при повторной индексации, то выбросит из индекса.

Как ускорить индексацию сайта в Яндексе

Как ускорить индексирование в Яндекс – частый вопрос на различных форумах вебмастеров. Фактически жизнь всего сайта зависит от индексации: позиции ресурса в ПС, количество клиентов с них, популярность проекта, прибыль, в конце концов.

Я подготовил 10 способов, которые, надеюсь, пригодятся Вам. Первые пять – это стандартные для постоянной индексации ресурса, а следующая пятерка поможет Вам ускорить индексацию сайта в Яндексе:

    сервисы закладок;

    RSS-лента – обеспечит трансляцию новых материалов с Вашего ресурса на почту подписчикам и в RSS-каталоги;

    биржи ссылок – обеспечат стабильный прирост dofollow ссылок с качественных доноров, при правильном их отборе (как правильно отбирать );

    – если вы еще не регистрировали сайт в каталогах, то советую сделать это. Многие говорят, что каталоги давно умерли или регистрация в них убьет сайт – это не правда. Точнее не полная правда, если регистрироваться во всех подряд каталогах, то действительно Ваш ресурс только пострадает от этого. Но при правильном отборе трастовых и хороших каталогов эффект будет несомненно.

Проверка индексации сайта в Яндексе

Оптимизация сайта - это процесс, состоящий из нескольких уровней. Результатом недоделок и ошибок на каждом этапе будет сведение всей будущей работы к замедленной или неполной индексации всех страниц сайта. Индексация сайта по своей сути зависит от того, как обработают ваш сайт поисковые роботы. Наверное, вам уже известно, что поисковые роботы это такие программы, которые совершают сканирование сайта и наполняют базу данных поисковой системы информацией для поиска. Как ускорить индексацию сайта и обеспечить его быстрое продвижение в поисковиках?

Способы быстрой индексации сайта

Если добавить ваш новый веб-ресурс в поисковые системы, которые вы знаете, произойдет гораздо быстрей. Добавить в Yandex - http://webmaster.yandex.ru/addurl.xml , в Google - http://www.google.ru/intl/ru/addurl.html .

Нужно создать карту сайта. Зарегистрироваться в сервисах webmaster.yandex.ru и www.google.com/webmasters. Указать там ваш файл sitemap.xml.

Для ускорения индексации сайта вам поможет регистрация в социальных закладках и сетях (bobrdobr.ru, memori.ru, twitter.com, vkontakte.ru и др.). Там можно добавлять разные страницы вашего сайта.

Заведите свои блоги на my.ya.ru, blogspot.com, blogs.mail.ru, livejournal.com и др. Добавьте в них записи со ссылками на страницы вашего сайта. По мере возникновения новых страниц на сайте, для их быстрой индексации поисковиками, добавляйте ссылки в ваших блогах на эти страницы.

Стоит зарегистрироваться в нескольких популярных каталогах и рейтингах. К примеру, регистрация на LiveInternet и Рамблер ТОП100 способна ускорить индексацию сайта из-за того, что роботы довольно часто заглядывают в ТОПы.

Поисковые боты очень любят посещать популярные блоги с их комментариями. При этом роботы тщательно отслеживают все ссылки в блогах. Попробуйте посещать такие блоги и оставлять там ненавязчивые комментарии со ссылками. Старайтесь соблюдать правила блога и ссылки вставлять в специально отведенные для этого места во избежание удаления вашего комментария как спама.

Еще один похожий совет для ускорения индексации сайта - это комментарии на форумах с большой . Как раз на форумах, кстати, абсолютно не запрещено вставлять ссылки, если они имеют отношение к вашему ресурсу. Форумы посещаются ботами не хуже чем блоги.

Довольно трудоемкими, но популярными считаются способы быстрой индексации веб-ресурсов при помощи размещения на сторонних ресурсах большого количества статей со ссылками на ваш сайт. Трудоемкость заключается в написании огромного количества статей с интересным и актуальным содержанием. Эти статьи выполняют функцию, подобную каталогу ссылок.

Необходимо построить четкую и грамотную структуру сайта. Ее построение должно быть легким и удобным для работы поисковых роботов со страницами сайта. Достичь этого вовсе не трудно. Принцип заключается в том, чтобы ссылки на всех страницах сайта направляли посетителя с одной страницы на другую.

Если ваш проект содержит огромное количество страниц, то для быстрой индексации сайта следует обратить внимание на следующий метод. Робот поисковика считывает и анализирует информацию, постепенно передвигаясь по страницам сайта. При довольно значительном количестве страниц он может просто не добраться до части последних страниц, которые значительно удалены от главной. При этом индексация сайта в поисковых системах ухудшается.
Идеальной в таком случае является древообразная четкая структура карты вашего сайта, в которой каждому ответвлению будет соответствовать некоторый подраздел с меньшим количеством страниц. Каждая страница сайта, желательно, должна быть в удалении не более трех кликов от главной.

В случае, если отдельные страницы сайта поисковые роботы не проиндексировали, следует ссылки на эти страницы разбросать по сторонним ресурсам. При индексации сайтов с вашими ссылками робот обязательно посетит и ваши страницы.

Если вы создаете интернет-магазин, то каждому из ваших товаров (или группе товаров) будет отведена своя страница сайта. Существуют для этого способы быстрой индексации всех страниц с товарами магазина, заключающиеся в размещении на каждой из этих страниц ссылок, которые указывают на страницы с подобного вида товарами.

Чтобы индексация сайта происходила быстрей, необходимо обеспечить более частое посещение роботами его страниц. Для достижения этого вам придется довольно часто обновлять страницы сайта и пополнять новой информацией. И самое важное при этом наполнять сайт статьями и текстами со стопроцентной уникальностью.

Что такое индексирование? Это процесс получения роботом содержимого страниц вашего сайта и включение этого содержимого в результаты поиска. Если обратиться к цифрам, то в базе индексирующего робота содержится триллионы адресов страниц сайта. Ежедневно робот запрашивает миллиарды таких адресов.

Но этот весь большой процесс индексирования Интернета можно разделить на небольшие этапы:


Во-первых, индексирующий робот должен узнать о появлении страницы вашего сайта. Например, проиндексировав другие страницы в Интернете, найдя ссылки, либо загрузив файл set nemp. О страничке мы узнали, после чего планируем обход этой страницы, отправляем данные к вашему серверу на запрос этой страницы сайта, получаем контент и включаем его в результаты поиска.

Этот весь процесс – это процесс обмена индексирующим роботом с вашим сайтом. Если запросы, которые посылает индексирующий робот, практически не меняются, а меняется только адрес страницы, то ответ вашего сервера на запрос страницы роботом зависит от многих факторов:

  • от настроек вашей CMS;
  • от настроек хостинг провайдера;
  • от работы промежуточного провайдера.

Этот ответ как раз меняется. Прежде всего при запросе страницы робот от вашего сайта получает такой служебный ответ:


Это HTTP заголовки. В них содержится различная служебная информация, которая дает роботу понять передача какого контента сейчас будет происходить.

Мне хочется остановиться на первом заголовке – это HTTP-код ответа, который указывает индексирующему роботу на статус страницы, которую запросил робот.

Таких статусов HTTP-кодов несколько десятков:


Я расскажу о самых популярных. Наиболее распространенный код ответа – это HTTP-200. Страница доступна, ее можно индексировать, включать в результаты поиска, все отлично.

Противоположность этого статуса – это HTTP-404. Страница отсутствует на сайте, индексировать нечего, включать в поиск тоже нечего. При смене структуры сайтов и смене адресов внутренних страниц мы советуем настраивать 301 сервер на редирект. Как раз он укажет роботу на то, что старая страница переехала на новый адрес и необходимо включать в поисковую выдачу именно новый адрес.

Если контент страницы не менялся с последнего посещения страницы роботом, лучше всего возвращать код HTTP-304. Робот поймет, что обновлять в результатах поиска страницы не нужно и передача контента тоже не будет происходить.

При кратковременной доступности вашего сайта, например, при проведении каких-либо работ на сервере, лучше всего настраивать HTTP-503. Он укажет роботу на то, что сейчас сайт и сервер недоступны, нужно зайти немножко попозже. При кратковременной недоступности это позволит предотвратить исключение страниц из поисковой выдачи.

Помимо этих HTTP-кодов, статусов страниц, необходимо еще получить непосредственно контент самой страницы. Если для обычного посетителя страница выглядит следующим образом:


это картиночки, текст, навигация, все очень красиво, то для индексирующего робота любая страница – это просто набор исходного кода, HTML-кода:


Различные метатеги, текстовое содержимое, ссылки, скрипты, куча всякой информации. Робот собирает ее и включает в поисковую выдачу. Кажется, все просто, запросили страницу – получили статус, получили содержимое, включили в поиск.

Но недаром в службу поискового сервиса в Яндексе приходит более 500 писем от вебмастеров и владельцев сайтов о том, что возникли определенные проблемы как раз с ответом сервера.

Все эти проблемы можно разделить на две части:

Это проблемы с HTTP-кодом ответа и проблемы с HTML-кодом, с непосредственным содержимым страниц. Причин возникновения этих проблем может быть огромное множество. Самая распространенная – это блокировка индексирующего робота хостинг-провайдером.


Например, вы запустили сайт, добавили новый раздел. Робот начинает посещать ваш сайт чаще, увеличивает нагрузку на сервер. Хостинг-провайдер видит это на своих мониторингах, блокирует индексирующего робота, и поэтому робот не может получить доступ к вашему сайту. Вы заходите на ваш ресурс – все отлично, все работает, странички красивенькие, все открывается, все супер, робот при этом проиндексировать сайт не может. При временной недоступности сайта, например, если забыли оплатить доменное имя, сайт отключен на несколько дней. Робот приходит на сайт, он недоступен, при таких условиях он может пропасть из поисковой выдачи буквально через некоторое время.

Некорректные настройки CMS, например, при обновлении или переходе на другую CMS, при обновлении дизайна, так же могут послужить причиной того, что страницы вашего сайта могут пропасть из выдачи при некорректных настройках. Например, наличие запрещающего метатега в исходном коде страниц сайта, некорректная настройка атрибута canonical. Проверяйте, что после всех изменений, которые вы вносите на сайт, страницы доступны для робота.

В этом вам поможет инструмент в Яндекс. Вебмастере по проверке ответа сервера:


Можно посмотреть какие HTTP заголовки возвращает ваш сервер роботу, непосредственно содержимое страниц.


В разделе «индексирование» собрана статистика, где вы можете посмотреть какие страницы исключены, динамику изменения этих показателей, сделать различную сортировку и фильтрацию.


Так же, уже сегодня говорил об этом разделе, раздел «диагностика сайта». В случае, если ваш сайт стал недоступен для робота, вы получите соответствующее уведомление и рекомендации. Каким образом это можно исправить? Если таких проблем не возникло, сайт доступен, отвечает кодам-200, содержит корректный контент, то робот начинает в автоматическом режиме посещать все страницы, которые он узнает. Не всегда это приводит к нужным последствиям, поэтому деятельность робота можно определенным образом ограничить. Для этого существует файл robots.txt. О нем мы и поговорим в следующем разделе.

Robots.txt

Сам по себе файлик robots.txt – это небольшой текстовый документ, лежит он в корневой папке сайта и содержит строгие правила для индексирующего робота, которые нужно выполнять при обходе сайта. Преимущества файла robots.txt заключаются в том, что для его использования не нужно особых и специальных знаний.

Достаточно открыть Блокнот, ввести определенные правила по формату, а затем просто сохранить файл на сервере. В течении суток робот начинает использовать эти правила.

Если взять пример файла robots.txt простенького, вот он, как раз на следующем слайде:


Директива User-Agent:” показывает для каких роботов предназначается правило, разрешающие\запрещающие директивы и вспомогательные директивы Sitemap и Host. Немножко теории, хочется перейти к практике.

Несколько месяцев назад мне захотелось купить шагометр, поэтому я обратился к Яндекс. Маркету за помощью с выбором. Перешел с главной страницы Яндекс на Яндекс. Маркет и попал на главную страницу сервиса.


Внизу вы видите адрес страницы, на которую я перешел. К адресу самого сервиса еще добавился идентификатор меня, как пользователя на сайте.

Потом я перешел в раздел «каталог»


Выбрал нужный подраздел и настроил параметры сортировки, цену, фильтр, как сортировать, производителя.

Получил список товаров, и адрес страницы уже разросся.

Зашел на нужный товар, нажал на кнопочку «добавить в корзину» и продолжил оформление.

За время моего небольшого путешествия адреса страниц менялись определенным образом.


К ним добавлялись служебные параметры, которые идентифицировали меня, как пользователя, настраивали сортировку, указывали владельцу сайта откуда я перешел на ту или иную страницу сайта.

Такие страницы, служебные страницы, я думаю, что не очень будут интересны пользователям поисковой системы. Но если они будут доступны для индексирующего робота, в поиск они могут попасть, поскольку робот себя ведет, по сути, как пользователь.

Он переходит на одну страничку, видит ссылочку, на которую можно кликнуть, переходит на нее, загружает данные в базу робота свою и продолжает такой обход всего сайта. В эту же категорию таких адресов можно отнести и личные данные пользователей, например, такие, как информация о доставке, либо контактные данные пользователей.

Естественно, их лучше запрещать. Как раз для этого и поможет вам файл robots.txt. Вы можете сегодня вечером по окончанию Вебмастерской прийти на свой сайт, покликать, посмотреть какие страницы действительно доступны.

Для того, чтобы проверить robots.txt существует специальный инструмент в Вебмастере:


Можно загрузить, ввести адреса страниц, посмотреть доступны они для робота или нет.


Внести какие-то изменения, посмотреть, как отреагирует робот на эти изменения.

Ошибки при работе с robots.txt

Помимо такого положительного влияния – закрытие служебных страниц, robots.txt при неправильном обращении может сыграть злую шутку.

Во-первых, самая распространенная проблема при использовании robots.txt – это закрытие действительно нужных страниц сайта, те, которые должны находиться в поиске и показываться по запросам. Прежде чем вы вносите изменения в robots.txt, обязательно проверьте не участвует ли страница, которую вы хотите закрыть, не показывается ли по запросам в поиске. Возможно страница с каким-то параметрами находится в выдаче и к ней приходят посетители из поиска. Поэтому обязательно проверьте перед использованием и внесением изменений в robots.txt.

Во-вторых, если на вашем сайте используются кириллические адреса, в robots.txt их указать не получится в прямом виде, их обязательно нужно кодировать. Поскольку robots.txt является международным стандартным, им следуют все индексирующие роботы, их обязательно нужно будет закодировать. Кириллицу в явном виде указать не получится.

Третья по популярности проблема – это различные правила для разных роботов разных поисковых систем. Для одного индексирующего робота закрыли все индексирующие страницы, для второго не закрыли совсем ничего. В результате этого у вас в одной поисковой системе все хорошо, в поиске нужная страница, а в другой поисковой системе может быть трэш, различные мусорные страницы, еще что-то. Обязательно следите, если вы устанавливаете запрет, его нужно делать для всех индексирующих роботов.

Четвертая по популярности проблема – это использование директивы Crawl-delay, когда в этом нет необходимости. Данная директива позволяет повлиять на чистоту запросов со стороны индексирующего робота. Это практический пример, маленький сайт, разместили его на небольшом хостинге, все прекрасно. Добавили большой каталог, робот пришел, увидел кучу новых страниц, начинает чаще обращаться на сайт, увеличивает нагрузку, скачивает это и сайт становится недоступным. Устанавливаем директиву Crawl-delay, робот видит это, снижает нагрузку, все отлично, сайт работает, все прекрасно индексируется, находится в выдаче. Спустя какое-то время сайт разрастается еще больше, переносится на новый хостинг, который готов справляться с этими запросами, с большим количеством запросов, а директиву Crawl-delay забывают убрать. В результате чего робот понимает, что на вашем сайте появилось очень много страниц, но не может их проиндексировать просто из-за установленной директивы. Если вы когда-либо использовали директиву Crawl-delay, проверьте, что сейчас ее нет и что ваш сервис готов справиться с нагрузкой от индексирующего робота.


Помимо описанной функциональности файл robots.txt позволяет еще решить две очень важные задачи – избавиться от дублей на сайте и указать адрес главного зеркала. Об этом как раз мы и поговорим в следующем разделе.

Дубли


Под дублями мы понимаем несколько страниц одного и того же сайта, которые содержат абсолютно идентичный контент. Самый распространенный пример – это страницы со слешом и без слеша в конце адреса. Так же под дублем можно понимать один и тот же товар в различных категориях.

Например, роликовые коньки могут быть для девочек, для мальчиков, одна и та же модель может находиться в двух разделах одновременно. И, в-третьих, это страницы с незначащим параметром. Как в примере с Яндекс. Маркетом эта страничка «идентификатор сессии», такой параметр не меняет контент страницы в принципе.

Чтобы обнаружить дубли, посмотреть к каким страницам робот обращается, вы можете использовать Яндекс. Вебмастер.


Помимо статистики есть еще и адреса страниц, которые робот загрузил. Вы видите код и последнее обращение.

Неприятности, к которым приводят дубли

Чем же плохи дубли?

Во-первых, робот начинает обращаться к абсолютно идентичным страницам сайта, что создает дополнительную нагрузку не только на ваш сервер, но и влияет на обход сайта в целом. Робот начинает уделять внимание дублирующим страницам, а не тем страницам, которые нужно индексировать и включать в поисковую выдачу.


Вторая проблема – это то, что дублирующие страницы, если они доступны для робота, могут попасть в результаты поиска и конкурировать с основными страницами по запросам, что, естественно, может негативно повлиять на нахождение сайта по тем или иным запросам.

Как можно бороться с дублями?

Прежде всего я советую использовать “canonical” тег для того, чтобы указать роботу на главную, каноническую страницу, которая должна индексироваться и находиться в поиске по запросам.

Во втором случае можно использовать 301 серверный редирект, например, для ситуаций со слешом на конце адреса и без слеша. Установили перенаправление – дублей нет.


И в-третьем, как я уже говорил, это файл robots.txt. Можно использовать как запрещающие директивы, так и директиву Clean-param для того, чтобы избавиться от незначащих параметров.

Зеркала сайта

Вторая задача, которую позволяет решить robots.txt – это указать роботу на адрес главного зеркала.


Зеркала – это группа сайтов, которые абсолютно идентичны, как дубли, только различные два сайта. Вебмастера обычно с зеркалами сталкиваются в двух случаях – когда хотят переехать на новый домен, либо, когда для пользователя нужно сделать несколько адресов сайта доступными.

Например, вы знаете, что пользователи, когда набирают ваш адрес, адрес вашего сайта в адресной строке, часто делают одну и ту же ошибку – опечатываются, не тот символ ставят или еще что-то. Можно приобрести дополнительный домен для того, чтобы пользователям показывать не заглушку от хостинг-провайдера, а показывать тот сайт, на который они действительно хотели перейти.

Остановимся на первом пункте, потому что именно с ним чаще всего и возникают проблемы в работе с зеркалами.

Весь процесс переезда я советую осуществлять по следующей инструкции. Небольшая инструкция, которая позволит вам избежать различных проблем при переезде на новое доменное имя:

Во-первых, вам необходимо сделать сайты доступными для индексирующего робота и разместить на них абсолютно идентичный контент. Так же убедитесь, что о существовании сайтов роботу известно. Проще всего добавить их в Яндекс. Вебмастер и подтвердить на них права.

Во-вторых, с помощью директивы Host указывайте роботу на адрес главного зеркала – тот, который должен индексироваться и находиться в результатах поиска.

Ждем склейки и переноса всех показателей со старого сайта на новый.


После чего уже можно установить перенаправление со старого адреса на новый. Простенькая инструкция, если вы переезжаете, обязательно используйте ее. Надеюсь, проблем не возникнет с
переездом.

Но, естественно, при работе с зеркалами возникают ошибки.

Прежде всего самая главная проблема – это отсутствие явных указаний для индексирующего робота на адрес главного зеркала, тот адрес, который должен находиться в поиске. Проверьте на ваших сайтах, что в robots.txt у них указана директива хоста, и она ведет именно на тот адрес, который вы хотите видеть в поиске.

Вторая по популярности проблема – это использование перенаправления для того, чтобы сменить главного зеркала в уже имеющейся группе зеркал. Что происходит? Старый адрес, поскольку осуществляет перенаправление, роботом не индексируется, исключается из поисковой выдачи. При этом новый сайт в поиск не попадает, поскольку является неглавным зеркалом. Вы теряете трафик, теряете посетителей, я думаю, что это никому не нужно.


И третья проблема – это недоступность одного из зеркал при переезде. Самый распространенный пример в этой ситуации, когда скопировали контент сайта на новый адрес, а старый адрес просто отключили, не оплатили доменное имя и он стал недоступен. Естественно такие сайты склеены не будут, они обязательно должны быть доступны для индексирующего робота.

Полезные ссылки в работе:

  • Больше полезной информации вы найдете в сервисе Яндекс.Помощь .
  • Все инструменты, о которых я говорил и даже больше – есть бета-версия Яндекс.Вебмастера .

Ответы на вопросы

«Спасибо за доклад. Нужно ли в robots.txt закрывать индексацию CSS-файлов для робота или нет?».

На текущий момент мы не рекомендуем закрывать их. Да, CSS, JavaScript лучше оставить, потому что сейчас, мы работаем над тем, чтобы индексирующий робот начал распознавать и скрипты на вашем сайте, и стили, видеть, как посетитель из обычного браузера.

«Подскажите, а если url’ы адресов сайта будут одинаковые, у старого и у нового – это нормально?».

Да, ничего страшного. По сути, у вас просто обновление дизайна, добавление какого-то контента.

«На сайте есть категория и она состоит из нескольких страниц: слеш, page1, page2, до 10-ти, допустим. На всех страницах один текст категории, и он, получается, дублирующий. Будет ли этот текст являться дубликатом или нужно его как-то закрывать, новый индекс на вторых и далее страницах?».

Прежде всего, поскольку на первой странице пагинации, а на второй странице контент, в целом-то, отличаются, они дублями не будут. Но нужно рассчитывать, что вторая, третья и дальше страницы пагинации могут попасть в поиск и показывать по какому-либо релевантному запросу. Лучше в страницах пагинации я бы рекомендовал использовать атрибут canonical, в самом лучшем случае – на странице, на которой собраны все товары для того, чтобы робот не включал страницы пагинации в поиске. Люди очень часто используют canonical на первую страницу пагинации. Робот приходит на вторую страницу, видит товар, видит текст, страницы в поиск не включает и понимает за счет атрибута, что надо включать в поисковую выдачу именно первую страницу пагинации. Используйте canonical, а сам текст закрывать, думаю, что не нужно.

Источник (видео): Как настроить индексирование сайта - Александр Смирнов

Магомед Чербижев

Поделиться:

Каждый вебмастер знает, что для того чтобы на его ресурс начали заходить люди с поисковых систем, необходима его индексация. О том, что из себя представляет индексация сайта, как она проводится, и в чем заключается ее смысл, мы расскажем в данной статье.

Что такое индексация?

Итак, слово «индексация» само по себе означает внесение в реестр чего-либо, перепись материалов, которые имеются в наличии. Этот же принцип применяется и к индексации сайтов. По сути, этот процесс можно назвать также внесением информации об интернет-ресурсах в базу данных поисковых систем.

Таким образом, как только пользователь будет вбивать очередную фразу в поисковое поле Google, скрипт будет возвращать ему результат, включающий заголовок вашего сайта и его краткое описание, которое мы видим ниже.

Как осуществляется индексация?

Сама индексация («Яндекс» это, или Google - роли не играет) проходит довольно просто. Всю паутину интернет, ориентируясь на базу ip-адресов, которая есть у поисковиков, сканируют мощные роботы - «пауки», собирающие информацию о вашем сайте. Их у каждой из поисковых систем огромное количество, а работают они в автоматическом режиме 24 часа в сутки. Их задача - зайти на ваш сайт и «прочесть» весь контент на нем, занеся при этом данные в базу.

Следовательно, в теории индексация сайта мало зависит от владельца ресурса. Решающим фактором здесь является который заходит на сайт и исследует его. Именно это и влияет на то, как быстро ваш сайт появится в поисковой выдаче.

Сроки индексации?

Разумеется, каждому вебмастеру выгодно, чтобы его ресурс появился в поисковой выдаче как можно быстрее. Это будет влиять, во-первых, на сроки вывода сайта на первые позиции, а, во-вторых, на то, когда начнутся первые этапы монетизации сайта. Таким образом, чем раньше поисковый робот «скушает» все страницы вашего ресурса, тем лучше.

Каждая имеет свой алгоритм внесения данных о сайтах в свою базу. Например, индексация страниц в «Яндекс» осуществляется поэтапно: роботы сканируют сайты постоянно, затем упорядочивают информацию, после чего проходит так называемый «апдейт», когда все изменения вступают в силу. Регулярность таких событий компанией не устанавливается: они проводятся раз в 5-7 дней (как правило), однако могут совершаться и за 2, и за 15 суток.

При этом индексация сайта в Google идет по другой модели. В этой поисковой системе такие «апдейты» (обновления базы) проходят регулярно, в связи с этим ждать каждый раз, пока роботы занесут информацию в базу, а затем она будет упорядочена раз в несколько суток, не нужно.

На основе вышесказанного, можем сделать следующий вывод: страницы в «Яндекс» добавляются через 1-2 «апдейта» (то есть за 7-20 дней в среднем), а в Google это может произойти гораздо быстрее - буквально за сутки.

При этом, разумеется, у каждой поисковой машины есть свои особенности того, как проводится индексация. «Яндекс», например, имеет так называемого «быстробота» - робота, который может вносить данные в выдачу за несколько часов. Правда, сделать так, чтобы он зашел на ваш ресурс, непросто: это касается преимущественно новостей и разных громких событий, развивающихся в режиме реального времени.

Как попасть в индекс?

Ответ на вопрос о том, как занести данные о своем сайте в индекс поисковиков, одновременно и прост, и сложен. Индексация страниц - это явление естественное, и если вы даже не задумываетесь о ней, а просто, скажем, ведете свой блог, постепенно наполняя его информацией - поисковые механизмы со временем отлично «проглотят» ваш контент.

Другое дело - это когда вам нужно ускорить индексацию страницы, например, если у вас сеть так называемых «сателлитов» (сайтов, рассчитанных на продажу ссылок или размещение рекламы, качество которых, как правило, хуже). В таком случае необходимо принимать меры для того, чтобы роботы заметили ваш сайт. Общераспространенными считаются следующие: добавление URL-адреса сайта в специальную форму (называется она «AddUrl»); прогон адреса ресурса по каталогам ссылок; добавление адреса в каталоги закладок и много другого. О том, как работает каждый из этих методов, ведутся многочисленные дискуссии на SEO-форумах. Как показывает практика, каждый случай уникальный, и более точно найти причины того, почему один сайт проиндексировался за 10 дней, а другой - за 2 месяца, сложно.

Как ускорить попадание в индекс?

Тем не менее, логика, с помощью которой можно сделать так, чтобы сайт попал в индекс быстрее, основывается на на него. В частности, речь идет о простановке URL на бесплатных и общедоступных сайтах (закладки, каталоги, блоги, форумы); о покупке ссылок на крупных и раскрученных сайтах (с помощью биржи Sape, например); а также о добавлении в форму addURL. Возможно, есть и другие методы, однако те, что уже были перечислены, можно с уверенностью назвать самыми популярными. Напомним, в целом же все зависит от сайта и везения его владельца.

Какие сайты попадают в индекс?

Согласно официальной позиции всех поисковых систем, в индекс попадают сайты, которые проходят ряд фильтров. Какие требования содержат последние, не знает никто. Известно лишь, что с течением времени все они совершенствуются таким образом, чтобы отсеивать псевдосайты, созданные для заработка на продаже ссылок и прочие ресурсы, не несущие полезной информации для пользователя. Разумеется, для создателей этих сайтов главной задачей является индексация страниц в как можно большем объеме (чтобы привлечь посетителей, продать ссылки и так далее).

Какие ресурсы поисковики банят?

Базируясь на предыдущей информации, можно сделать вывод о том, какие сайты, скорее всего, не попадут в поисковую выдачу. Та же информация озвучивается и официальными представителями поисковых систем. В первую очередь это сайты, содержащие неуникальный, генерированный автоматически контент, который не является полезным для посетителей. Далее следуют ресурсы, в которых минимум информации, созданные для продажи ссылок и так далее.

Правда, если проанализировать выдачу поисковых систем, то в ней можно найти все эти сайты. Поэтому, если говорить о сайтах, которые не будут присутствовать в выдаче, следует отмечать не только неуникальный контент, а еще и ряд других факторов - множество ссылок, неправильно организованная структура и так далее.

Скрываем контент. Как запретить индексацию страницы?

Поисковые системы сканируют весь контент, находящийся на сайте. Однако существует методика, с помощью которой можно ограничить доступ поисковых роботов к тому или иному разделу. Делается это с использованием файла robots.txt, на который и реагируют «пауки» поисковых систем.

Если в корне сайта поместить этот файл, будет проходить по сценарию, который прописан в нем. В частности, можно запретить индексацию с помощью единственной команды - Disallow. Помимо нее, в файле можно указывать еще и разделы сайта, на которые этот запрет будет распространяться. К примеру, для запрета вхождения в индекс всего сайта, достаточно указать один слэш «/»; а чтобы исключить из выдачи раздел «shop», достаточно указать такую характеристику в своем файле: «/shop». Как видите, все логично и предельно просто. Индексация страниц закрывается очень легко. При этом поисковые роботы заходят на вашу страничку, читают robots.txt и не вносят данные в базу. Так можно легко манипулировать, чтобы видеть в поиске те или иные характеристики сайтов. Теперь поговорим о том, как проверяется индекс.

Как можно проверить индексацию страницы?

Существует несколько способов узнать то, сколько и какие страницы присутствуют в базе «Яндекс» или Google. Первый - самый простой - это задать соответсвующий запрос в поисковую форму. Выглядит он так: site:domen.ru, где вместо домен.ру вы прописываете, соответственно, адрес вашего сайта. Когда вы сделаете такой запрос, поисковик покажет все результаты (страницы), расположенные по указаному URL. Причем, помимо простого перечисления всех страниц, вы можете также видеть общее число проиндексированного материала (справа от фразы «Количество результатов»).

Второй способ - это проверить индексацию страницы, используя специализированные сервисы. Их сейчас большое количество, навскидку можно назвать xseo.in и cy-pr.com. На таких ресурсах можно не только увидеть общее число страниц, но и определить качество некоторых из них. Однако это нужно вам лишь в том случае, если вы более углубленно разбираетесь в данной теме. Как правило, это профессиональные SEO-инструменты.

О «принудительной» индексации

Еще хотелось бы немного написать о так называемой «принудительной» индексации, когда человек различными «агрессивными» методами пытается загнать свой сайт в индекс. Делать этого оптимизаторы не рекомендуют.

Поисковые системы как минимум, заметив чрезмерную активность, связанную с новым ресурсом, могут ввести в действие какие-то санкции, негативно сказывающиеся на состоянии сайта. Поэтому лучше делать все так, чтобы индексация страниц выглядела как можно более органичной, постепенной и плавной.

Индексирование сайта - это важнейшая, необходимая и первоочередная деталь в осуществлении его оптимизации. Ведь именно вследствие наличия индекса поисковые системы предельно быстро и точно могут отвечать на все запросы пользователей.

Что такое индексация сайта?

Индексацией сайта называют процесс добавления информации о содержимом (контенте) сайта в базу данных поисковиков. Именно индекс и является базой данных поисковых систем. Для того чтобы сайт был проиндексирован и появился в поисковой выдаче, на него должен зайти специальный поисковый бот. Весь ресурс, страница за страницей, исследуется ботом по определенному алгоритму. В результате находя и индексируя ссылки, изображения, статьи и т. д. При этом в поисковой выдаче выше в перечне будут находиться те сайты, авторитет которых выше по сравнению с остальными.

Выделяют 2 варианта индексации сайта ПС:

  • Самостоятельное определение поисковым роботом свежих страниц либо созданного ресурса - данный способ хорош при наличии активных ссылок с других, уже проиндексированных сайтов, на ваш. В ином случае ждать поискового робота можно бесконечно долго;
  • Пнесение URL на сайт в предназначенной для этого форме поисковика ручным способом - этот вариант позволяет новому сайту «встать в очередь» на индексацию, которая займет довольно продолжительное время. Способ простой, бесплатный и требует внесения адреса лишь главной страницы ресурса. Данную процедуру можно выполнить через панель вебмастера Яндекса и Гугла .

Как подготовить сайт к индексации?

Сразу стоит отметить, что крайне нежелательно выкладывать сайт на стадии разработки. Поисковые системы могут проиндексировать неоконченные страницы с некорректными сведениями, орфографическими ошибками и т. д. В итоге это негативно отразится на рейтинге сайта и выдаче информации с данного ресурса в поиске.

Теперь давайте перечислим моменты, о которых нельзя забывать на этапе подготовки ресурса к индексации:

  • на flash файлы распространяются ограничения индексации, поэтому сайт лучше создавать с помощью HTML;
  • такой тип данных, как Java Script также не индексируется поисковыми роботам, в связи с этим навигацию по сайту следует дублировать текстовыми ссылками, а всю важную информацию, которая должна быть проиндексирована, не пишем в Java Script;
  • нужно убрать все неработающие внутренние ссылки так, чтобы каждая ссылка вела на реальную страницу вашего ресурса;
  • структура сайта должна позволять с легкостью переходить от нижних страниц к главной и обратно;
  • лишние и второстепенные сведения и блоки лучше переместить к низу страницы, а также скрыть их от ботов специальными тегами.

Как часто происходит индексация?

Индексация сайта в зависимости от ряда причин может занимать от нескольких часов до нескольких недель, вплоть до целого месяца. Обновление индексации, или апы поисковых систем происходят с различной периодичностью. По статистике в среднем Яндекс индексирует новые страницы и сайты за период от 1 до 4 недель, а Google справляется за период до 7 дней.

Но при правильной предварительной подготовке созданного ресурса эти сроки можно сократить до минимума. Ведь по сути все алгоритмы индексации ПС и логика их работы сводится к тому, чтобы дать наиболее точный и актуальный ответ на запрос пользователя. Соответственно, чем регулярнее на вашем ресурсе будет появляться качественный контент, тем быстрее он будет проходить индексацию.

Методы ускорения индексации

Для начала следует «оповестить» поисковики о том, что вы создали новый ресурс, как уже говорилось в пункте выше. Также многие рекомендуют добавить новый сайт в системы социальных закладок, но я так не делаю. Это действительно позволяло ускорить индексацию несколько лет назад, так как поисковые роботы частенько «наведываются» на такие ресурсы, но, на мой взгляд, сейчас лучше поставить ссылку из популярный соц сетей. В скором времени заметят и ссылку на ваш ресурс, и проиндексируют его. Подобный эффект может быть достигнут и при помощи прямых ссылок на новый сайт с уже проиндексированных ресурсов.

После того как несколько страниц уже попали в индекс и сайт стал развиваться для ускорения индексации можно попробовать «прикормить» поискового бота. Для этого нужно переодически публиковать новый контент примерно через равные промежутки времени (например, каждый день по 1-2 статьи). Конечно же, контент должен быть уникальным, качественным, грамотным и неперенасыщенным ключевыми фразами . Также рекомендую создать XML карту сайта, о котором пойдет речь ниже и добавить его в панели веб-мастера обоих поисковых систем.

Файлы robots.txt и Sitemap

Текстовый файл robots txt включает в себя указания для ботов поисковиков. При этом он дает возможность запретить индексацию выбранных страниц сайта для заданной поисковой системы. Если будете его делать вручную, то важно, чтобы имя данного файла было прописано только прописными буквами и находилось в корневой директории сайта, большинство CMS генеририруют его самостоятельно или с помощью плагинов.

Sitemap или карта сайта представляет собой страничку, содержащую полную модель структуры сайта в помощь «заблудившимся пользователям». При этом можно перемещаться со страницы на страницу без использования навигации сайта. Желательно создать такую карту и в формате XML для поисковых систем и вписать его в файл robots.txt для улучшения индексации.

Об этих файлах можете получить более подробную информацию в соответствующих разделах, перейдя по ссылкам.

Как запретить сайт к индексации?

Управлять, в том числе и запрещать сайт или отдельную страницу к индексации, можно при помощи уже упомянутого выше файла robots.txt. Для этого создайте на своем ПК текстовый документ с таким названием, поместите его в корневой папке сайта и пропишите в файле от какого поисковика вы хотите скрыть сайт. Кроме того, скрыть контент сайта от ботов Google или Яндекса можно используя знак * . Вот эта инструкция в robots.txt запретит индексацию всем поисковым системам.

User-agent: * Disallow: /

Для сайтов на WordPress запретить индексацию сайта можно через панель управления. Для этого в настойках видимости сайта нужно поставить галочку «Рекомендовать поисковым машинам не индексировать сайт». При этом Яндекс, скорее всего, прислушается к вашему пожеланию, а вот с Google не обязательно, но могут возникнуть некоторые проблемы.