Часто требуется узнать, какие страницы сайта находятся в индексе поисковой системы.

Сделать это можно несколькими путями как в ручную, так и используя различные методы автоматизации.

Ручная проверка

Вариант 1
Я Яндексе – идем на Яндекс вебмастер – раздел Проверить сайт. Как вариант – сделать запрос, вида

http://yandex.ru/yandsearch?surl=blog.negotiant.org

В Google – формируем запрос, вида

http://www.google.com/search?&q=allinurl:blog.negotiant.org/+site:blog.negotiant.org

Вариант 2
Смотрим страницы в индексе в соответствующих инструментах – Яндекс Вебмастер – Мои сайты и Google – Инструменты для веб-мастеров.

Минус таких способов – проверяется скопом весь сайт. Информацию по нужной странице нужно выкавыривать руками.

Проферка специализированным софтом

YCCY

Модуль INDEXATOR:

- Пакетная проверка страниц сайтов, на проиндексированность в Яндексе, Google.
- Пакетная проверка сайтов, на количество проиндексированных страниц в Яндексе, Google, Rambler.
- Пакетная проверка обратных ссылок(текста ссылки) в Яндексе, Google.
- Пакетная проверка Google PageRank.
- Поддержка файлов экспорта ссылок PROPAGE, SAPE, XAP.
- Проверка проиндексированности в Яндексе через Mail.ru, Яндекс.XML

Цена: $0

Особого восторга от бесплатности программы не испытал – заставить её толком работать так и не удалось. Возможно, проблема в формате списка ссылок, выгруженного из SAPE.

Yandexoid
Загружает списки URL для проверки только списком из файла в текстовом формате.
Цена: $10 (вроде бы. Хотя, за что?)

Вроде даже и проверяет что-то. Но результат достоверен далеко не на 100% – перепроверял вручную.

Сервисы

Не нашел ни одного. :(
Куча различных версий самопальных скриптов, выложенных в исходниках и прочего, но реально работающего сервиса – ни одного. Наверно плохо искал.

Казалось бы, что сложного? – Брать sitemap.xml или экспортировать с биржи ссылок, вроде SAPE, парсить оттуда URL, отфильтровывать по robots.txt, и скармливать поисковой системе? – Вроде бы ничего, но факт отсутствия такого сервиса на лицо.
Нечто подобное есть в исходниках: YAP Checker и «Позиции в Яндексе», Парсер проиндексированных страниц в Яндексе.

По поводу скармливания ссылок на проверку в поисковой системе:

Работа через Яндекс.XML позволяет осуществлять проверку индексации ссылок без использования задержек между обращениями к серверу яндекса, что позволяет существенно увеличить скорость проверки.
Работая через XML, яндекс разрешает делать автоматические запросы. Так, что эта опция будет очень полезна для тех, кто постоянно залетает в список роботов яндекса.
Для работы через XML обязательно зарегистрируйте свой IP адрес, следуя по следующей ссылке – http://xml.yandex.ru/ip.xml
Яндекс.XML разрешает сделать только 1000 запросов в сутки с одного IP адреса. Подробности можно найти на http://xml.yandex.ru. При превышении этого лимита программа отрапортует, что лимит исчерпан и перейдёт в обычный режим проверки.

Как известно mail.ru зарубил свой собственный поисковик и пошёл по пути наименьшего сопротивлениея. Заплатил яндексу за безлимитное использование Яндекс.XML и теперь выдаёт на поисковые запросы в точности такой же результат, как и яндекс. Пока go.mail.ru не придумал капчу за эксплуатирование его всякими автоматическими программами. Поэтому если поставить галочку «работать через go.mail.ru» то можно не использовать задержку, о которой говорится в пункте два. Но я рекомендую выставить небольшую задержку, если у Вас выделенный интернет канал. Вполне хватит задержки = 100.
© Блог Владимира Торопчина

Вопрос покупки у Яндекса дополнительного количества проверок считаю не менее интересным – сколько и почём?

На последок ещё один вопрос на засыпку: Как вернуть страницы, исключенные из индекса? В Google можно отправить жалостливый Запрос на пересмотр.
А в Яндексе? – «Удалить URL» – «Добавить URL»? Или тоже писать в службу поддержки?
А может тупо переименовать страницы, например, добавив в начало или конец символ подчеркивания ? – Буду выяснять опытным путём. :)

Добавить в закладки