Почему Google говорит об ошибке в robots.txt
Один из авторов Google Webmaster Central Blog, Аманда, заметила, что многие веб-мастера удивляются, получив от Google сообщение «URL ограничены ошибками файла robots.txt». Поэтому она решила поделиться соображениями относительно возможных способов решения проблем с файлом robots.txt.
Для начала Аманда предложила допустить, что анализируется проблема со сканированием урла, индексирование которого ошибочно запрещено в роботс.тхт: http://www.example.com/amanda.html URL restricted by robots.txt Sep 3, 2006
Перво-наперво она рекомендует использовать инструмент анализа файла (доступен только для пользователей Site Maps). Естественно, нужно убедиться, что проверяется правильный файл (если используются поддомены, то для каждого из них, как правило, создается отдельный файл). Если проверка показала, что урл заблокирован, значит, решение проблемы кроется в редактировании файла роботс.тхт. Если же инструмент называет его корректным, то нужно изучить файл внимательнее.
Сначала нужно обратить внимание на HTTP-статус. Если Google выдает любой код кроме 200 (успешно обнаружен) или 404 (не найден), значит, есть вероятность, что поисковик не понимает robots.txt. Это, в свою очередь, может спровоцировать проблемы с индексацией. Также Аманда рекомендует обратить внимание на время, которое Google указывает как последнюю дату обращения к robots.txt – возможно, Google не успел увидеть изменения в файле.
Если URL не заблокирован в robots.txt, следует посмотреть на редиректы. Найдя URL, Googlebot обращается к файлу robots.txt, чтобы убедиться, что доступ к URL не закрыт. Если robots.txt разрешает сканирование URL, но с данного URL стоит редирект на другую страницу, то Googlebot вновь обращается к robots.txt, чтобы получить инструкции по поводу страницы, на которую его переадресовали. Если Googlebot получает запрет сканирования URL, на который стоит редирект, данная информация обрабатывается как запрет на индексацию основного URL.
Если URL постоянно переадресовывает на другой, то поведение робота легко проанализировать. Но порой ситуация выглядит запутанной. Например:
На сайте вообще нет robots.txt, но с URL стоит редирект на другой сайт, где robots.txt есть. В этом случае Google может выдать сообщение «URL ограничен файлом robots.txt», которого на сайте нет.
Сайт может требовать регистрации пользователя после просмотра определенного количества страниц. В этом случае с URL нет редиректа, но если Googlebot отмечает ограничение доступа, URL будет отнесен к заблокированным файлом robots.txt.
Ну и никто не отменял мета-тэги "noindex".

