14 февраля 2011
Google игнорирует robots.txt?
Западные вебмастера не раз отмечали, что боты Google игнорируют инструкции, прописанные в файле robots.txt. Почему страницы, закрытые от индексации, появляются в выдаче Google? Ответить на данный вопрос решил сам Мэтт Каттс (Matt Cutts), руководитель группы Google Webspam, хорошо знакомый с данной ситуацией.
По его словам, большинство обращений вебмастеров одного содержания, а именно: после того как страница example.com/go была закрыта от индексации в robots.txt, в результатах поиска Google может появиться URL данной страницы, но без сниппета. На последнем Каттс особо акцентирует внимание вебмастеров и отмечает: «Так происходит именно потому, что Google не обходит закрытую страницу».
Зачастую информация о таких закрытых страницах присутствует в каталогах или на других ресурсах, именно они становятся источниками данных для Google. Т.е. если страница закрыта от индексации, Google не будет ее индексировать. Ссылка на нее берется из Сети, однако сама страница не обходится поисковым роботом.
«Подобные страницы не ищутся по точному вхождению текста, по title, в кэше пусто. Однако такое положение дел мешает тем, что любая служебная страница, скажем site.com/admin/password, может быть найдена таким образом», - комментирует ситуацию Роман Вилявин, заместитель директора по продвижению в западном сегменте, компания Promodo.
Для того чтобы служебные и другие страницы не появлялись в SERP, Мэтт Каттс советует использовать мета-тэг "noindex", либо инструмент URL removal tool в том случае, если она уже там.