一个robots.txt文件可以告诉搜索引擎你网站的哪些部分允许它去抓取。而这个文件不旦必须命名成”robots.txt”,还得放在你网站的根目录上。
我们网站robots.txt文件的路径。
所有的遵循这一规则的搜索引擎爬虫(按照通配符*指示的那样)不应该进入并抓取/images/或者任何以/search开头的url里的内容。
你也许并不希望你网站的一些页面被抓取到,因为如果它们出现在搜索结果里对用户可能是没多大意义的。如果你想阻止搜索引擎爬取你的网页,Google网站管理员工具有一个很好用的robots.txt生成器来帮助你创建这个文件。另外如果你希望子域名里的一些内容不被爬取,你需要在子域名的目录下再新建一个robots.txt文件。你也可以在我们的网站管理员帮助中心获得更多关于robots.txt的信息。
这里也有其它更便捷的方式来阻止你的内容出现在搜索结果里,比如说在robots meta标签里添加”NOINDEX”,使用htaccess来为一些目录加密或者使用Google网站管理员工具来移除某些已经被索引的内容。 Google工程师 Matt Cutts一个帮助视频里粗略地介绍了各种URL排除原理的注意事项。
文档来源:Google网站管理员博客
中文翻译:个篱遐想录
以上文字英文及图片版权皆归Google网站管理员博客所有,为避免麻烦谢绝将个篱遐想录上这个指南中文翻译版制作成PDF等电子书格式进行第二次发布。
【本文翻译仅为外语学习及阅读目的,原文作者个人观点与译者及译言网无关】