设为首页收藏本站关注微信<<< 抵制 IE6 人人有责 >>>
搜索
热搜: 活动 交友 discuz
查看: 2250|回复: 1
打印 上一主题 下一主题

[Html] robots.txt写法大全&实例

[复制链接]
跳转到指定楼层
楼主
发表于 2014-6-29 03:33:53 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
  1. robots.txt写法大全和robots.txt语法的作用
  2. 1如果允许所有搜索引擎访问网站的所有部分的话 我们可以建立一个空白的文本文档,命名为robots.txt放在网站的根目录下即可。
  3. robots.txt写法如下:
  4. User-agent: *
  5. Disallow:
  6. 或者
  7. User-agent: *
  8. Allow: /
  9. 2如果我们禁止所有搜索引擎访问网站的所有部分的话
  10. robots.txt写法如下:
  11. User-agent: *
  12. Disallow: /
  13. 3如果我们需要某一个搜索引擎的抓取的话,比如百度,禁止百度索引我们的网站的话
  14. robots.txt写法如下:
  15. User-agent: Baiduspider
  16. Disallow: /
  17. 4如果我们禁止Google索引我们的网站的话,其实跟示例3一样,就是User-agent:头文件的蜘蛛名字改成谷歌的Googlebot
  18. 即可
  19. robots.txt写法如下:
  20. User-agent: Googlebot
  21. Disallow: /
  22. 5如果我们禁止除Google外的一切搜索引擎索引我们的网站话
  23. robots.txt写法如下:
  24. User-agent: Googlebot
  25. Disallow:
  26. User-agent: *
  27. Disallow: /
  28. 6如果我们禁止除百度外的一切搜索引擎索引我们的网站的话
  29. robots.txt写法如下:
  30. User-agent: Baiduspider
  31. Disallow:
  32. User-agent: *
  33. Disallow: /
  34. 7如果我们需要禁止蜘蛛访问某个目录,比如禁止admin、css、images等目录被索引的话
  35. robots.txt写法如下:
  36. User-agent: *
  37. Disallow: /css/
  38. Disallow: /admin/
  39. Disallow: /images/
  40. 8如果我们允许蜘蛛访问我们网站的某个目录中的某些特定网址的话
  41. robots.txt写法如下:
  42. User-agent: *
  43. Allow: /css/my
  44. Allow: /admin/html
  45. Allow: /images/index
  46. Disallow: /css/
  47. Disallow: /admin/
  48. Disallow: /images/
  49. 9我们看某些网站的robots.txt里的Disallow或者Allow里会看很多的符号,比如问号星号什么的,如果使用“*”,主要是限制访问某个后缀的域名,禁止访问/html/目录下的所有以".htm"为后缀的URL(包含子目录)。
  50. robots.txt写法如下:
  51. User-agent: *
  52. Disallow: /html/*.htm
  53. 10如果我们使用“$”的话是仅允许访问某目录下某个后缀的文件
  54. robots.txt写法如下:
  55. User-agent: *
  56. Allow: .asp$
  57. Disallow: /

  58. 11如果我们禁止索引网站中所有的动态页面(这里限制的是有“?”的域名,例如index.asp?id=1)
  59. robots.txt写法如下:
  60. User-agent: *
  61. Disallow: /*?*
  62. 有些时候,我们为了节省服务器资源,需要禁止各类搜索引擎来索引我们网站上的图片,这里的办法除了使用“Disallow: /images/”这样的直接屏蔽文件夹的方式之外,还可以采取直接屏蔽图片后缀名的方式。
  63. 示例12
  64. 如果我们禁止Google搜索引擎抓取我们网站上的所有图片(如果你的网站使用其他后缀的图片名称,在这里也可以直接添加)
  65. robots.txt写法如下:
  66. User-agent: Googlebot
  67. Disallow: .jpg$
  68. Disallow: .jpeg$
  69. Disallow: .gif$
  70. Disallow: .png$
  71. Disallow: .bmp$
  72. 13如果我们禁止百度搜索引擎抓取我们网站上的所有图片的话
  73. robots.txt写法如下:
  74. User-agent: Baiduspider
  75. Disallow: .jpg$
  76. Disallow: .jpeg$
  77. Disallow: .gif$
  78. Disallow: .png$
  79. Disallow: .bmp$
  80. 14除了百度之外和Google之外,禁止其他搜索引擎抓取你网站的图片
  81. (注意,在这里为了让各位看的更明白,因此使用一个比较笨的办法——对于单个搜索引擎单独定义。)
  82. robots.txt写法如下:
  83. User-agent: Baiduspider
  84. Allow: .jpeg$
  85. Allow: .gif$
  86. Allow: .png$
  87. Allow: .bmp$
  88. User-agent: Googlebot
  89. Allow: .jpeg$
  90. Allow: .gif$
  91. Allow: .png$
  92. Allow: .bmp$
  93. User-agent: *
  94. Disallow: .jpg$
  95. Disallow: .jpeg$
  96. Disallow: .gif$
  97. Disallow: .png$
  98. Disallow: .bmp$

  99. 15仅仅允许百度抓取网站上的“JPG”格式文件
  100. (其他搜索引擎的办法也和这个一样,只是修改一下搜索引擎的蜘蛛名称即可)
  101. robots.txt写法如下:
  102. User-agent: Baiduspider
  103. Allow: .jpg$
  104. Disallow: .jpeg$
  105. Disallow: .gif$
  106. Disallow: .png$
  107. Disallow: .bmp$
  108. 16仅仅禁止百度抓取网站上的“JPG”格式文件
  109. robots.txt写法如下:
  110. User-agent: Baiduspider
  111. Disallow: .jpg$
  112. 17如果 ? 表示一个会话 ID,您可排除所有包含该 ID 的网址,确保 Googlebot 不会抓取重复的网页。但是,以 ? 结尾的网址可能是您要包含的网页版本。在此情况下,沃恩可将与 Allow 指令配合使用。
  113. robots.txt写法如下:
  114. User-agent:*
  115. Allow:/*?$
  116. Disallow:/*?
  117. Disallow:/ *?
  118. 一行将拦截包含 ? 的网址(具体而言,它将拦截所有以您的域名开头、后接任意字符串,然后是问号 (?),而后又是任意字符串的网址)。Allow:  /*?$ 一行将允许包含任何以 ? 结尾的网址(具体而言,它将允许包含所有以您的域名开头、后接任意字符串,然后是问号  (?),问号之后没有任何字符的网址)。

  119. 18如果我们想禁止搜索引擎对一些目录或者某些URL访问的话,可以截取部分的名字
  120. robots.txt写法如下:
  121. User-agent:*
  122. Disallow: /plus/feedback.php?
  123. 供大家参考下即可。
复制代码


分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享淘帖

相关帖子

回复

使用道具 举报

沙发
 楼主| 发表于 2014-7-28 04:29:25 | 只看该作者
一下我们介绍一下常见搜索引擎爬虫蜘蛛(spider)的名称。

Googlebot:Google对一般网页的索引蜘蛛
Googlebot-Mobile:Google对于移动设备,例如手机网页的索引蜘蛛
Googlebot-Image:Google专门用来抓取图片的蜘蛛
Mediapartners-Google:这是Google专门为放置了Google Adsense广告联盟代码的网站使用的专用蜘蛛,只有网站放置了Google Adsense代码的情况下,Google才会使用这个蜘蛛。该蜘蛛的作用是专门抓取Adsense广告内容。
Adsbot-Google:这是Google专门为Google Adwords客户设计的蜘蛛,如果客户使用了Google的Adwords服务,那么Google就会派出这个蜘蛛来衡量放置了客户广告的网站的质量。
Baiduspider:百度的综合索引蜘蛛。
Yahoo! Slurp:雅虎的综合索引蜘蛛。
Yahoo!-AdCrawler: 雅虎专门为YAHOO!搜索引擎广告开发的专用蜘蛛。
YodaoBot:网易有道搜索引擎综合索引蜘蛛。
Sosospider:腾讯SOSO综合索引蜘蛛。
sogou spider:搜狗综合索引蜘蛛。
MSNBot:Live综合索引蜘蛛。
360Spider   360综合索引蜘蛛。

以上这个表格,是目前国内使用较为频繁的各大搜索引擎爬虫的名称。了解了以上所有的robots.txt规则和蜘蛛的名称后,我们就可以开始撰写第一个robots.txt文档了。

回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

QQ|手机版|Archiver|源于生活(个人生活娱乐工作的笔记)css3,html5,学习笔记    

GMT+8, 2024-5-7 04:19 , Processed in 0.078000 second(s), 26 queries .

Powered by Mr.Kevin-ying

© 2004-2015

快速回复 返回顶部 返回列表