robots是什么-济南SEO技术博客

1.robots是什么？

robots是网站跟爬虫间的协议，用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限，也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

Robots 协议是互联网爬虫的一项公认的道德规范，全称是“网络爬虫排除标准（Robots exclusion protocol）”，这个协议用来告诉通用型爬虫（蜘蛛），哪些页面是可以抓取的，哪些不可以。

2.如何查看网站的 Robots 协议呢？

很简单，在网站的根目录域名后加上/robots.txt就可以了。例如，通过https://www.douban.com/robots.txt 这个链接可以查看豆瓣的 Robots 协议。

Allow 代表允许访问，Disallow 就是禁止访问，User-agent 可以判断是哪家爬虫，经常产生新数据网站 sitemap 文件会用的比较多。

豆瓣的 robots.txt 文件表示：
①对豌豆荚爬虫完全屏蔽，不允许它爬任何豆瓣的网页
②对谷歌广告爬虫，允许爬取除了以Disallow开头的网址以外的其他网址，并且爬取的时间间隔为 5s。
③对于任何爬虫（除豌豆荚爬虫、谷歌的广告爬虫），允许爬取除了以Disallow开头的网址以外的其他网址，并且爬取的时间间隔为 5s。

3. Robots的使用技巧

①每当用户试图访问某个不存在的URL时，服务器都会在日志中记录404错误（无法找到文件）。每当搜索蜘蛛来寻找并不存在的robots.txt文件时，服务器也将在日志中记录一条404错误，所以你应该在网站中添加一个robots.txt。

② 网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能。比如：大多数网站服务器都有程序储存在“cgi-bin”目录下，因此在robots.txt文件中加入“Disallow: /cgi-bin”是个好主意，这样能够避免将所有程序文件被蜘蛛索引，可以节省服务器资源。一般网站中不需要蜘蛛抓取的文件有：后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。
下面是VeryCMS里的robots.txt文件：

User-agent: *
Disallow: /admin/ 后台管理文件
Disallow: /require/ 程序文件
Disallow: /attachment/ 附件
Disallow: /images/ 图片
Disallow: /data/ 数据库文件
Disallow: /template/ 模板文件
Disallow: /css/ 样式表文件
Disallow: /lang/ 编码文件
Disallow: /script/ 脚本文件

③如果你的网站是动态网页，并且你为这些动态网页创建了静态副本，以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里设置避免动态网页被蜘蛛索引，以保证这些网页不会被视为含重复内容。
④ robots.txt文件里还可以直接包括在sitemap文件的链接。就像这样：

Sitemap: http://www.***.com/sitemap.xml

对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文搜索引擎公司，显然不在这个圈子内。这样做的好处就是，站长不用到每个搜索引擎的站长工具或者相似的站长部分，去提交自己的sitemap文件，搜索引擎的蜘蛛自己就会抓取robots.txt文件，读取其中的sitemap路径，接着抓取其中相链接的网页。

⑤ 合理使用robots.txt文件还能避免访问时出错。比如，不能让搜索者直接进入购物车页面。因为没有理由使购物车被收录，所以你可以在robots.txt文件里设置来阻止搜索者直接进入购物车页面。

4.常见Robots名字

google蜘蛛： googlebot
百度蜘蛛：baiduspider
yahoo蜘蛛：slurp
alexa蜘蛛：ia_archiver
msn蜘蛛：msnbot
altavista蜘蛛：scooter
lycos蜘蛛： lycos_spider_(t-rex)
alltheweb蜘蛛： fast-webcrawler/
inktomi蜘蛛： slurp

robots.txt文件名必须是小写，而且放在网站根目录

SEO入门教程济南SEO教程济南建站教程 SEO培训

robots是什么

上一篇

PV、UV、IP的区别

下一篇

HTTP状态码

联系我

近期文章

相关文章

robots和noindex的区别