福州seo|福建seo >> 福州SEO优化 >> robots与sitemap

robots与sitemap

作者:SEO技术 分类: 福州SEO优化 发布于:2015-7-24 23:46 ė670次浏览 60条评论
robots是什么?

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

简而言之,就是网站站长与搜索引擎达成的协议,我网站的私密信息你不要抓取收录,其他的可以抓取。

那怎么写这个robots协议呢?

robots常用写法规则:

User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符,可匹配文件,目录,站点
常见的搜索引擎蜘蛛有:
百度 —-Baiduspider,Baiduspider-image

谷歌 —-Googlebot

有道—-YodaoBot

搜搜 —-Sosospider   ,  Sosoimagespider(网页蜘蛛/图片蜘蛛)

搜狗—-Sogou web spider,      Sogou inst spider,        Sogou spider 2,      Sogou blog,       Sogou News Spider,     Sogou orion spider,

微软 —-Msnbot

360—–360spider


Disallow:是禁止抓取,注意Disallow:正规写法是后面一定要带1个空格,一定是要在英文输入状态下输入
例如:
Disallow:  /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow:  /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow:  /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow:  /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。
Disallow:  /*?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow:  /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:  /ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
Allow:是允许抓取,注意Allow: 正规写法是后面一定要带1个空格,,一定是要在英文输入状态下输入

例如:
Allow:  /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow:  /tmp 这里定义是允许爬寻tmp的整个目录
Allow:  .htm$ 仅允许访问以”.htm”为后缀的URL。
Allow:  .gif$ 允许抓取网页和gif格式图片
怎样写好Robots协议呢?
熟悉网站的后台文件,特别是在公司上班的SEO人员,接受网站后,因网站不是自己搭建的,要做的事就是要熟悉网站后台文件。
检测网站的死链接可用Robots屏蔽掉,或提交百度。


例:屏蔽死链接aba.html
Disallow: /abc/aba.html
如果实在不会写Robots协议,或者怕写错的话,那就在百度站长平台里面写吧,写好了还可以检测错误。
Sitemap: 网站地图 告诉爬虫这个页面是网站地图
网站地图是什么东西呢?网站地图其实没有这么神秘?它只是把Robots协议换成另一种表达方式,也就是说网站地图和Robots协议其实是一个意思,不同表达方式而已。
怎么做网站地图呢?
建议大家下一个软件,sitemapx,可在线制作网站地图。

本文出自 福州seo|福建seo,转载时请注明出处及相应链接。

分享本文至:

俗话说:SEO大神都喜欢发表自己的观点!那么你呢?

电子邮件地址不会被公开。必填项已用*标注


Ɣ回顶部