福州seo|福建seo >> 福州SEO优化 >> 使用SHELL分析日志常用命令

使用SHELL分析日志常用命令

作者:SEO技术 分类: 福州SEO优化 发布于:2015-8-14 23:53 ė733次浏览 60条评论
1、切割百度的抓取数据(将文件切割出来对专门的蜘蛛进行处理能提高效率)
cat log.log |grep -i ‘baiduspider’ >baidu.log

2、网站状态码个数查询(隐藏的是状态码个数)
awk ‘{print $9}’ baidu.log|sort|uniq -c|sort -nr

3、百度总抓取量
wc -l baidu.log

4、百度不重复抓取量
awk ‘{print $7}’ baidu.log|sort|uniq|wc -l

5、百度平均每次抓取的数据大小(结果是KB)
awk ‘{print $10}’ baidu.log|awk ‘BEGIN{a=0}{a+=$1}END{ print a/NR/1024}’

6、首页抓取量
awk ‘$7~/\.com\/$/’ baidu.log|wc -l

7、某目录抓取量
grep ‘/news/’ baidu.log|wc -l

8、抓取最多的10个页面
awk ‘{print $7}’ baidu.log|sort|uniq -c|sort -nr|head -10

9、找出抓取的404页面
awk ‘$9~ /^404$/ {print $7}’ baidu.log|sort|uniq|sort -nr

10、找出抓取了多少js文件和文件抓取的次数(可以看出百度基本不抓JS)
awk ‘$7~ /.js$/ {print $7}’ baidu.log|sort|uniq -c |sort -nr

本文出自 福州seo|福建seo,转载时请注明出处及相应链接。

分享本文至:

俗话说:SEO大神都喜欢发表自己的观点!那么你呢?

电子邮件地址不会被公开。必填项已用*标注


Ɣ回顶部