网站日志应该分析哪些数据?从基本信息、目录抓取、时段抓取、IP抓取、状态码等方面进行分析
一是基本情况
下载一个网站日志文件工具,获取基本信息:爬行总量、停留时间(H)和访问次数;通过这三个基本信息,我们可以计算出:每次爬行的平均页面数、单页爬行的停留时间,然后利用MSSQL提取爬行器的爬行量,并根据上述数据计算爬行器的重复爬行率
统计一段时间的数据,可以看出整体趋势是什么,这样就可以发现问题,可以调整网站的整体策略。以下是网站管理员的基本日志信息示例:
从日志的基本信息来看,我们需要看到其整体趋势的调整,哪些方面需要加强。
从这个整体趋势来看,我们可以看到爬行总量在下降,所以我们需要做一些相应的调整。
总的来说,重复爬行的比率上升了一点。这需要一些细节,更多的爬行入口,以及机器人和nofollow技能的使用。
爬虫单侧驻留时间,一旦看到一篇软文,网页加载速度如何影响seo流量;提高网页加载速度,减少爬虫单侧驻留时间,可以贡献爬虫的总抓取量,进而增加网站的收录量,从而提高网站的整体流量。从16号到20号服务器出现了一些问题。调整后,速度明显加快,单页停留时间相应缩短。
相应调整如下:
从本月的整理情况看,爬虫的抓取量在减少,重复抓取率在增加。综合分析需要从站内外环节进行调整。网站中的链接应与锚文本尽可能多。如果你不能,你可以推荐其他页面上的超链接,这样蜘蛛就可以尽可能深入地捕捉它们。因此,非网站链接需要以多种方式发布。目前,平台太少。如果深圳新闻网、上国网等网站出现错误,我们的网站将受到严重影响。站外平台要宽,发布的链接要多样化,不能直接发到主页的要加强。目前,站外平台太少。近10W的外部链接集中在几个平台上。
第二,目录抓取
使用MSSQL提取爬虫爬网的目录,并分析每天爬网的目录数量。您可以清楚地看到每个目录的爬行情况。另外,还可以比较之前的优化策略,优化是否合理,关键列优化是否达到预期效果。
绿色:主列黄色:差抓粉色:差抓深蓝色:需要禁止列
我们可以看到,整体趋势没有太大变化,只是两栏的截图有了很大的变化。
总体把握较少。在主栏中,抓取较少的是:XXX,XXX,XXX。一般来说,我们需要增加整个网站的导入端口,配合外链,加强站内的内部链接建设。对于薄弱环节,要加强处理。同时,将深蓝的栏目写入机器人进行屏蔽,并将网站导入这些栏目进行URL nofollow,避免权重只进不出。
三是时段捕捉
通过Excel中的数组函数,提取爬虫每日抓取的时间段,重点对每日抓取进行分析,找到对应抓取更密集的时间段,可以有针对性地更新内容。同时,可以看出抓取异常。
某一天哪个时点有问题,而且也是总把握是下降趋势。
通过时间段抓取,我们做了相应的调整:
通过图中的表色,我们可以看出服务器并不是特别稳定。我们需要加强服务器的稳定性。另外,17、18、19三天,连续攻击,挂链,但爬行正常,这说明这些网站都造成了一定的影响!
第四,IP段抓取
通过MSSQL在日志中提取爬虫的IP,通过Excel进行统计,每天每个IP的抓取量,我们也需要整体来看,如果IP段没有明显的变化,那么网站的提升权问题不大。因为爬虫的IP段在网站升级或降权时会发生变化。
五是状态码的统计
在此之前,您需要知道HTTP状态码返回值表示什么。
如果一个网站被搜索引擎爬网的次数和频率较多,那么更有利于排名,但是如果你的网站出现次数过多,那么就会降低搜索引擎的频率和频率,从而使你的网站排名比别人低一步。调整:服务器可以清除下一个缓存。
百度爬虫数据图,密密麻麻的数据,以上所有数据都是从这里调用的