四川子敬教育科技有限公司
子敬科技
当前位置: 建站知识 » 网站优化 » 正文

网站日志分析能得到什么数据

时间:2022-12-08   浏览:94  

网站日志应该分析哪些数据?从基本信息、目录抓取、时段抓取、IP抓取、状态码等方面进行分析

网站日志分析能得到什么数据

一是基本情况

下载一个网站日志文件工具,获取基本信息:爬行总量、停留时间(H)和访问次数;通过这三个基本信息,我们可以计算出:每次爬行的平均页面数、单页爬行的停留时间,然后利用MSSQL提取爬行器的爬行量,并根据上述数据计算爬行器的重复爬行率

统计一段时间的数据,可以看出整体趋势是什么,这样就可以发现问题,可以调整网站的整体策略。以下是网站管理员的基本日志信息示例:

从日志的基本信息来看,我们需要看到其整体趋势的调整,哪些方面需要加强。

从这个整体趋势来看,我们可以看到爬行总量在下降,所以我们需要做一些相应的调整。

总的来说,重复爬行的比率上升了一点。这需要一些细节,更多的爬行入口,以及机器人和nofollow技能的使用。

爬虫单侧驻留时间,一旦看到一篇软文,网页加载速度如何影响seo流量;提高网页加载速度,减少爬虫单侧驻留时间,可以贡献爬虫的总抓取量,进而增加网站的收录量,从而提高网站的整体流量。从16号到20号服务器出现了一些问题。调整后,速度明显加快,单页停留时间相应缩短。

相应调整如下:

从本月的整理情况看,爬虫的抓取量在减少,重复抓取率在增加。综合分析需要从站内外环节进行调整。网站中的链接应与锚文本尽可能多。如果你不能,你可以推荐其他页面上的超链接,这样蜘蛛就可以尽可能深入地捕捉它们。因此,非网站链接需要以多种方式发布。目前,平台太少。如果深圳新闻网、上国网等网站出现错误,我们的网站将受到严重影响。站外平台要宽,发布的链接要多样化,不能直接发到主页的要加强。目前,站外平台太少。近10W的外部链接集中在几个平台上。

第二,目录抓取

使用MSSQL提取爬虫爬网的目录,并分析每天爬网的目录数量。您可以清楚地看到每个目录的爬行情况。另外,还可以比较之前的优化策略,优化是否合理,关键列优化是否达到预期效果。

绿色:主列黄色:差抓粉色:差抓深蓝色:需要禁止列

我们可以看到,整体趋势没有太大变化,只是两栏的截图有了很大的变化。

总体把握较少。在主栏中,抓取较少的是:XXX,XXX,XXX。一般来说,我们需要增加整个网站的导入端口,配合外链,加强站内的内部链接建设。对于薄弱环节,要加强处理。同时,将深蓝的栏目写入机器人进行屏蔽,并将网站导入这些栏目进行URL nofollow,避免权重只进不出。

三是时段捕捉

通过Excel中的数组函数,提取爬虫每日抓取的时间段,重点对每日抓取进行分析,找到对应抓取更密集的时间段,可以有针对性地更新内容。同时,可以看出抓取异常。

某一天哪个时点有问题,而且也是总把握是下降趋势。

通过时间段抓取,我们做了相应的调整:

通过图中的表色,我们可以看出服务器并不是特别稳定。我们需要加强服务器的稳定性。另外,17、18、19三天,连续攻击,挂链,但爬行正常,这说明这些网站都造成了一定的影响!

第四,IP段抓取

通过MSSQL在日志中提取爬虫的IP,通过Excel进行统计,每天每个IP的抓取量,我们也需要整体来看,如果IP段没有明显的变化,那么网站的提升权问题不大。因为爬虫的IP段在网站升级或降权时会发生变化。

五是状态码的统计

在此之前,您需要知道HTTP状态码返回值表示什么。

如果一个网站被搜索引擎爬网的次数和频率较多,那么更有利于排名,但是如果你的网站出现次数过多,那么就会降低搜索引擎的频率和频率,从而使你的网站排名比别人低一步。调整:服务器可以清除下一个缓存。

百度爬虫数据图,密密麻麻的数据,以上所有数据都是从这里调用的

网站优化相关文章

技术在线:对接技术微信

15年技术在线为您解答,而非客服转达,大事小事随时咨询,有问必答。