搜索引擎的工作过程非常复杂,大致可以分为三个阶段
一、网页收集:搜索引擎蜘蛛通过链接进行爬行和实时搜索,并将捕获的网页存储在原始数据库中
二、预处理:搜索引擎蜘蛛捕捉到的页面不能被用户直接查询和排序,因此需要进行预处理
三、检索服务:用户输入查询项后,排名程序调用索引数据中的数据,按排序顺序向用户显示与用户搜索项相关的页面
搜索引擎通过蜘蛛程序抓取和收集网页。网页收集是搜索引擎工作的步。了解由手引起的网页抓取机制,便于蜘蛛抓取更多的网页,使网站有更好的排名
蜘蛛:网络爬虫,也称为网络蜘蛛,网络机器人,是根据一定规则自动抓取网页的程序和脚本
蜘蛛的工作原理:对于Internet中的网站,如果没有链接的筛选设置,蜘蛛可以通过链接在网站或网站之间爬行。由于网络中网页的链接结构异常,蜘蛛需要采取一定的爬行策略来爬行更多的网页
有两种简单的爬行策略:深度优先和广度优先。
深度优先:蜘蛛从起始页开始,一个接一个地跟踪和吸收链接,从这一行出来后,再到下一个起始页跟踪链接。
如图1所示:
在深度优先模式下,爬行器从第f页爬行到第A1、A2和A3页。爬网到第A3页后,没有其他要爬网的链接。它将返回到F页,并沿着页面上的另一个链接爬行到B1、B2和B3页。在“深度优先”策略中,蜘蛛爬行,直到它不能再向前移动,然后返回另一条路径。
广度优先:这意味着蜘蛛将抓取起始网页链接中的所有链接,然后选择其中一个链接页面,并继续抓取此页面中的所有页面。这是一种常见的方法,因为这种方法可以让蜘蛛网并行处理,提高其抓取速度。
如图2所示:
这是一个有限范围的模型图。蜘蛛沿着链接从f页爬行到A1、B1和C1页,直到f页上的所有链接都已爬行,然后从f页上找到的下一个链接A1爬行到A2、A3和A4页。
深度优先和官渡优先通常是混合使用的。这样,你不仅可以照顾尽可能多的网站,还可以照顾一些网站的内部页面。勇士还将考虑页面权重、网站规模、外链、更新等因素。此外,为了提高爬行和抓取的速度,搜索引擎使用多个蜘蛛同时爬行。根据这一原则,为了使网站中的所有页面按顺序爬行,必须合理设置网站中的链接(内链的结构和布局)。