一个合格的seo工程师一定会理解搜索引擎的工作原理。百度和谷歌的原理基本相同,但有些细节不同,比如分词技术。因为国内搜索一般都是百度,所以我们未来的课程都会针对百度,当然,基础课只适用于谷歌!
搜索引擎的工作原理其实很简单。首先,搜索引擎大致分为四个部分。_部分是蜘蛛爬虫,第二部分是数据分析系统,第三部分是索引系统,第四部分是查询系统。当然,这只是基本的四个部分!
让我们来谈谈搜索引擎的工作流程
搜索引擎蜘蛛程序,其实是一个自动应用的搜索引擎,它的作用是什么?其实很简单,就是在网上浏览信息,然后把这些信息抓到搜索引擎服务器上,然后建立索引数据库。我们可以把搜索引擎蜘蛛作为用户,然后这个用户会访问我们的网站,然后把我们网站的内容保存到自己的电脑上!这很容易理解。
查找链接→下载此网页→添加到临时库→提取网页中的链接→下载网页→循环
首先,搜索引擎的蜘蛛需要找到链接,至于如何找到它很简单,就是通过链接链接。当搜索引擎蜘蛛找到链接时,它将下载页面并将其存储在临时库中。当然,它会提取这个页面上的所有链接,然后循环。
搜索引擎蜘蛛几乎24小时没有休息(这里为它感到悲剧性,没有假期。哈哈)那么蜘蛛下载回来的网页呢?这需要转到第二个系统,即搜索引擎分析系统。
这个问题问得好,那么搜索引擎蜘蛛爬行网页到底有没有规则?答案是肯定的!
如果蜘蛛随机地去抓取网页,那就很难了,网页在网上,每天都有这么多,蜘蛛怎么能抢过来呢?所以,蜘蛛爬网页也有规则!
策略1:深度优先
什么是深度优先?简而言之,搜索引擎蜘蛛在一个页面上找到一个连接,然后沿着链接向下爬行,然后在下一个页面上找到另一个连接,然后向下爬行并获取所有连接。这是深度优先的爬行策略。看下面的图片
上图为深度优先示意图。如果a网页在搜索引擎中拥有***的权限,如果D网页的权限_,如果搜索引擎蜘蛛按照深度优先的策略抓取网页,那么它就会反转,即D网页的权限变为,这就是深度优先!
策略2:宽度优先
宽度优先更容易理解,也就是说,搜索引擎蜘蛛先抓取整个页面上的所有链接一次,然后再抓取下一页的所有链接。
上图是宽度优先的示意图!这实际上就是我们通常所说的扁平结构。你可能会在一个神秘的角落里看到一篇文章,警告你网页的层次不要太高,如果太多会导致收藏困难。这是用宽度优先策略来对付搜索引擎蜘蛛,这其实也是原因所在。
策略三:权重优先
如果我们说宽度优先比深度优先,那不是***的。我们只能说,每一个都有自己的优势。现在搜索引擎蜘蛛一般会同时使用两种爬行策略,即深度优先+宽度优先。在使用这两种策略进行抓取时,我们应该参考这种联系的权重。如果这个连接的权重好,那么我们应该先采用深度,如果这个连接的权重很低,那么就先使用宽度!
那么搜索引擎蜘蛛如何知道这个连接的权重呢?
有两个因素:1。或多或少的层次;2。该连接的外链的数量和质量;
所以,如果层次结构中有太多的链接,它们会不会被抓取?这并不是***的,在这里我们要考虑很多因素,我们在***阶段会沦为逻辑策略,然后我会详细告诉你!
蜘蛛爬行网页策略4:重新访问和爬行
我认为这更容易理解。比如昨天的搜索引擎蜘蛛抓取了我们的网页,今天我们给这个页面增加了新的内容,那么搜索引擎蜘蛛今天会抓到新的内容,这就是重新访问和爬行!再访还有两种抓取方法,如下所示:
所谓全回访是指蜘蛛一次爬网链接,然后在本月的某一天,全部回访并抓取一次!一次访问通常是针对更新速度更快、更稳定的页面。如果我们有一个页面,它不会每月更新一次。