快捷导航
查看: 104|回复: 21

简述百度网络蜘蛛抓取网页的基本原理(爬虫爬取网页的基本步骤)

[复制链接]

1万

主题

0

回帖

1万

积分

论坛元老

积分
11635
发表于 2023-8-24 13:33:34 | 显示全部楼层 |阅读模式
<p>
    对于网站的seo人员来说,搜索引擎蜘蛛都一定有所了解,因为在进行网站优化时都需要研究搜索引擎蜘蛛的工作原理。搜索引擎大致分为4个部分,第一个部分就是蜘蛛爬虫,第二个部分就是数据分析系统,第三个部分是索引系统,第四个就是查询系统,当然这只是基本的4个部分!下边天企小编来为大家讲下搜索引擎的工作流程:
   </p><p class="pgc-img-caption">
</p><p>
    什么是搜索引擎蜘蛛,什么是爬虫程序?
   </p><p>
    搜索引擎蜘蛛程序,其实就是搜索引擎的一个自动应用程序,它的作用是什么呢?其实很简单,就是在互联网中浏览信息,然后把这些信息都抓取到搜索引擎的服务器上,然后建立索引库等等,我们可以把搜索引擎蜘蛛当做一个用户,然后这个用户来访问我们的网站,然后在把我们网站的内容保存到自己的电脑上!比较好理解。
   </p><p>
    搜索引擎蜘蛛是怎样抓取网页的呢?
   </p><p>
    发现某一个链接 → 下载这一个网页 → 加入到临时库 → 提取网页中的链接 → 在下载网页 → 循环
   </p><p>
    首先搜索引擎的蜘蛛需要去发现链接,至于怎么发现就简单了,就是通过链接链接链接。搜索引擎蜘蛛在发现了这个链接后会把这个网页下载下来并且存入到临时的库中,当然在同时,会提取这个页面所有的链接,然后就是循环。搜索引擎蜘蛛几乎是24小时不休息的,那么蜘蛛下载回来的网页怎么办呢?这就需要到了第二个系统,也就是搜索引擎的分析系统。
   </p><p class="ql-align-center">
<br/>
</p><p class="pgc-img-caption">
</p><p class="ql-align-center">
<br/>
</p><p>
    搜索引擎蜘蛛抓取网页到底有规律吗?
   </p><p>
    答案是有!如果蜘蛛胡乱的去抓取网页,那么就费劲了,互联网上的网页,每天都增加那么那么那么多,蜘蛛怎么可以抓取的过来呢?所以说,蜘蛛抓取网页也是有规律的。
   </p><p>
    蜘蛛抓取网页策略1:深度优先
   </p><p>
    简单的说,就是搜索引擎蜘蛛在一个页面发现一个连接然后顺着这个连接爬下去,然后在下一个页面又发现一个连接,然后就又爬下去并且全部抓取,这就是深度优先抓取策略。
   </p><p>
    蜘蛛抓取网页策略2:宽度优先
   </p><p>
    宽度优先比较好理解,就是搜索引擎蜘蛛先把整个页面的链接全部抓取一次,然后在抓取下一个页面的全部链接。
   </p><p class="pgc-img-caption">
</p><p>
    蜘蛛抓取网页策略3:权重优先
   </p><p>
    如果说宽度优先比深度优先好,其实也不是绝对的,只能说是各有各的好处,现在搜索引擎蜘蛛一般都是两种抓取策略一起用,也就是深度优先+宽度优先,并且在使用这两种策略抓取的时候,要参照这条连接的权重,如果说这条连接的权重还不错,那么就采用深度优先,如果说这条连接的权重很低,那么就采用宽度优先。
   </p><p>
    那么搜索引擎蜘蛛怎样知道这条连接的权重呢?
   </p><p>
    这里有2个因素:1、层次的多与少;2、这个连接的外链多少与质量。
   </p><p>
    蜘蛛抓取网页策略4:重访抓取
   </p><p>
    就是比如昨天搜索引擎的蜘蛛来抓取了我们的网页,而今天我们在这个网页又加了新的内容,那么搜索引擎蜘蛛今天就又来抓取新的内容,这就是重访抓取!重访抓取也分为两个,如下:
   </p><p class="pgc-img-caption">
</p><p>
    1、全部重访
   </p><p>
    所谓全部重访指的是蜘蛛上次抓取的链接,然后在这一个月的某一天,全部重新去访问抓取一次。
   </p><p>
    2、单个重访
   </p><p>
    单个重访一般都是针对某个页面更新的频率比较快比较稳定的页面,如果说我们有一个页面,1个月也不更新一次。那么搜索引擎蜘蛛第一天来了你是这个样子,第二天,还是这个样子,那么第三天搜索引擎蜘蛛就不会来了,会隔一段时间在来一次,比如隔1个月在来一次,或者等全部重访的时候在更新一次。
   </p><p>
    对于搜索引擎蜘蛛的工作原理今天就为大家分享到这里,对于搜索引擎来说,要把互联网上所有的页面抓取下来几乎不可能,其中部分原因是技术问题,100亿网页的容量是100*2000G字节,这么多的数据下载需要很多机器下载很长时间才能把所有的网页下面,而且数据量太大,在搜索的时候有效率方面也会受到影响。
   </p>

1

主题

3558

回帖

5342

积分

论坛元老

积分
5342
发表于 2023-8-26 05:35:11 | 显示全部楼层
找到好贴不容易,兄弟们,顶起!

1

主题

3428

回帖

5147

积分

论坛元老

积分
5147
发表于 2023-8-26 13:25:44 | 显示全部楼层
难得一见的好帖

1

主题

3418

回帖

5132

积分

论坛元老

积分
5132
发表于 2024-2-20 14:53:18 | 显示全部楼层
不错,支持下楼主

1

主题

3532

回帖

5303

积分

论坛元老

积分
5303
发表于 2024-2-20 19:49:19 | 显示全部楼层
沙发!沙发!

1

主题

3442

回帖

5168

积分

论坛元老

积分
5168
发表于 2024-2-20 19:49:20 | 显示全部楼层
有竞争才有进步嘛

1

主题

3406

回帖

5114

积分

论坛元老

积分
5114
发表于 2024-3-14 00:58:20 | 显示全部楼层
好帖,来顶下

1

主题

3526

回帖

5294

积分

论坛元老

积分
5294
发表于 2024-3-14 01:06:30 | 显示全部楼层
我抢、我抢、我抢沙发~

1

主题

3446

回帖

5174

积分

论坛元老

积分
5174
发表于 2024-3-20 15:44:30 | 显示全部楼层
牛啊兄弟 支持一下

1

主题

3438

回帖

5162

积分

论坛元老

积分
5162
发表于 2024-5-11 13:46:18 | 显示全部楼层
谢谢楼主,共同发展
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站点统计|Archiver|手机版|小黑屋|聚云老站长 ( 粤ICP备2023011934号-1 )

GMT+8, 2024-9-20 01:06 , Processed in 0.902749 second(s), 24 queries .

快速回复 返回顶部 返回列表