快捷导航
查看: 124|回复: 21

蜘蛛 搜索引擎(搜索引擎蜘蛛又称为什么)

[复制链接]

1万

主题

0

回帖

1万

积分

论坛元老

积分
12107
发表于 2023-9-17 18:28:38 | 显示全部楼层 |阅读模式
<p>
   在互联网时代,搜索引擎可以说是日常生活的一部分。不仅如此,搜索引擎历经20多年的风霜雨雪,仍然牢牢占据着流量入口,不得不让人感叹。
  </p><p>
   而且,提起搜索引擎,我们都会想到一家高大上的巨无霸公司和一家被黑出xiang的巨霸公司。足以见得搜索引擎的巨大作用。
  </p><p>
   作为产品人,对此当然不能视而不见,也应该了解了解其工作原理。
  </p><p>
   搜索引擎工作原理大致可以分为3个步骤
  </p><p>
<strong>
    1. 爬行与抓取
   </strong>
</p><p>
<strong>
    2. 预处理
   </strong>
</p><p>
<strong>
    3. 排序
   </strong>
</p><p>
   所谓一图胜千言,没图我说个……
  </p><p>
   PS:上图总结自《SEO实战密码》。
  </p><p>
   下面详细叙述:
  </p><p>
</p><p>
   简单地说:就是搜索引擎蜘蛛沿着互联网络爬行并抓取其爬行的页面,将这些抓取的页面存储起来。
  </p><p>
   说到这,你可能会问:为什么叫「蜘蛛」?
  </p><p>
   为了抓取尽量多的页面,搜索引擎会跟踪页面上的链接,从一个页面爬行到下一个页面,好像蜘蛛在蜘蛛网上爬行那样,这就是
   <strong>
    搜索引擎蜘蛛
   </strong>
   这个名称的由来。
  </p><p>
   搜索引擎在跟踪网络上的链接时,会使用一定策略,因为现在的网络链接太多。最简单的爬行遍历策略有两种,一种是
   <strong>
    深度优先
   </strong>
   ,一种是
   <strong>
    广度优先
   </strong>
   。
  </p><p>
   还有一点值得一提:搜索引擎访问网站页面时
   <strong>
    类似于普通用户使用的浏览器
   </strong>
   。搜索引擎蜘蛛抓取的数据存入原始页面数据库,其中的页面数据与用户浏览器得到的HTML完全一样。
  </p><p>
</p><p>
   由于抓取的页面数量太大(以”亿”为单位),无法快速实时排序,所以需要预处理。这就是产品设计中的「
   <strong>
    复杂性守恒原则
   </strong>
   」,我们没办法让用户等待十几秒甚至更久,就只能在后台处理上下功夫。
  </p><p>
   在一些资料中,「预处理」也被称为「索引」,因为「索引」是预处理最主要的内容。
  </p><p>
   预处理的过程比较复杂,值得一提的有这么几点:
  </p><p>
   得到了倒排索引,就能很快地根据用户搜索的关键词找到对应文件,但这样就够了吗?别天真啊。
  </p><p>
   通过上述步骤,其实只得到了页面本身的内容。说白了,就是页面本身告诉搜索引擎自己如何如何。
  </p><p>
    俗话说:王婆卖瓜,自卖自夸。
   </p><p>
   就像我们网购时不仅会看店家给的商品介绍,还会看看买家的评论一样,页面内容质量,也需要其他人的评价——这里的「其他人」指「其他页面。」所以,我们还需要链接关系计算。
  </p><p>
</p><p>
   发现没有:排名,是用户是用户唯一能感觉到的步骤,爬行与抓取、预处理,都在后台完成。正因如此,用户才会感到用起来十分快捷。
  </p><p>
   排名的过程也比较复杂,其中值得一提的有如下几点:
  </p><p>
   但由于每个关键词对应的文件数量都可能是巨大的(如几亿个),处理如此庞大的数据量,无法满足用户对「快」的需求。同时,用户并不需要所有内容,他们往往只查看前几页内容,甚至很多用户只查看第一页的前几条内容。因此,选择一定数量的内容进行处理,很有必要。这就涉及到
   <strong>
    选择初识子集
   </strong>
   。
  </p><p>
   但如何选择呢?这是一个问题。
  </p><p>
   但到此就结束了吗?还没有哦。
  </p><p>
   本文由 @ITDoer 原创发布于人人都是产品经理。未经许可,禁止转载
  </p>

1

主题

3422

回帖

5138

积分

论坛元老

积分
5138
发表于 2023-9-18 15:48:36 | 显示全部楼层
牛啊兄弟 支持一下

1

主题

3464

回帖

5201

积分

论坛元老

积分
5201
发表于 2023-9-22 03:11:20 | 显示全部楼层
不错,支持下楼主

1

主题

3436

回帖

5159

积分

论坛元老

积分
5159
发表于 2023-11-4 11:51:41 | 显示全部楼层
大佬牛逼,学习了

1

主题

3432

回帖

5153

积分

论坛元老

积分
5153
发表于 2023-11-4 12:56:41 | 显示全部楼层
不错不错,楼主您辛苦了。。。

1

主题

3456

回帖

5189

积分

论坛元老

积分
5189
发表于 2023-11-5 11:13:04 | 显示全部楼层
好帖,来顶下

1

主题

3574

回帖

5366

积分

论坛元老

积分
5366
发表于 2023-11-5 11:13:05 | 显示全部楼层
前排支持下

1

主题

3452

回帖

5183

积分

论坛元老

积分
5183
发表于 2023-11-5 18:43:17 | 显示全部楼层
我是个凑数的。。。

1

主题

3580

回帖

5375

积分

论坛元老

积分
5375
发表于 2023-11-15 11:39:22 | 显示全部楼层
有点意思,谢谢楼主的无私分享!!!

1

主题

3554

回帖

5336

积分

论坛元老

积分
5336
发表于 2023-11-15 11:39:54 | 显示全部楼层
找到好贴不容易,兄弟们,顶起!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站点统计|Archiver|手机版|小黑屋|聚云老站长 ( 粤ICP备2023011934号-1 )

GMT+8, 2024-9-21 04:25 , Processed in 0.102796 second(s), 20 queries .

快速回复 返回顶部 返回列表