快捷导航
查看: 124|回复: 21

蜘蛛收索引擎怎么用(Sol蜘蛛引擎)

[复制链接]

1万

主题

0

回帖

1万

积分

论坛元老

积分
11635
发表于 2023-9-4 18:32:46 | 显示全部楼层 |阅读模式
<p>
    了解
    <strong>
     搜索引擎是如何工作的
    </strong>
    ,对SEO网络优化有着较为重要的作用。
   </p><p>
<img image_type="1" img_height="394" img_width="648" mime_type="image/jpeg" src="https://p3-sign.toutiaoimg.com/66c30002f3e130088928~tplv-tt-origin-asy1:5aS05p2hQOWwj-Wwj-ivvuWggue9kQ==.image?_iz=58558&amp;from=article.pc_detail&amp;x-expires=1693841477&amp;x-signature=6YPTLhbyNyM8b%2Frp7lvmTdZ2tRo%3D" web_uri="66c30002f3e130088928"/>
</p><p>
    今天,小小课堂带给大家三种方式来理解
    <strong>
     搜索引擎是如何工作的
    </strong>
    。建议简单了解即可,非搜索引擎开发人员无需深究。
   </p><p>
    一、
    <strong>
     搜索引擎的基本架构
    </strong>
</p><p>
    搜索引擎的组件主要提供两种功能:
    <strong>
     索引处理
    </strong>
    和
    <strong>
     查询处理
    </strong>
    。
   </p><p>
<img image_type="1" img_height="396" img_width="764" mime_type="image/png" src="https://p3-sign.toutiaoimg.com/66bf0005511a791c68fd~tplv-tt-origin-asy1:5aS05p2hQOWwj-Wwj-ivvuWggue9kQ==.image?_iz=58558&amp;from=article.pc_detail&amp;x-expires=1693841477&amp;x-signature=IVy1lhLLHlGlRcLUM7kU4k7rnrg%3D" web_uri="66bf0005511a791c68fd"/>
</p><p>
<strong>
     文本采集
    </strong>
    :用于发现网页、电子邮件、新闻、备忘录、书信等文本内容,并且使这些文档能够被搜索到。
   </p><p>
<strong>
     文本转换
    </strong>
    :将采集来的文本转换为
    <strong>
     索引项
    </strong>
    或者
    <strong>
     特征
    </strong>
    。索引是文档的一部分,存储在索引表中并且用于搜索。特征是文档的一部分,用于表达文档的内容。
   </p><p>
<strong>
     索引创建
    </strong>
    :利用文本转换组件的输出结果,创建索引或者数据结构,以便实现快速搜索。
   </p><p>
<img image_type="1" img_height="404" img_width="764" mime_type="image/png" src="https://p3-sign.toutiaoimg.com/66c20002f25591965a6b~tplv-tt-origin-asy1:5aS05p2hQOWwj-Wwj-ivvuWggue9kQ==.image?_iz=58558&amp;from=article.pc_detail&amp;x-expires=1693841477&amp;x-signature=5Brk0AvO5H7m%2B9iPfBoxNHtrd8A%3D" web_uri="66c20002f25591965a6b"/>
</p><p>
<strong>
     用户交互
    </strong>
    :提供搜索用户和搜索引擎之间的接口。功能其一接受用户查询并将它转换为索引项,其二从搜索引擎中得到一个排好序的文档列表,并重新组织成搜索结果显示给用户。
   </p><p>
<strong>
     排序
    </strong>
    :搜索引擎系统的核心。它使用从用户交互组件得到的转换之后的查询,并且根据检索模型生成一个按照分值排好序的文档列表。
   </p><p>
<strong>
     评价
    </strong>
    :用于评测和检测系统的效果的效率。任务之一利用日志数据来记录和分析用户的行为。评价的结果用来调整和改善排序组件的性能。
   </p><p>
    二、
    <strong>
     搜索引擎工作原理的三个阶段
    </strong>
</p><p>
    搜索引擎工作原理分成三个阶段依次为:
    <strong>
     爬行和抓取
    </strong>
    、
    <strong>
     预处理
    </strong>
    和
    <strong>
     排名
    </strong>
    。
   </p><p>
<strong>
     爬行和抓取
    </strong>
    :是搜索引擎工作的第一步,完成数据收集的任务。蜘蛛遵守robots.txt的协议(哪些不想被哪个搜索引擎抓取),追踪链接(优化站内结构,降低追踪难度),吸引蜘蛛(导入链接多、距离首页近、权重高、更新快、URL结构浅),提交链接或XML文件便于抓取,蜘蛛抓取数据存入数据库并在爬行和抓取时也会进行一定程序的复制内容检测。
   </p><p>
<strong>
     预处理
    </strong>
    :从HTML文件中,提取文字、中文分词(两个字或四个字都可以算词,在百度快照中可以查看分词结果)、去停止词(的啊地the to)、消除噪声(寻找内容主题部分)、去重(同一文章出现在同一网站不同网址或不同网站)、正向索引、倒排索引、链接关系计算、特殊文件处理、质量判断。
   </p><p>
<strong>
     排名
    </strong>
    :搜索词处理(中文分词、去停止词、指令处理、拼写错误矫正、整合搜索出发、搜索框提示)、文件匹配、初始子集的选择、相关性计算(关键词常用程度、词频及密度、关键词位置及形式、关键词距离、链接分析及页面权重)、排名过滤及调整、排名显示、搜索缓存、查询及点击日志(搜索用户的IP地址、搜索的查询词、搜索时间,以及点击了哪些结果页面,搜索引擎都记录形成日志)。
   </p><p>
<img image_type="1" img_height="408" img_width="918" mime_type="image/png" src="https://p3-sign.toutiaoimg.com/66bd00059514fc182064~tplv-tt-origin-asy1:5aS05p2hQOWwj-Wwj-ivvuWggue9kQ==.image?_iz=58558&amp;from=article.pc_detail&amp;x-expires=1693841477&amp;x-signature=IsYN0MUinRE2KOz%2FgL0WMQsou3M%3D" web_uri="66bd00059514fc182064"/>
</p><p>
    三、
    <strong>
     百度搜索引擎必经的四个过程
    </strong>
</p><p>
    百度搜索引擎必经的四个过程依次为:
    <strong>
     抓取
    </strong>
    、
    <strong>
     过滤
    </strong>
    、
    <strong>
     建立索引
    </strong>
    和
    <strong>
     输出结果
    </strong>
    。
   </p><p>
<strong>
     抓取
    </strong>
    :Baiduspider,或称百度蜘蛛,会通过搜索引擎系统的计算,来决定对哪些网站施行抓取,以及抓取的内容和频率值。
   </p><p>
<strong>
     过滤
    </strong>
    :互联网中并非所有的网页都对用户有意义,比如一些明显的欺骗用户的网页,死链接,空白内容页面等。百度会自动对这些内容进行过滤。
   </p><p>
<strong>
     建立索引
    </strong>
    :百度对抓取回来的内容会逐一进行标记和识别,并将这些标记进行储存为结构化的数据,同时,也会将网页中的关键词信息进行识别和储存,以便与用户搜索的内容进行匹配。
   </p><p>
<strong>
     输出结果
    </strong>
    :用户输入的关键词,百度会对其进行一系列复杂的分析,并根据分析的结论在索引库中寻找与之最为匹配的一系列网页,按照用户输入的关键词所体现的需求强弱和网页的优劣进行打分,并按照最终的分数进行排列,展现给用户。
   </p><p>
<img image_type="1" img_height="408" img_width="844" mime_type="image/png" src="https://p3-sign.toutiaoimg.com/66c20002f256d3d01f9e~tplv-tt-origin-asy1:5aS05p2hQOWwj-Wwj-ivvuWggue9kQ==.image?_iz=58558&amp;from=article.pc_detail&amp;x-expires=1693841477&amp;x-signature=6X32ekZ%2FAmPQzvUwe%2BbhkMwHj2U%3D" web_uri="66c20002f256d3d01f9e"/>
</p><p>
    通过以上的介绍,小小课堂相信,大家都已经了解了
    <strong>
     搜索引擎是如何工作的
    </strong>
    。还是那句话,一般的SEO人员仅需理解即可,如果想要深入了解搜索引擎,应该去看讲述
    <strong>
     搜索引擎信息检索的书籍
    </strong>
    ,或者更为宽泛的
    <strong>
     信息检索的书籍
    </strong>
    。
   </p><p>
    喜欢记得,点赞,打赏哦。小小课堂,每天一个IT原创视频和图文教程,别忘了关注哦。
   </p>

1

主题

3348

回帖

5027

积分

论坛元老

积分
5027
发表于 2023-11-25 10:38:44 | 显示全部楼层
好帖,来顶下

1

主题

3554

回帖

5336

积分

论坛元老

积分
5336
发表于 2023-12-4 20:59:22 | 显示全部楼层
谢谢楼主,共同发展

1

主题

3476

回帖

5219

积分

论坛元老

积分
5219
发表于 2023-12-18 10:55:27 | 显示全部楼层
看帖回帖是美德!

1

主题

3440

回帖

5165

积分

论坛元老

积分
5165
发表于 2023-12-18 10:55:50 | 显示全部楼层
大佬牛逼,学习了

1

主题

3368

回帖

5057

积分

论坛元老

积分
5057
发表于 2023-12-19 12:57:36 | 显示全部楼层
我是个凑数的。。。

1

主题

3564

回帖

5351

积分

论坛元老

积分
5351
发表于 2023-12-23 19:31:25 | 显示全部楼层
有竞争才有进步嘛

1

主题

3486

回帖

5234

积分

论坛元老

积分
5234
发表于 2023-12-24 06:21:43 | 显示全部楼层
小手一抖,积分到手!

1

主题

3698

回帖

5552

积分

论坛元老

积分
5552
发表于 2023-12-24 17:28:02 | 显示全部楼层
找到好贴不容易,兄弟们,顶起!

1

主题

3508

回帖

5267

积分

论坛元老

积分
5267
发表于 2023-12-24 18:32:20 | 显示全部楼层
路过,支持一下啦
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站点统计|Archiver|手机版|小黑屋|聚云老站长 ( 粤ICP备2023011934号-1 )

GMT+8, 2024-9-20 09:03 , Processed in 4.790432 second(s), 24 queries .

快速回复 返回顶部 返回列表