蜘蛛抓取成功(抓蜘蛛的方法)

ChatGPT专员099 发表于 2023-8-25 13:18:40

有网站不懂做优化？不懂什么是SEO？网站SEO优化排名怎么做都上不去？

因为你不懂SEO，了解SEO优化的核心，优化还难吗？那都不是事。

上篇文章我们介绍了搜索引擎的工作原理。我们知道搜索引擎会通过蜘蛛抓取网站页面。那今天我们就来说说关于蜘蛛的介绍。


什么是蜘蛛


？


搜索引擎用来爬行和访问页面的程序被称为蜘蛛（Spider ），也称为机器人（bot）。蜘蛛访问任何一个网站时，都会先访问网站根目录下的robots.txt文件。如果Robots.txt文件禁止搜索引擎抓取某些文件或目录，蜘蛛将遵守协议，不抓取被禁止的网址。

和浏览器一样，搜索引擎也有标明自己身份的代理名称，站长可以在日志文件中看到搜索引擎的特定代理名称，从而辨识搜索引擎蜘蛛。

通俗一点：蜘蛛就是搜索引擎用来爬行和访问页面的程序，蜘蛛就是一段程序。

平时我们用得比较多得叫百度蜘蛛（baiduspidere),除了百度蜘蛛，还有很多蜘蛛。不同的搜索引擎蜘蛛名称不一样。

BaiduSpider---百度蜘蛛

Googlebot---谷歌机器人（谷歌蜘蛛）

Bingbot---必应机器人（必应蜘蛛）

360Spider---360蜘蛛

SogouSpider---搜狗蜘蛛

<img image_type="1" img_height="707" img_width="1258" mime_type="image/png" src="https://p3-sign.toutiaoimg.com/134b00033be5ab7e9a3e~tplv-tt-origin-asy1:5aS05p2hQOaIkeaYr-Wwj-e-juWQjOWtpg==.image?_iz=58558&from=article.pc_detail&x-expires=1693363560&x-signature=bK0hF10wVCF2Gwd%2FxvmllLrRO8A%3D" web_uri="134b00033be5ab7e9a3e"/>

还有很多国外搜索引擎没有列举出来，比如雅虎。目前在中国主流的三大搜索引擎百度、360好搜、搜狗。知道这三个搜索引擎就可以了。雅虎、谷歌已经退出中国市场。

认识了什么是蜘蛛，我们都知道蜘蛛是爬行和访问网站的程序，那么如何让自己来抓取自己网站呢？很简单，让蜘蛛喜欢上自己，我们可以主动吸引蜘蛛，吸引蜘蛛，就得明白蜘蛛喜欢什么？蜘蛛喜欢什么呢？

<img image_type="1" img_height="709" img_width="1257" mime_type="image/png" src="https://p3-sign.toutiaoimg.com/12db0006f5e71ad831a8~tplv-tt-origin-asy1:5aS05p2hQOaIkeaYr-Wwj-e-juWQjOWtpg==.image?_iz=58558&from=article.pc_detail&x-expires=1693363560&x-signature=Kq8joMDRrymECstf8GS608nc3Y4%3D" web_uri="12db0006f5e71ad831a8"/>


①网站和页面权重

：

质量高，资格老的网站被认为权重比较高，这种网站上面页面被爬行的深度也会高，所以会有更多页面被收录。


②页面更新度

：

蜘蛛每次爬行都会把页面数据储存起来，如果蜘蛛第二次爬行发现与第一次收录完全一样，说明页面没有更新，蜘蛛也就没有必须经常更新，如果页面经常更新，蜘蛛就会更加频繁地访问这种页面，页面上出现新的链接，也自然会被蜘蛛更快的跟踪，抓取新页面。


③导入链接

：

无论是外部链接还是同一个网站的内部链接，要被蜘蛛抓取，就必须有导入链接进入页面，否则蜘蛛根本没有机会知道页面的存在。高质量的导入链接也经常使页面上的导出链接被爬行深度增加。


④与首页点击距离

：

一般来说网站上权重最高的是首页，大部分外部链接都是导入首页的，蜘蛛访问最频繁的也是首页。离首页的距离越近，页面权限越高，被蜘蛛爬行的机会也越大。

上面几点就是蜘蛛比较喜欢的内容，只有把我们自己的网站做成蜘蛛喜欢的模样，才可能让蜘蛛经常来访问抓取自己网站的页面。上面都是理论，大家如果不理解没关系，后面的文章会介绍。

既然知道了蜘蛛喜欢什么，同时让蜘蛛能来到自己的网站，那我们就有很多东西不想让蜘蛛知道的。不想让蜘蛛抓取跟访问，怎么办？

我们提到蜘蛛访问任何一个网站时，都会先访问网站根目录下的robots.txt文件。如果Robots.txt文件禁止搜索引擎抓取某些文件或目录，蜘蛛将遵守协议，不抓取被禁止的网址。

那么什么是什么robots文件？Robots文件在哪呢？如何写robots文件？

后面的文章会给大家介绍如何写robots.txt文件。

下一篇文章：《搜索引擎工作原理-预处理规则详解》，之前文章计划错误，中间加入了蜘蛛介绍。

1TftS26434 发表于 2023-8-26 05:33:52

有竞争才有进步嘛

wRMAp811593 发表于 2023-8-26 11:23:02

谢谢楼主，共同发展

bX5dv809720 发表于 2023-8-26 13:24:29

找到好贴不容易，兄弟们，顶起！

YnQMO423802 发表于 2024-2-20 15:20:40

路过，支持一下啦

LglII903844 发表于 2024-2-20 15:24:50

好帖，来顶下

mRhbF338387 发表于 2024-2-20 19:07:48

大佬牛逼，学习了

0vwgW148458 发表于 2024-2-20 19:07:50

看帖回帖是美德！:lol

wSIJw800853 发表于 2024-4-21 18:15:55

有点意思，谢谢楼主的无私分享！！！

eiw8C590089 发表于 2024-5-11 09:08:22

不错不错，楼主您辛苦了。。。

页: [1] 2 3

聚云老站长's Archiver

蜘蛛抓取成功(抓蜘蛛的方法)