快捷导航
查看: 99|回复: 19

百度蜘蛛抓取规律视频(百度蜘蛛抓取什么时候更新)

[复制链接]

1万

主题

0

回帖

1万

积分

论坛元老

积分
12107
发表于 2023-9-19 10:40:24 | 显示全部楼层 |阅读模式
<p data-track="1" style="text-indent: 2em;">
<span style="color: #333333; --tt-darkmode-color: #A3A3A3;">
    这次诡异的经历时间长达十多天,期间明月网站服务器的负载多次飙升到极限,每次都是强制停止 php-fpm 进程来缓解,可以说严重影响了博客网站的正常运行,刚开始明月还以为是又碰到个“手欠”拿我博客来练手 CC/DDos 攻击的,但是随后几天的日志分析结果外加明月多年以来被 CC/DDos 攻击经验判断排除了被人攻击的可能性,原因嘛?很简单,你见过有人用百度蜘蛛爬虫IP 来实施 CC/DDos 攻击吗?反正,明月是没有见过!
   </span>
</p><p class="pgc-img-caption">
</p><p data-track="2" style="text-indent: 2em;">
<span style="color: #333333; --tt-darkmode-color: #A3A3A3;">
    刚开始明月也是不相信会是百度蜘蛛爬虫造成的这个结果,但是在把几天的 Nginx 日志里的 IP 进行了筛选后得出的结果是这些爬虫的 IP 几乎都是真实的百度蜘蛛爬虫IP,并不是简单的 UA 仿冒百度蜘蛛爬虫。我去,这个结果真心让人很郁闷呀:
   </span>
<strong>
<span style="color: #333333; --tt-darkmode-color: #A3A3A3;">
     我竟然被别人梦寐以求的百度蜘蛛爬虫给围殴了
    </span>
</strong>
<span style="color: #333333; --tt-darkmode-color: #A3A3A3;">
    !
   </span>
</p><p class="pgc-img-caption">
</p><p data-track="3" style="text-indent: 2em;">
<span style="color: #333333; --tt-darkmode-color: #A3A3A3;">
    俗话说“事出反常必有妖”,本着这个思路明月开始了为期一周的排查工作,因为【不熬夜,是最顶级的自律】和【熬夜如何改变了我们的身体】这两篇文章的缘故明月正在戒掉“熬夜”这个习惯(希望像明月戒烟一样能成功哦!)所以这次排查工作效率很低,都是抽空进行的,需要多次随机的抽查这些蜘蛛爬虫请求的 User Agaent、IP、链接、主机域名等等数据,直到今天终于让明月给找到问题出在哪里了?
   </span>
</p><p data-track="4" style="text-indent: 2em;">
<span style="color: #333333; --tt-darkmode-color: #A3A3A3;">
    造成百度蜘蛛爬虫这次大批量、持续性的抓取一个最主要的原因是百度站长平台的“抓取频次”过高造成的,查看百度站长平台站点抓取频次如下图:
   </span>
</p><p class="pgc-img-caption">
</p><p data-track="5" style="text-indent: 2em;">
<span style="color: #333333; --tt-darkmode-color: #A3A3A3;">
    可以看到是 21912 次/天,可以想象这个频次给网站服务器带来了多大的压力呀!一直到最后明月才发现这次是两个站点的高频次抓取一起汇总到我一个服务器上来了,上面这个 21912 次/天是 blog.ymanz.com 这个域名站点的抓取频次,还有一个抓取频次就是我博客的域名 imydl.com 的抓取频次是 17982 次/天。两个站点相叠加那就是每天接近 40000 次的抓取频率,平均到每分钟就要接待近 30 次的请求,无语了!
   </span>
</p><p class="pgc-img-caption">
</p><p data-track="6" style="text-align: center;text-indent: 2em;">
<span style="color: #333333; --tt-darkmode-color: #A3A3A3;">
    这负载给拉的是满满的,要知道明月的服务器配置可是早期阿里云 ECS 最低配置:1H1G 哦
   </span>
</p><p data-track="7" style="text-indent: 2em;">
<span style="color: #333333; --tt-darkmode-color: #A3A3A3;">
    我这小驴车怎么经得起这么折腾,所以明月发现问题后赶紧解决,首先是取消掉 blog.ymanz.com 的解析(这是明月博客早期的域名,目前看来只能是放弃解析跳转了),其次调低百度站长平台里 blog.ymanz.com 和 imydl.com 站点的抓取频次每天上限:
   </span>
</p><p class="pgc-img-caption">
</p><p data-track="8" style="text-align: center;text-indent: 2em;">
<span style="color: #333333; --tt-darkmode-color: #A3A3A3;">
    因为 blog.ymanz.com 是个废弃域名了,所以直接调整到最低值。
   </span>
</p><p data-track="9" style="text-indent: 2em;">
<span style="color: #333333; --tt-darkmode-color: #A3A3A3;">
    经过上述操作后,随后的几个小时百度蜘蛛爬虫来访的频率降下来了,服务器的负载也难得的恢复如初:
   </span>
</p><p class="pgc-img-caption">
</p><p data-track="10" style="text-indent: 2em;">
<span style="color: #333333; --tt-darkmode-color: #A3A3A3;">
    看到这久违的负载值,这几天的忙活没有白费,这次经历下来让明月对于运维这个工作的认识又加深了不少,这是一个随时都要面对挑战,并且,当面临挑战的时候要平心静气的分析、整理、思考后解决问题并制定出详细的预防方案并实施,如果您是一个网站运营者并不是很懂服务器运维,那么明月建议您可以考虑一下运维外包服务,比如明月自己就有提供这种有偿服务哦
   </span>
</p>

1

主题

3524

回帖

5291

积分

论坛元老

积分
5291
发表于 2023-9-20 11:49:40 | 显示全部楼层
我抢、我抢、我抢沙发~

1

主题

3478

回帖

5222

积分

论坛元老

积分
5222
发表于 2024-2-20 09:26:48 | 显示全部楼层
学习了,谢谢分享、、、

1

主题

3494

回帖

5246

积分

论坛元老

积分
5246
发表于 2024-2-20 09:27:06 | 显示全部楼层
牛啊兄弟 支持一下

1

主题

3434

回帖

5156

积分

论坛元老

积分
5156
发表于 2024-2-20 13:59:00 | 显示全部楼层
看帖回帖是美德!

1

主题

3550

回帖

5330

积分

论坛元老

积分
5330
发表于 2024-2-20 13:59:01 | 显示全部楼层
谢谢楼主,共同发展

1

主题

3500

回帖

5255

积分

论坛元老

积分
5255
发表于 2024-4-10 12:22:35 | 显示全部楼层
不错,支持下楼主

1

主题

3614

回帖

5426

积分

论坛元老

积分
5426
发表于 2024-4-10 12:30:06 | 显示全部楼层
前排支持下

1

主题

3384

回帖

5081

积分

论坛元老

积分
5081
发表于 2024-4-11 12:17:27 | 显示全部楼层
好帖,来顶下

1

主题

3428

回帖

5147

积分

论坛元老

积分
5147
发表于 2024-4-22 11:50:24 | 显示全部楼层
难得一见的好帖
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站点统计|Archiver|手机版|小黑屋|聚云老站长 ( 粤ICP备2023011934号-1 )

GMT+8, 2024-9-20 23:41 , Processed in 2.288253 second(s), 24 queries .

快速回复 返回顶部 返回列表