快捷导航
查看: 151|回复: 20

网络蜘蛛抓取到网页数据后会怎么样(基于python的网页数据抓取)

[复制链接]

1万

主题

0

回帖

1万

积分

论坛元老

积分
11635
发表于 2023-8-26 17:54:34 | 显示全部楼层 |阅读模式
<p>
   昨天,北京青年报从某网购商城看到,最高人民法院裁判文书网的数据被标价0.1元到1元不等出售。裁判文书网发布的判决书都是公开的,为什么会被售卖?获取裁判文书网数据的手段对于网站是否有危害呢?
  </p><p>
<strong>
    网售数据
   </strong>
</p><p>
<strong>
    价格需“私聊”获取
   </strong>
</p><p>
   北青报记者在某网络商城中看到,有标注来自湖南、广东、山东等多地的商家均声称出售裁判文书网的数据,其中不少商家声称其数据量超6000万条。而据裁判文书网公开数据显示,目前裁判文书网上公开的文书总量为7395万多篇,如果商家所称的数量属实,则商家能够提供绝大多数已经公开的文书数据。
  </p><p>
   不少声称能够出售裁判文书网数据的商家在商品文字描述中称,其数据是通过“网络爬虫”的方式获取的。所谓“网络爬虫”,又称网页蜘蛛、网页机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。相当于一个自动访问网页并进行相关操作的小机器人。
  </p><p>
   北青报记者注意到,尽管每名商家均在商品页面标示称,其数据售价为0.1元至1元,但每名商家均在文字描述中表示,数据的售价并不以标示为准,而是需要“私聊”获取。
  </p><p>
   一名售卖裁判文书数据的商家说,购买裁判文书数据的买家所需要的数据量从几千篇到几千万篇不等,有的买家是因为无法打开裁判文书网而不得不来求助于数据卖家,“还有很多学生买数据用于论文写作,这种情况几千条就够了,商用的话可能需要几百万条甚至上千万条。”商家还称,每个月他们能接到四五个文书数据采集的订单,而价格和买家需要的数据量有关,“几百万条数据大概要几千块钱,现在加密技术很严格,所以要贵一些。”
  </p><p>
<strong>
    “爬虫”系统
   </strong>
</p><p>
<strong>
    曾致正常用户无法访问
   </strong>
</p><p>
   北青报记者了解到,部分技术机构通过网络爬虫系统获取裁判文书网数据的行为,已经给裁判文书网正常用户的访问带来了不便。不少网友曾在网上发帖称,自己搜索裁判文书时,常常遭遇裁判文书网网站显示因为系统原因,无法查询的情况。
  </p><p>
   对此,最高人民法院在其官网回应网友对于裁判文书网运行慢、故障频繁等情况时表示,由于中国裁判文书网公开文书数量和影响力不断增加,访问用户数不断增长。同时,2018年5月初以来,大量技术公司通过爬虫系统无限制并发访问非法获取裁判文书数据,造成网站负荷过大,大量正常用户请求堵塞,访问出现速度慢或部分页面无法显示等现象。
  </p><p>
   今年5月,最高人民法院信息中心主任许建峰在接受媒体采访时表示:“中国裁判文书网目前每天的访问量可以达到几千万的量级,其中还包括数据爬虫的攻击,我们的中心服务器承受着巨大压力。”
  </p><p>
   “我们每时每刻都在监控着它的应用情况,希望遇到问题立即采取措施,但是的确还不能完全跟得上步子,所以会出现停网维护运营的情况。”许建峰说,最高法已成立了专门的运维保障团队去维护管理中国裁判文书网,也将在技术与人力上投入更多的力量。
  </p><p>
<strong>
    相关机构
   </strong>
</p><p>
<strong>
    已采用多种方式“反爬”
   </strong>
</p><p>
   北青报记者获悉,此前,相关方面已采取多种方式,对抗“爬虫技术”。最高人民法院曾发文称,为更好地确保正常用户访问性能,相关方面以验证码的方式上线系统软件防爬功能。“验证码技术是防爬虫的一种有效措施,当浏览量在某段时间内达到一定数量后,将启用验证码机制进行核验。后续,我们将不定期更新防爬虫技术,加强网站维护,提高网站运行效率和稳定性。”
  </p><p>
   此外,针对网友提问,为何不能按照“公开时间”为检索条件进行裁判文书检索时,最高人民法院方面表示,暂没有设置“公开时间”为检索条件的主要原因是爬虫系统会根据“公开时间”项进行增量文书爬取,“待下一步防爬虫系统稳定、可靠运行一段时间后,我们将适时考虑增加‘公开时间’检索项。”
  </p><p>
   此外,最高人民法院方面称:“由于前期爬虫行为过于猖獗,无限制暴力访问大幅降低正常用户访问性能,我们采取了通过限制列表页面翻页数量来防止爬虫系统的措施。”
  </p><p>
<strong>
    律师分析
   </strong>
</p><p>
<strong>
    强行突破“反爬”技术或构成犯罪
   </strong>
</p><p>
   金杜律师事务所从事IP类法律业务的律师瞿淼曾发文阐述了网络爬虫所涉及的法律问题。瞿淼称,从技术中立的角度而言,爬虫技术本身并无违法违规之处。但是,随着数据产业的发展,数据爬取带来的各种问题和顾虑日渐增加。过于野蛮的爬虫可能造成网站负荷过大,从而导致网站瘫痪、不能访问等。
  </p><p>
   “由于爬虫的批量访问会给网站带来巨大的压力和负担,因此许多网站经营者会采取技术手段,以阻止爬虫批量获取自己网站信息。而针对这些技术手段,爬虫开发者可以通过优化自己的代码、使用IP池等多种方式规避上述技术措施,实现对网站信息的批量抓取和复制。”瞿淼说,由于网络爬虫会根据特定策略尽可能多地访问页面,因而爬虫的使用将占用被访问网站的网络带宽并增加网络服务器的处理开销,甚至无法正常提供服务。
  </p><p>
   瞿淼认为,根据《反不正当竞争法》关于网络的相关条款,如果网站运营者已经采取了一定的反爬虫措施,而爬虫控制者基于经营目的、强行突破网站运营者采取的反爬虫技术措施,并客观导致被抓取网站无法正常运行,则可能构成不正当竞争行为。此外,强行突破某些特定被爬方的技术措施,还可能构成刑事犯罪行为。
  </p><p>
   针对此情况,北京市社会组织法律调解中心副理事长张新年律师认为,“这些裁判文书基于司法公开目的,是免费的公共资源,未经最高人民法院授权,商家售卖裁判文书网数据构成侵权。”
  </p>

1

主题

3366

回帖

5054

积分

论坛元老

积分
5054
发表于 2023-8-30 01:08:30 | 显示全部楼层
好好 学习了 确实不错

1

主题

3320

回帖

4985

积分

论坛元老

积分
4985
发表于 2023-12-10 02:39:37 | 显示全部楼层
谢谢楼主,共同发展

1

主题

3416

回帖

5129

积分

论坛元老

积分
5129
发表于 2023-12-23 06:56:33 | 显示全部楼层
有点意思,谢谢楼主的无私分享!!!

1

主题

3418

回帖

5132

积分

论坛元老

积分
5132
发表于 2023-12-26 12:26:02 | 显示全部楼层
看帖回帖是美德!

1

主题

3286

回帖

4934

积分

论坛元老

积分
4934
发表于 2023-12-26 12:26:11 | 显示全部楼层
不错,支持下楼主

1

主题

3412

回帖

5123

积分

论坛元老

积分
5123
发表于 2023-12-26 12:26:16 | 显示全部楼层
牛啊兄弟 支持一下

1

主题

3504

回帖

5261

积分

论坛元老

积分
5261
发表于 2023-12-26 12:26:59 | 显示全部楼层
大佬牛逼,学习了

1

主题

3492

回帖

5243

积分

论坛元老

积分
5243
发表于 2024-1-14 10:09:10 | 显示全部楼层
找到好贴不容易,兄弟们,顶起!

1

主题

3452

回帖

5183

积分

论坛元老

积分
5183
发表于 2024-1-14 11:35:45 | 显示全部楼层
小手一抖,积分到手!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站点统计|Archiver|手机版|小黑屋|聚云老站长 ( 粤ICP备2023011934号-1 )

GMT+8, 2024-9-21 21:41 , Processed in 1.001688 second(s), 24 queries .

快速回复 返回顶部 返回列表