您的位置:首页 >新闻资讯 > 正文

有道德的爬虫是什么?

来源:互联网 作者:admin 时间:2019-11-08 14:44:03

  大数据时代,网络爬虫一词的出现频率变得非常高,之前今日头条旗下的爬虫大规模进行抓取,导致了很多网站流量激增,甚至还导致某些小网站直接瘫痪。今天,ET代理来跟大家介绍一下网络爬虫的“道义”


  什么叫有 “道德” 的爬虫呢?就是遵循被爬服务器的规则,不去影响被爬服务器的正常运行,不把被爬服务搞垮,这就是有 “道德” 的爬虫。


  经常有人讨论的一个问题就是爬虫合法吗?知乎一下你看到的将是这样的。

有道德的爬虫是什么

  答案千千万,在这众多答案中,ET代理比较赞同下面的这个回答:


  爬虫作为一种计算机技术就决定了它的中立性,因此爬虫本身在法律上并不被禁止,但是利用爬虫技术获取数据这一行为是具有违法甚至是犯罪的风险的。所谓具体问题具体分析,正如水果刀本身在法律上并不被禁止使用,但是用来捅人,就不被法律所容忍了。


  爬虫为不违法?取决于你做的事情为不违法,网络爬虫的本质是什么?网络爬虫的本质是用机器代替人工去访问页面。我查看公开的新闻肯定不犯法,所以我去采集公开在互联网上的新闻也不犯法,就像各大搜索引擎网站一样,别的网站巴不得别搜索引擎的蜘蛛抓取到。另一种恰恰相反的情况是去采集别人隐私的数据,你自己去查看别人的隐私信息这就是一种违法的行为,所以用程序去采集也是违法的,这就像答案中所说的水果刀本身不违法,但是用来捅人就违法啦。


  要做到有 “道德” 的爬虫,Robots 协议是你必须需要了解的,下面是Robots 协议的百度百科:

有道德的爬虫是什么

  在很多网站中会申明 Robots 协议告诉你哪些页面是可以抓取的,哪些页面是不能抓取的,当然 Robots 协议只是一种约定,就像公交车上的座位一样标明着老弱病残专座,你去坐了也不违法。


  除了协议之外,我们的采集行为上也需要克制,在 『数据安全管理办法(征求意见稿)』的第二章第十六条指出:


  网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。


  这条规定指出了爬虫程序不得妨碍网站正常运行,如果你使用爬虫程序把网站搞垮了,真正的访问者就不能访问该网站了,这是一种非常不道德的行为。应该杜绝这种行为。


  除了数据的采集,在数据的使用上同样需要注意,我们即使在得到授权的情况下采集了个人信息数据,也千万不要去出卖个人数据,这个是法律特别指出禁止的,参见:


  根据《最高人民法院 最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》第五条规定,对“情节严重”的解释:


  (1)非法获取、出售或者提供行踪轨迹信息、通信内容、征信信息、财产信息五十条以上的;


  (2)非法获取、出售或者提供住宿信息、通信记录、健康生理信息、交易信息等其他可能影响人身、财产安全的公民个人信息五百条以上的;


  (3)非法获取、出售或者提供第三项、第四项规定以外的公民个人信息五千条以上的便构成“侵犯公民个人信息罪”所要求的“情节严重”。


  此外,未经被收集者同意,即使是将合法收集的公民个人信息向他人提供的,也属于刑法第二百五十三条之一规定的“提供公民个人信息”,可能构成犯罪。


  所以,爬虫不是你想爬,想爬就能爬。就算你代理IP、程序代码准备就绪,也要注意你所爬取的内容,以及你的行为是否合理、合法。


相关文章内容简介