人民日报社中国经济周刊官方网站  中央新闻网站  互联网新闻信息稿源单位

经济网 中国经济论坛


首页 > 周刊精选 > 正文

“爬虫”怎么成了“害虫”?

消息称,被调查或是因为这些公司利用网络爬虫技术侵犯个人隐私数据,这些隐私数据的泄露,加剧了暴力催收的泛滥,助长了“套路贷”“高利贷”。

2019年第20期《中国经济周刊》封面

2019年第20期《中国经济周刊》封面

《中国经济周刊》 记者 谢玮  宋杰丨北京、上海报道

责编:陈栋栋

编审:张伟

(本文刊发于《中国经济周刊》2019年第20期)

9月以来,大数据行业可谓风声鹤唳。

一时间,魔蝎数据、新颜科技、公信宝、快钱支付、天翼征信等公司先后传来有人被警方带走调查的消息。

这令处于大数据风控服务核心的——爬虫技术推上了风口浪尖,大数据行业也迎来了前所未有的“震荡”。消息称,被调查或是因为这些公司利用网络爬虫技术侵犯个人隐私数据,这些隐私数据的泄露,加剧了暴力催收的泛滥,助长了“套路贷”“高利贷”。

而港股上市公司51信用卡(02051.HK)被警方突击调查的消息,则为这场风波炸响了一声“惊雷”。10月21日晚,杭州公安通报称,51信用卡被突击调查原因在于,今年9月以来,其委托的外包催收公司冒充国家机关,采取恐吓、滋扰等软暴力手段催收债务,涉嫌寻衅滋事。

目前,已经有多家大数据风控平台暂停部分服务。大数据行业似乎进入了一个前所未有的“整顿期”。

在近年互联网金融大潮中,大数据风控供应商一直扮演着重要角色。爬虫技术也是大数据风控行业的主打产品。“爬虫”怎么成了“害虫”?在互联网金融风险整治不断深化的大背景下,大数据风控行业又将何去何从?

事起“爬虫”业务

网络爬虫也叫网络蜘蛛(spider),是一种自动浏览网络的计算机技术,能够自动化、高效率地检索互联网并抓取数据。爬虫技术也是搜索引擎技术的核心元素之一,经历了20多年的发展,已经日趋多样化,在搜索引擎、数据分析、人工智能等领域得到了广泛应用。

此次风波中的公司大多是国内较早从事大数据风控的服务商,主要为银行、保险、消费金融公司、贷款机构等提供风控技术解决方案,而其中就包括了爬虫服务或者基于爬虫技术而形成的产品。

知名大数据风控平台同盾科技卷入了此次风波。其旗下子公司信川科技的数聚魔盒业务已经停止。公开信息显示,数聚魔盒主要涉及数据采集流程,支持爬取数据用作信用评估。

“信川科技是同盾科技下属独立运营的子公司,旗下的数聚魔盒业务已经停止。”同盾科技相关负责人向《中国经济周刊》记者介绍,数聚魔盒业务本身对适用条件与场景有严格的授权要求与限制,为更加严格地保护用户合法权益,并积极响应国家关于个人信息保护的相关政策,去年公司已经开始主动收缩该业务,今年上半年已完全停止。

而背靠中国电信的天翼征信也传来被调查的消息。有媒体报道称,9月12日上午,天翼征信总经理、副经理以下及市场人员,共计十余人被警察带走。

天翼征信相关负责人对《中国经济周刊》记者表示,“我们现在一切都正常,没有什么太大问题。未来可能将对客户进行筛选。我们业务都是合规的,至于行业里的传闻也不太好评价。而关于有无人员被带走调查,对外不做任何回复。”

爬虫作为一种计算机技术具有中立性,在法律上也从未被禁止,为什么这些公司会因为爬虫技术而被调查?

问题的关键在于爬取的行为和爬取获得的数据是否触及监管红线——是否经过授权?是否过度爬取数据?获取了哪些数据?是否为获取数据破坏被爬服务器的防护措施?

前述同盾科技负责人直言,“爬虫其实是一个中立的技术,但现在可能会有灰色地带存在。”

插图:《中国经济周刊》美编 刘屹钫

插图:《中国经济周刊》美编 刘屹钫

“爬虫”的野蛮生长

在近年来的互联网金融大潮中,大数据风控服务商扮演着重要角色。

随着互联网金融兴起,非银行金融机构如P2P、小贷公司、消费金融公司等都试图掘金传统征信数据缺失人群。而伴随用户金融行为进一步线上化,还产生了除工商财税、水电煤缴费之外的信息,如支付和交易信息、社交大数据信息等等,成为判断用户信用水平的重要数据类型。

然而,对于这些机构而言,自身搭建完整的风控系统成本动辄高达数千万。在此背景下,服务金融机构以及类金融机构的第三方大数据风控公司应运而生。

从这些大数据风控企业的合作体量,就可以看出市场需求的旺盛。公开信息显示,魔蝎科技已与国内银行、保险机构、消费金融、互联网金融等超过2000家客户合作。新颜科技合作机构2500家以上;数聚魔盒在2019年3月份下线前,合作企业超过10000家。

随着行业的“野蛮生长”,竞争日益激烈,一些变异的爬虫产品也随之出现,涉及窃取、泄露、滥用用户数据等。

有业内人士向《中国经济周刊》记者介绍,一些大数据风控服务商为了获取海量数据,许多非授权隐私数据也会成为爬虫的目标,甚至用户手机里的通讯录、通讯记录、电商交易数据、外卖交易记录等等,要是被盯上,“基本上你就没什么秘密了”。

而有些爬虫技术则采用“多线程爬取”,从而导致网站瘫痪或不能访问,这也是大多数网络攻击所使用的方法之一。

“去年就一直存在个人隐私信息不断被泄露,部分金融公司通过各种数据源对用户数据进行打包出售再加工,严重涉及到公民隐私及数据安全的问题。”有业内人士对《中国经济周刊》记者表示,有的金融公司通过各种数据源对用户数据进行打包出售再加工,严重涉及公民隐私及数据安全问题。去年问题爆发得很明显,主要集中在消费金融和现金贷两大业务板块。

部分拓展在线零售业务的中小城商行、农商行,也会选择与第三方大数据风控公司合作,进行数据交叉验证、丰富风控维度。

在上述业内人士看来,大量第三方数据公司为了获得银行业务,会提供大量不同的数据源,很多数据是“非脱敏”数据,“银行业是一个国家的经济命脉, 这些数据提供给银行就会涉及到金融安全问题。”

“即便客户允许你抓取,也是在这一次审批当中可以用,你把这些数据留存用于其他场景肯定是不对的。”一位不愿透露姓名的业内人士对《中国经济周刊》记者分析,从对个人信息保护的严格意义上讲,这些数据应当全部销毁。而部分爬虫公司并不销毁历史上抓取的数据,同时还提供给其他客户、其他场景使用。

这位业内人士举例称,还有一类公司会采用特殊手段规避法律风险,“比如:用户上传身份证号码,征信公司直接显示用户每个月纳税金额,这肯定触犯法律。但他们会规避掉法律风险,用数据标签给用户的纳税金额打分,比如缴税1万元的人就是5分,1万元以下的就是3分。”

剑指爬虫,意在数据

随着强监管信号的不断释放,“野蛮生长”的大数据爬虫时代或将结束。在不少业内人士看来,本次整顿也是一个行业净化、洗牌的过程,有利于整个行业更加健康、规范发展。

今年5月28日,国家互联网信息办公室发布了《数据安全管理办法(征求意见稿)》(下称“《管理办法》”),用部门立法的方式对互联网数据收集、数据处理使用,都做了明确的界定。

《管理办法》第十六条规定,“网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。”

在北京大成律师事务所执业律师、北京网贷协会法律顾问肖飒看来,没有授权的爬虫就一定是违法的,需要重点整治。现在的关键是如何面对这些看似“合法”的爬虫,重中之重就是运营商做到用户授权链的完整,明晰完整的授权链,做到源头控制。总的来说,应当尽快制定完善针对网络爬虫的数据安全法律法规,将网络爬虫引向合法轨道。若是违法进行网络爬虫,就要重拳出击,加大惩罚力度和侦查力度,涉及刑事犯罪的要重点处理。

然而,过去一个多月的行业“震荡”昭示着,针对大数据风控行业的强监管才刚刚开始。

10月24日,有报道称,央行日前发文紧急调研银行与第三方数据公司合作情况。其中,银行需排查的内容主要涉及数据采集、信用欺诈、信用评分、风控建模等方面。央行还要求各企业征信机构排查自身业务中是否存在违规爬虫行为。央行表示,如存在上述情况,请立即上报,对于存在违规爬虫业务的要立即整改。如不存在上述情况的,请出具加盖公章的书面承诺函,并于10月24日前送至央行征信管理处。

作者
  • 微笑
  • 流汗
  • 难过
  • 羡慕
  • 愤怒
  • 流泪
0