爬虫原罪:你的数据在被谁消费

2019-12-14 13:55吕笑颜石丹
商学院 2019年12期
关键词:爬虫数据源建模

吕笑颜 石丹

创新创业,向善而生

技术的多场景应用,让很多依靠技术创新的创业公司诞生。如何有边界地创新,成为人们关注的话题。

11月15日,同盾科技有限公司(下称“同盾科技”)发布声明称,其子公司杭州信川科技“未能完全防范极个别‘套路贷等不法分子利用信川产品和服务的情况”,并向公众道歉。

值得注意的是,前一天公安部曾通报“净网2019”专项行动典型案例,提到“套路贷”的犯罪链条涉及非法获取公民个人信息的数据支撑服务商、负责研发的技术服务商等。据《财新》报道,上述数据服务商为同盾科技、杭州魔蝎數据科技有限公司(下称“魔蝎科技”)、聚信立和新颜科技。

虽然监管意在治理“套路贷”“超利贷”等违规贷款产品,但是大部分爬虫服务暂停的影响却波及到全行业。事实上,此次专项调查风波目前已经波及到银行。据业内人士向《商学院》记者透露,10月24日左右,央行发文紧急调研银行与第三方数据公司合作情况。

整个消费金融行业猝不及防地迎来了“去爬虫”时代,尤其是现金贷受影响最大。数据缺失,迫使整个消费金融行业进行风控策略的大调整。

此次爬虫风波发生后,行业内讨论时普遍认为“技术无罪”,但是实际上在法律中和现实操作中,这句话应该重新理解。爬虫合规与违规的边界到底应该怎么设置?今后数据爬虫到底能不能用?

数据信用行业正在走向规范化,此番数据爬虫整治行动也只是开端,未来行业监管趋于常态化。依靠数据得以安身立命的数据服务商们未来的路又将何去何从?

针对被查原因、发展现状、业务影响、转型方向等,商学院记者分别向同盾科技、魔蝎科技、聚信立、新颜科技等方面发去采访函,截至发稿,尚未获得回复。

同盾科技子公司曾参与“套路贷”

11月15日下午,同盾科技发表公开声明称,其旗下独立运营的子公司杭州信川科技及有关人员正在积极配合警方调查曾经服务的某第三方单位。此前同盾科技曾公开表示,信川科技自2018年开始已经逐步调整业务,目前已全部停止相关服务。

事实上,今年9月中旬以来,杭州、上海多家数据公司接连被查,包括魔蝎科技、聚信立、同盾科技等,引起行业震荡。当时,多位业内人士曾告诉记者,被查原因很可能与违规使用爬虫数据以及暴力催收有关。

11月14日,公安部在发布会上通报,此次“净网2019”专项行动对“套路贷”犯罪开展了全链条式打击,系列行动的起点是今年在黑龙江省七台河市侦破的“7·30”套路贷专案。

以此案为线索,9月1日以来,公安部网络安全保卫局在全国铲除了一批帮助犯罪的技术服务商、数据支撑服务商、支付服务商,共打掉团伙147个,抓获嫌疑人1531名。

大数据风控釜底抽薪,“数据荒”时代如何破?

在数据市场,由于爬虫停止运转,数据的价格正在被急剧抬升。这使得风控成本迅速上升,众多放贷机构对此并没有充分的准备,由于替代方案的不成熟以及对新风控措施的观望,部分贷款产品的坏账率飙升。

“爬虫,是整个大数据风控行业的灵魂,是大数据风控的底层基石。要做大数据风控,先要有丰富的数据,然后才能运用这些数据建立模型,进行信用评价。”某第三方银行资深风控人士向记者指出,大多数大数据风控公司本身并没有那么多数据。因为数据是从业务当中来的,但是有大量数据源的机构实际上并不多,多数大数据风控公司的数据是靠爬虫爬取。爬虫服务暂停,消费金融行业的公司都多少受到影响,其中现金贷是重灾区,受影响最大的是运营商数据和电商数据两种数据。该资深风控人士告诉记者,市场上除了极少数非常头部的公司的产品之外,大部分现金贷类的产品都受到了影响,同时也包括部分非现金贷场景。据他估计,无场景现金贷大约占网贷平台资产的60%~70%。据他介绍,网贷平台没有了爬虫所提供的数据,能找到的替代数据有限,联合建模获取的数据作用并不太理想。因此,许多产品的坏账率飙升。

运营商数据和电商数据的缺失,使得大多数消费金融类公司都不得不调整风控方案。

首先被想到的替代方案是自建爬虫团队。

不过,据上述资深风控人士介绍,这样做的公司目前并不多。原因是从无到有自建爬虫团队的成本比较高,而且要自建爬虫团队,关键是要挖到合适的人,这方面的人才尚有缺口。更麻烦的是,自建爬虫团队恐非长久之计。他说,如果自建爬虫团队,还是涉及到爬取数据违规、侵犯个人隐私的问题,问题主要是在“强制授权”上,而不在“雇佣第三方爬”还是“自建团队爬”上。

自建爬虫团队的想法被放弃之后,能否接入别的数据源,成为首先被考虑的方向。

据了解,国庆节前后,许多有现金贷产品的公司在密切接触这次受影响不大的机构,如银行、大互联网旗下金融科技公司、头部P2P平台、消费金融公司等。据上述风控人士介绍,机构之间的相互对接,都开始“看身份”。他说:“一方面,一些有数据源的机构只愿意与持牌金融机构合作;一方面,持牌金融机构,也要看合作方是否获得了合法的数据源授权。”

事实上,此次受爬虫暂停影响的并非只有放贷机构,目前还在正常运营的大数据风控公司也受到了不小的影响。他说,大数据风控平台之间的数据是“你中有我,我中有你”的,大数据风控公司的数据不仅接给很多贷款公司,也有很多其他的大数据风控公司接。爬虫停止之后,这些公司所应用的数据少了一大块,所以各种评分产品的效力大大下降。

爬虫风波之后,数据的价值迅速凸显出来,有些握有数据的公司坐地起价。据悉,原先一份运营商报告3毛钱,字段覆盖很全,也非常有利于做反欺诈和催收。现在运营商报告无法获取,只能用与数据公司联合建模方式来获取运营商信息,比如月流量、通话地区分布等,这样使得成本大大提高,价格翻了好几倍。不少公司看准了数据荒所形成的市场空白,趁势而上。

爬虫整治风波之下,行业在等待监管下一步动态的同时,也在寻找目力范围内的可替代方式,联合建模被认为是大数据风控未来最为合规的替代方案,行业对“联合建模”关注度在提升。

不过,最耐人寻味的是,虽然目前联合建模的市场热度有所上升,但是身处其中的公司,差异却很大:有的公司销售电话被打爆,有的公司只是业务的询问量有一定程度的上升、签单量也有上升,但是实际成交量并没有“暴涨”。

据悉,大数据风控行业最为合规的业务——联合建模,早在2015年前后就已经在市场上出现。联合建模的最终目的,就是既保护用户隐私、又控制好金融风险,因为这项技术可以在双方数据不出本地的情况下,运用数据建立风控模型。但是,在此次大部分主流厂商的爬虫服务暂停之前,联合建模市场并不大。

据上述资深风控人士估计,业内用联合建模这种方案进行风险控制的公司大概只占四成,六成的公司都是通过爬虫获取数据。在他看来,原因主要有两个:一个是成本,联合建模的成本比較高,比如联合建模一个模型就需要至少10万元,质量好一些的联合建模,加上商务洽谈产生的费用至少30万,有的则可能高达50万,对规模较小的公司来说并不划算;另一个原因是数据,不少金融公司主要是看重外部的一些重要数据源,而不是建模能力。而在实际业务中,缺乏数据源的联合建模,其效果也不是特别好,在市场上缺乏竞争力。他坦言:“虽然说是在找联合建模,但其实如果你有独特的数据源,别人才会和你联合建模。如果你没有,只有技术,那就不行。”

据业内人士向记者透露,联合建模这个领域,做得好的公司“闷声发大财”,市场上几乎看不到他们的宣传。而在到处做市场推广的公司,实际上业务做的并不多。“因为那些做得好的公司不需要宣传,全行业都知道他们。”他表示。不过,随着监管的加强,联合建模被业内认为确实是未来的方向。因为随着对数据合规的监管日益严格,联合建模将成为不得不选择的方案。

技术无罪?观望爬虫边界

目前的“数据荒”如何应对?一位业内人士坦言:“现在不是应对,而是观望。在确定监管层对爬虫的明确态度之前,还没法确定如何应对。”

众所周知,金融的核心环节是风控,而作为大数据行业不仅连接着用户,还面向现金贷公司,是现金贷机构的重要合作伙伴。通过第三方数据的服务,一方面能够为现金贷风控提供安全参考,但另一方面一旦数据被贩卖、泄露,就会对用户的隐私造成侵犯,也容易将大数据风控行业推向深渊。

这一切的罪魁祸首就是爬虫技术。

爬虫技术本无罪。多位大数据风控行业资深人士向记者表示,不能把爬虫“妖魔化”。据百度百科显示,所谓“爬虫”其实是一个自动提取网页的程序,其按照一定的规则,自动抓取互联网信息并存储到自身数据库的程序或者脚本。在用户授权后,风控数据提供商可通过后台爬虫搜集信息,将通话信息、消费数据等互联网信息整合标准化,最终形成对借款人的综合评估,供金融机构做相应的后续决策。

据业内人士表示:“用爬虫爬取信息,除了自动化对用户来说比较省事之外,对放贷机构来讲,获取的数据也更真实。很多需要人手填的数据,都会有造假的成分,因为可以随意填写。但是如果用自动化的程序去抓取的话,很多数据是无法修改的,部分能修改的用户临时修改数据也是很难的,因此数据真实性更高,有保证。”

据上述资深风控人士表示:“其实,爬虫服务本身如果在客户充分授权的前提下是可以用的,但是因为像一些第三方数据平台使用爬虫时,他们的数据来源往往说不清。更加严重的是,这些由爬虫获取的数据,会被一些比较下沉的金融平台拿去做一些涉及暴力催收的事情。”

他认为,大数据风控服务在实际应用中出现问题的核心在于,爬虫爬取的数据被“二次贩卖”,而不是“爬取”这个动作本身。同时,需要特别强调的是,并不是所有应用爬虫技术的公司都会将数据“二次贩卖”。

据他介绍,在实际应用中,搜索引擎就是爬虫技术的一个较大应用。但是,这个“爬虫”和这次整治风波中的爬虫有所不同。搜索引擎的爬虫,爬取的是公开的网页信息,并不涉及个人隐私,因此不在这次整治当中。

上述资深风控人士说,在实际的金融领域应用中,爬虫被用在两类公司:一类是第三方大数据风控公司,一类是头部网贷平台。

对于许多小型的网贷公司来说,因为自己养不起爬虫团队,一般都会采用第三方大数据风控公司提供的服务。第三方风控公司的爬虫业务利润并不丰厚,一般来说爬取一条信息所收取的费用甚至可以低至1毛钱,一个公司单靠这项业务无法盈利。于是,很多第三方风控公司将爬取的用户信息存储、出售给其他公司,从而获取更多收益。

而头部放贷机构一般都选择自建爬虫团队。这其中的原因有几个方面:首先,头部机构技术力量足够同时能有客户授权,比较安全;其次,自建爬虫团队,爬取的数据更加个性化、更符合业务需要,因为爬虫爬来数据的广度和深度直接决定着公司后续风控的质量,是风控的基础,头部放贷机构不愿将业务的核心放在别人手里;再次,第三方风控公司爬取数据之后会进行出售,头部放贷机构不愿自家的客户被别的公司抢走,因此倾向于保护数据不外泄;此外,如果用户数据被转卖,会造成多头借贷,因为别的公司拿到这些用户的数据就会给这些用户放款,一个用户在多家借款,会影响这个用户的最终还款。因此,转卖用户数据和头部放贷机构的商业利益是根本违背的。

对于爬虫的应用边界,多位大数据风控业内人士表示,业内形成的共识是:只要数据使用有个人明确授权,把授权给谁、用途说清楚,爬虫并非不能使用。

上海交通大学数据法律研究中心执行主任何渊表示,官方的态度实际上是很明确的,数据并不是不能爬,“说得很清楚,收集的时候不能采取妨碍网站的正常运行,甚至有一个尺度,流量不能超过别人网站的1/3。”何渊认为,金融数据爬虫到底能不能爬?关键看三个点:爬的什么东西?怎么爬?爬的合法数据用来干什么?“这三点决定你是不是犯罪,是不是违法。”

此前,10月8日,中国人民大学国家发展与战略研究院金融科技与互联网安全研究中心主任杨东在人民政协报上撰文《依法保护金融数据》,其中提到尽管纷扰不断,但传统金融机构线上化进程不可逆转。当前的紧要任务,是推动形成金融监管机构、行业头部企业与法律界等共同研究探讨的善治局面,鼓励科技向善。同时,针对当前数据分析行业的弊端,他提出了几点应对措施,其中包括:第一,金融监管机构出台金融业个人数据保护合规操作指南;第二,建立个人数据保护的行业自律组织;第三,以合规供应商清单的方式促进数据分析行业的发展。

目前,对个人金融数据监管最具针对性的一部法律是《个人金融信息(数据)保护试行办法》。此前据媒体报道,《个人金融信息(数据)保护试行办法(初稿)》已经出炉,央行已经下发到各家银行,目前正在征求意见中。

猜你喜欢
爬虫数据源建模
物理建模在教与学实践中的应用
在经历中发现在探究中建模
基于Python的网络爬虫和反爬虫技术研究
思维建模在连续型随机变量中的应用
Python反爬虫设计
求距求值方程建模
基于Scrapy框架的分布式网络爬虫的研究与实现
图表中的交互 数据钻取还能这么用
谁抢走了低价机票
基于Excel的照片查询系统开发与应用