大数据时代信息挖掘的价值风险及其规避

2020-02-21 08:38燕道成,高紫叶
新媒体研究 2020年22期
关键词:规避大数据

燕道成,高紫叶

摘 要 大数据时代,信息挖掘从海量数据中提取出大量具备潜在价值的信息。与此同时,信息挖掘也伴随着数据隐私,侵权泛滥,数字俘虏,算法茧房,巨头垄断,安全隐患等价值风险。规避信息挖掘的价值风险,需要提高媒介素养,走出“数字监狱”;强调人文价值,传达情感温度;深挖细分市场,保护数据安全。

关键词 大数据;信息挖掘;价值风险;规避

中图分类号 G2 文献标识码 A 文章编号 2096-0360(2020)22-0069-04

基金项目:湖南省社科基金重点项目“大数据时代信息价值观引领研究”(19ZDB019)。

互联网技术的进一步发展让我们迎来了大数据时代,维克托·迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》中提出“大数据正在开启一次重大的时代转型。就如同显微镜使我们观测到深邃的微观世界,望远镜让我们认识到浩瀚的宇宙,大数据技术正在改变我们的生活习惯以及理解世界的方式。”[ 1 ]信息挖掘作为大数据技术的基础,为我们带来便捷生活的同时也存在其固有的价值风险,我们如何认识这些风险并采取相应措施是目前需要明确的问题。因而,本文旨在分析大数据时代信息挖掘的相关风险,在采访大数据从业人士后给出相对合理科学的规避建议,以填补以往研究的不足。

1 信息挖掘的价值风险

美国数据官Yin Depar Bundali指出,我们生活在无线数据时代,数据以无声的方式流入我们的生活。我们凭借数据完成各种任务,从保存电子病历用以记录我们的健康信息,到治理经济,到推动科学进步,不一而足[ 2 ]。信息挖掘能让我们从海量数据中获取有价值的信息,为我们的生活决策提供了便利。但是,从哪些渠道收集数据、通过何种逻辑网络进行深入挖掘、挖掘多大体量的数据库,这一系列的问题都伴随着潜在的价值風险。

1.1 数据隐私,侵权泛滥

1969年诞生的互联网技术仅花了51年时间,便改变了人类的生活。Web2.0让互联网从“可读”进化为“可写”,用户自主进行内容生产与网站建设,截至2012年,Twitter上的信息发布量每天都会超过4亿条微博[ 1 ]。用户不再只是互联网的观看者,而成了真正的参与者与生产者。随着移动智能终端的发明与5G的诞生,个人的行为举止与身体信息都能转变成数据记录下来,大体量的数据传输更为精准、快速,如今我们已经身处于万物互联的大数据时代。

大数据时代的信息挖掘为企业带来发展机遇。通过挖掘人们在网络中的浏览轨迹信息,电商可以推送“你可能喜欢的产品”;通过定位人们的位置,社交媒体可以给你介绍“附近的人”;通过挖掘人们的医疗记录,药商公司可以判断其需要的药品和所处的社会地位。这些信息可能有用户自愿公开的,也有非自愿公开的。

需要明确的是用户个人信息不等同于隐私信息,只有个人不愿意公开的且需要受到保护的信息才属于隐私信息。但是,大数据技术为数据隐私的界定设置了难题。除了上述隐私信息,用户的一些数据行为如浏览路径、思考过程等经过信息挖掘和大数据分析后,可能也会产生用户不愿意泄露的个人信息。因而,信息挖掘的数据隐私范围更为广泛,除了用户最初不愿公开的信息,还包括对用户数据行为进行挖掘分析后可能泄露的隐私数据。

由于信息挖掘是在相当大量级的数据库里抓取数据进行分析预测,预测内容多与数据之间具有相关性,而非具体的因果关系,因而,用户往往对自己的数据隐私泄露一无所知。以美国“推测少女怀孕并泄露给商家”一案为例,美国塔吉特公司通过分析女性顾客的网购数据,可以预测到在校女学生怀孕的隐私。当用户在互联网上分享了自己的信息,这些信息被企业挖掘采集之后,用户便很难对其进行控制。这给企业的行为营销带来了便利,但也加剧了侵权与犯罪。第46次《中国互联网发展状况报告》显示,截至2020年6月有20.6%的网民遭遇过个人信息泄露,网络诈骗与密码被盗分别占比

17%、9.9%[3]。

大数据时代数据已经变成亟待变现的资本,企业在盈利目的的驱使下必定会尽可能多地收集用户数据,充实数据库资源。虽然目前各大App运营商都会征求用户移动终端各项存储信息的公开权限,但是这样的征求形同虚设。一方面不少用户的隐私意识薄弱,并未考虑到信息泄露的风险,另一方面用户想要获得App使用权就不得不同意相关条款。互联网行业采集用户信息已经成了基本原则,其条款内容动辄十来项,许多都和用户所需要的服务无甚关联。

1.2 数字俘虏,算法茧房

大数据技术为企业的科学决策提供了量化依据,已经成为企业的核心竞争力。为了确保后续程序的准确进行,信息挖掘必须要有多样化的数据来源、真实有效的数据信息、大体量的数据库支撑和逻辑清晰的数据关联。上述任何一项的不足都可能导致数据挖掘不到位,进而影响大数据的预测结果。因此,信息挖掘的结果并非百分之百正确。以信息挖掘为基础的大数据技术虽然为企业和政府决策提供了帮助,但这只具有参考价值,不能完全被技术分析的结果所左右。

“异化”(Alienation)一词源自于拉丁文alienatio,本义为“让渡、丧失、差异、疏远”等。马克思使用“异化”这一概念用以说明“劳动异化”现象,即人类劳动的产物却对象化为一个奴役人、控制人的异己对象世界[4]。同样的概念放在大数据时代依然适用。如今,我们的身体状态、活动、情绪乃至思维都转换成可以传输的数据,形成“数字孪生”。原本不合理的生存状态被日益普及的大数据技术变得合理化,技术让人们获得高质量生活的同时丧失了批判性思维,成为单向度的人。人们对数据的单向推崇将刺激更为深入的信息掘活动,当人们的行为决策都以数据为导向之后,我们便成为了数字俘虏,大数据时代的数据异化由此而来。

数字俘虏不仅意味着我们在行动上被数据所掌控,更意味着思想上的被掌控。我们对信息的选择性接触倾向在大数据技术未产生前便已存在。但是,随着信息挖掘与算法推荐技术的发展,我们的选择性接触变得更为狭窄了。过去,我们且能在不同内容之间选择自己感兴趣的内容,而现在,我们只能在相同内容之中强化自己的固有观点与偏好。以今日头条的成功为例,它以信息挖掘为基础进行算法推荐,用户能够轻松获取自己感兴趣的新闻推送,这样的方式减少了用户的时间成本,进而有利于形成习惯、提高用户忠诚度。用户每天所接收的信息变成同一类信息的集合,久而久之,用户将被困在思想茧房之中,数据挖掘只会将蚕茧越织越厚,因为它所遵循的是完全固化的技术逻辑。

1.3 巨头垄断,安全隐患

从数据基础资源看,社会管理与服务机构、生活服务性的电商平台天然能收集到庞大的个人数据。社会管理机构以人口统计局为例,周期性的人口普查工作需要了解公民的婚育情况、受教育情况、职业、收入等信息,这些信息所构成的大型数据库仅为国家所有,官方报告中不可能给出细化的人口信息。生活服务型电商平台以淘宝为例,用户的消费记录、线上浏览路径及GPS定位包含有庞大的数据资源,这些基础资源已经让淘宝超过了其他许多企业。

信息挖掘能力可以細化为信息获取意识、信息获取路径和信息获取方法的差异。从信息获取意识方面看,未经过专业教育的普通人已经习惯了碎片化的信息接收方式,在日常生活中不会有意收集并保存信息。而具备大数据时代发展意识的企业经营者和社会机关则会日常关注各个方面的数据信息,思考数据背后的潜在价值。从数据获取路径来看,数据获取路径的多样化能够提升数据挖掘能力。但问题在于大型企业拥有更大规模的用户,相应的数据获取的路径也就越多,精细的数据网络将反作用于企业经营,巨头垄断的趋势会进一步被强化。从数据获取方法来看,用什么工具来抓取数据会直接影响到数据挖掘的能力。先进的互联网公司可以通过聘用专业的高技术人才,运用更加科学的抓取工具来获取到更多有价值的数据。

信息分析与应用属于信息挖掘的后续工作,基础数据的不足和数据挖掘的不到位会直接破坏信息分析应用的结果。此外,数据分析还需要有发散思维和创新能力,即不仅能发现数据所反映的表层问题,还能挖掘延伸到数据潜藏的深层信息。政府和行业巨头拥有更为专业的人才,其思维的发散性也会更强。上述几个方面都证实了大数据时代巨头垄断的必然趋势,且随着时间的发展,行业参与者之间的鸿沟会逐渐加深。

行业巨头垄断会伴随着新的问题——数据安全。巨头所拥有的庞大数据库相当于一份大蛋糕,大型企业数据库屡遭攻击,大数据时代的数据泄露不仅意味着企业资本的流失,还意味着无数用户会面临名誉损毁、网络诈骗、绑架勒索等人身风险。据业内人士透露,京东每年仅花在远成办公保障网络传输信息安全上的资金就有几千万。以往数据分散,即使信息泄露也只会小范围内产生影响,而巨头垄断下的高密度数据库资源一旦被黑客攻击成功,所波及的范围将从国内扩展到国际。

2 风险的规避

大数据时代的信息挖掘面临着上文所提到的三大风险问题,对于这些问题我们并非无能为力。既然享受了技术带给我们的诸多好处,就得面对与克服它所固有的问题。针对这些风险,下文将分别提出规避建议。

2.1 提高媒介素养,走出“数字监狱”

传统意义上受众的媒介素养主要体现为对媒介手段的使用能力和对媒介信息的识读、筛选与判断能力。大数据时代的公众媒介素养应当在传统意义的基础上有所扩展,其中关键的一点是对个人信息的掌握与保护能力。对个人信息的掌握与保护可以贯彻到媒介使用前、媒介使用中与媒介使用之后。

目前,各大互联网服务商在提供服务之前都会向用户征求各种授权,如地理位置、手机存储内容、手机联系人方式等。这些授权部分简明易懂,部分则以长篇大论出现。然而,已经习惯快节奏生活与碎片化阅读的用户往往没有耐心去深究其中的利弊,只是机械化地选择同意,在不知不觉中已经失去了对自己信息的掌握权。因此,在用户使用媒介之前,可以先思考服务商授权内容是否与其所提供的实际服务相关联,如若无关,用户有权拒绝相关授权。媒介使用中的掌握与保护主要体现为用户个人信息的发布。其中,最为值得注意的是用户在社交媒体的个人信息。社会化媒体的出现让过去各自独立的小房间连成彼此互通的社区,弱关系加持下的信息掘将进一步深化。能获得用户的个人信息不再只是与其直接相关的亲朋好友,还可以是与其没有直接关联的网民和企业。在媒介使用中审慎发布个人信息,是大数据时代的公民需要学习的技能。

维克托·迈尔-舍恩伯格指出,在今天这个时代,遗忘变成例外,记忆变成常态,人类住进了数字化的圆形监狱[5]。数字化生存中的个人都成了一个个比特,在传输中被永久存储在数据库之中。一条陈年信息几经周转去到不同数据库之后,经过不同的分析思路便可成为新的信息。虽然周转过后的数据被不同的主体所控制,但这些数据的原主人依然有权对这些数据进行更改,甚至将其彻底删除。被遗忘权已然成为大数据时代的新权利。目前人们的数据意识薄弱,据中国消协2018年发布的报告,超八成受访者曾遭遇个人信息泄露问题,信息泄露之后1/3受访者选择自认倒霉[6]。人们只有不断提高自己的媒介素养,在上述的三个阶段掌握与保护好个人信息,才能跳出数据监视下的数字监狱获得一些新鲜空气。

2.2 强调人文价值,传达情感温度

从科技伦理的角度看,科技伦理具有内在的复杂结构,“在这一结构中,一方面,科技的产生、应用与发展都离不开人,另一方面,伦理也是用来规范和指导人的行为的。”[7]科技的发展与人的发展是息息相关的。如今,大数据技术已经渗透于我们生活的方方面面,与此同时,被唯数据论支配的人们不仅丧失了创新意识和冒险精神,而且在逐渐变成片面追求物质利益的动物。因而,大数据时代的信息挖掘亟需强调其人文价值。

信息掘如何做到以人为本?以人为本即强调人的内在价值,外在工具的应用以促进人的良性发展为最终目的。针对这个问题,有大数据从业人员认为,目前,多数推荐算法根据用户现有的兴趣推荐,导致用户看到的内容范围越来越窄。因此推荐算法的改进可以更加注重推荐的广度,损失一些点击率来挖掘用户更多潜在的兴趣。也就是说,我们可以将过去的线性挖掘逻辑转变成网状挖掘逻辑,在深化的同时扩展挖掘的宽容度。该从业人员还表示,推荐算法本质是排序的过程,按深度优先就是把相关性强的物品排在前面,如果要广度的话就会更加看重用户权重,比如有用户喜欢游戏,但是他还喜欢别的,就提高别的这些的权重。因而在信息挖掘基础上的算法推荐可以转变排序方式,将与之相联系的弱兴趣内容也放在选择范围之内。

此外,信息挖掘还应该具有情感底线和人文底色,传达情感温度。以传媒业的信息挖掘为例,媒体对遇难者个人信息的挖掘应该有所止损,诸如家庭地址、恋爱经历、亲朋好友等信息应该予以保护。一方面,媒体的对遇难者信息的过度曝光可能会对亲属造成二次伤害,另一方面,媒体也无法征求到遇难者对深度个人信息是否公开的授权。当人为冰冷的技术赋予情感温度时,技术才能更好地服务于人。

2.3 深挖细分市场,保护数据安全

一位受访人表示,“小企业生存的关键是做好产品,深挖细分市场,扩大用户基数,参考头条、抖音、拼多多的发展道路。”成立于2015年的拼多多以打通下沉市场为其发展策略,将消费者群体细化为城市市场与乡村市场,以价格优势率先争得农村市场,再通过消费者大量的正向反馈和广告拓展城市市场。在用户基数扩大的基础上,拼多多掌握了庞大的用户数据资源,这些数据反哺产品推送,促进企业发展壮大。如今,拼多多已成为阿里、京东的劲敌,此前韵达申通圆通联手封杀极兔速递事件实则是这几家巨头之间的争斗。参照拼多多的发展,中小企业可以针对自己定位的细分市场创新产品、保障质量,着力扩大自己的用户基数,争取获得完备的用户数据库。

大企业在防止数据泄露方面一般会有完善的机制,主要是为各种数据增加读写权限,且数据始终保存在公司内网,只要不受到攻击一般不会泄露。因而,当数据库遭到黑客攻击时,企业更应该具有一套完备的应对措施。企业可以在日常培养或吸纳相关方面的技术人才,进行企业内部员工的安全培训,在数据泄露之后主动提醒用户修改相关密码或删除相关信息。要明确的一点是数据安全的风险是必然存在的,我们只能尽可能减小风险。

参考文献

[1]维克托·迈尔-舍恩伯格,肯尼斯·库克耶.大数据时代:生活、工作与思维的大变革[M].盛阳燕,周涛,译.杭州:浙江人民出版社,2013:21.

[2]桑尼尔·索雷斯.大数据治理[M].匡斌,译.北京:清华大学出版社,2014:序7.

[3]中国互联网发展中心.第46次《中国互联网发展状况报告》[EB/OL].(2020-09-25)[2020-11-01].http// www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/202009/ P020200929546215182514.pdf.

[4]中共中央馬克思恩格斯列宁斯大林著作编译局.马克思恩格斯全集[M].北京:人民出版社,2002:278.

[5]维克托·迈尔-舍恩伯格.删除:大数据取舍之道[M].袁杰,译.杭州:浙江人民出版社,2013:5-22.

[6]中国消费者协会.App个人信息泄漏情况调查报告[EB/ OL].(2018-08-29)[2020-11-01].http//www.cca.org. cn/jmxf/detail/28180.html.

[7]程现昆.科技伦理研究论纲[M].北京:北京师范大学出版社,2011:73.

猜你喜欢
规避大数据
规避企业财务管理中风险的有效方法
新时期企业的税务风险与规避之道
企业内部审计外部化的风险与规避对策
中国如何规避“中等收入陷阱”
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索
隐性采访的负面效果及规避