文/杨刘保
警惕大数据的真实性风险
文/杨刘保
大数据是一种数据集成,也是一项IT技术。大数据在给经济社会发展带来巨大便利和商机的同时,也蕴藏着各种潜在的风险。大数据的真实性风险实质上就是指大数据的质量究竟是高还是低。大数据在现实中面临着三种风险,即数据出处来源的可靠性风险、数据传递过程的失真性风险、数据分析结果的可信度风险。
大数据;数据质量
大数据是一种数据集成。大数据是指无法在可容忍的时间内用传统 IT 技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。大数据也是一项IT技术。大数据是继云计算、物联网之后IT产业又一次颠覆性、革命性的技术变革。“大数据时代”的来临已成不可阻挡之势。现代社会大数据正在改变着世界,改变着人们的生活,已经成为影响一个国家及其全体国民的重要事物。对现有的各种大数据进行系统集成和有效利用是现阶段信息化建设的核心任务。但同时大数据在给经济社会发展带来巨大便利和商机的同时,也蕴藏着各种潜在的风险。
大数据时代,随着网络存储技术和手段的发展,各种移动设备、智能终端通过有线和无线网络彼此交互相连,每个在线用户都在交互网络中制造、输送和传播信息,成为各种信息数据的制造者和提供者。交互网络中的数据呈海量式增长,数据种类也日益繁多。这种海量式、多样化的数据不仅以传统文本形式的数据存在,也有以非传统的网络日志、音频、视频、图片等形式的数据存在。在数据规模的日益扩大和拓展过程中,因数据信息来源的多样化,数据信息本身也存在着混杂甚至混乱的特征,许多不科学、不真实、不可靠、未经验证的数据进入了数据库,这就很难保证每一条数据信息都是真实可信的。所以,那种以为数据越多越精确的想法是万万不可取的。大数据的价值之一就在于可以通过对其进行分析挖掘出有价值的信息,进而作出科学的预测和决策。通过对这些海量数据的正确甄别、有效分析和深入研究,以期对某一领域、某一部门或整个经济社会发展作出科学的预判和规划,这才是大数据分析和研究的真正目的,是大数据的真正用武之地。因此,数据出处来源的真实可靠是对大数据进行科学分析、挖掘和研究的前提条件,如果数据的出处来源环节就出了问题,待分析的数据本身就不具有可信度,那么得出的结论、做出的决策不仅毫无价值,往往还会产生不小的危害,甚至带来方向性的误导。在进行数据的初始收集和整理的时候,应该对所收集整理数据的真实性和可信度进行严格的监测和细致的过滤,通过严格鉴别数据的出处和来源,正确识别并剔除掉虚假数据信息甚至恶意数据信息,真正收集整理出真实有用的数据信息。
数据传递过程的失真性风险主要是指大数据信息在网络传播的过程中有可能失真。失真的原因大致包括三个方面。一是人为选择性失真,即人为干预了数据的采集、收集、存储过程,有选择性地、有指向性地、有侧重地选取数据,或是采集、收集、存储了大量无用的数据信息,或是采集、收集、存储了大量不科学、不真实的数据信息,或是虽没有采集、收集、存储无用的、不科学、不真实的数据信息,但只是采集、收集、存储了部分真实的数据信息,甚或在采集、收集、存储数据信息的过程中完全剔除了有用信息、真实信息从而导致数据的误差与失真。这种人为选择性失真既包括采集者、收集者、存储者自身的主动选择,即主体自身有倾向性的选择,也包括采集者、收集者、存储者自身的被动选择,即被上级授意对数据信息进行了有针对性的选择。二是人为操作性失真。无论是普通的数据上传者,还是经验丰富的数据管理人员,都有可能因操作不当导致数据出现误差与失真的情况。在海量数据的具体操作过程中,或是没有严格按照规定要求操作,或是误改影响系统正常运行的有关参数,或是误删系统中的重要文件,致使数据在传递的过程中与原始数据存在一定程度的出入,甚至相去甚远。特别是在数据操作人员的操作技术不熟练而又操作十分复杂的系统时,数据误差与失真的概率将大大增加,数据的完整性将大打折扣。三是非人为性失真,主要是指由于数据版本的变更而导致数据出现误差和失真。任何数据的形成都不是一劳永逸的,随着时空的转换、政策的调整、技术的革新、人力和物力的投入,数据总会在原始版的基础上出现各种升级版,出现数据的1.0版、2.0版、3.0版、4.0版……选择什么样的数据版本,就意味着失真的可能性将会有多大,版本的级别越高,失真的可能性就会越小,数据的真实性和可信度就会大大增强。只有最大限度地降低人为影响和干预,提高数据操作人员的技术熟练度,区分不同的数据版本,方可降低数据在传递过程中失真的可能性。
海量的大数据只有通过总结、分析和研究,才能对实际工作和生活、对经济社会发展起指导作用,而当前大数据处理技术的快速发展又对提升数据计算的精确性和结论分析的正确性提供了强有力的技术支撑,于是,大数据分析成为一种炙手可热的研究范式,大数据分析技术成为一种新兴的技术类型。大数据分析技术是一种从复杂、混乱、海量、多样的数据中挖掘有用信息、得出相关规律、预测变化趋势的技术,通过发现并保留相互有关联的数据加以收集、总结、分析和研究,使其变成可资利用的有价值的数据信息。而在大数据分析过程中,有一个问题值得我们追问:究竟需要多少数据量才能支撑数据分析结果的有效性和可信度呢?一些研究者往往认为自己分析和研究的数据是全数据,力图实现从传统的调查统计学中的抽样调查思维向大数据时代的全数据调查思维转变。一种技术的变迁和跃进无疑值得人们去学习和跟进,但苏珊·朗格在《哲学新视野》中曾表达过这样的忧虑:“某些观念有时会以惊人的力量给知识状况带来巨大的冲击。由于这些观念能一下子解决许多问题,所以,它们似乎有希望解决所有基本问题,澄清所有不明了的疑点。每个人都想迅速地抓住它们,作为进入某种新实证科学的法宝,作为可用来建构一个综合分析体系的概念轴心。这种‘宏大概念’突然流行起来,一时间把所有东西都挤到了一边。”实际上,在大数据时代背景下,尽管有大数据分析技术的支撑,任何研究者所接触和所获得的数据也很难包括全部数据,那种追求全数据调查和分析的努力是徒劳的,因为全数据这一概念本身就没有定量性的规定,全数据到底包括多少数据量是全数据概念界定与鉴定中需要注意、需要考虑的重要问题。如果热衷于全数据调查与分析这种数据处理方式而放弃传统抽样调查方法的分析和运用,往往在规律的掌握、趋势的预测、政策的制定等方面衍生出许多问题。在实际运用中,所谓的全数据分析可能会带来许多似是而非的“规律”,反而不如传统抽样调查的分析更为可信。所谓的全数据分析往往也只是某些“专家”以及大数据的相关处理者按照自己的需要对超大的数据规模随心所欲地进行搭配、组合和筛选,经过这种处理和筛选后再进行分析与研究就可能形成真真假假的许多“规律”,使得数据分析和处理的结果具有很大的欺骗性。而普通大众又很难判别分析结果及结论的真假性,在现实以及网络传播的过程中容易导致虚假信息的泛滥。比如在股票数据的分析与预测中,有些所谓的分析家会编造出一系列的股票分析预测法,并筛选出有利的数据来支持其分析预测模型,识别这种欺骗性需要具备深厚的理论功底和专业的业务知识,而这是一般的数据使用者很难做到的。因此,大数据分析结果的真假性、正确性和有效性期待依靠使用者的经验与智慧去判断那就犯了本末倒置的错误。只有数据分析者自身本着求真求实的态度以及对数据分析技术、方法和手段的精准掌握与运用才能避免虚假信息和结论的泛滥,增强数据分析结果的可信度。
杨刘保,中共长春市委党校哲学与文化教研部副教授,研究方向:哲学与社会发展。
责任编辑 解梅娟
TP393
10.13784/j.cnki.22-1299/d.2016.05.010