秦合舫
大数据是当下最热门的IT词汇,两会期间,也有多位两会代表的提案和建议与大数据有关。其实大数据本来就客观存在,只是在原来的技术手段下,数据的采集、归纳、分析、整理与应用都受到了限制,所以大部分的分析都只能建立在采样与统计的“小数据”模式下进行,随着互联网、移动互联网、云计算等技术手段的普及,从而使得使用全部而非抽样、及时而非间断的数据进行辅助管理和决策成为可能。
大数据技术实际上是把实物世界通过数据转化,从而形成一个更容易进行观察、分析、管理的过程。
这个体系中有很多链条,也涉及到诸多相应的技术、理论和模型,但起点必须是数据的采集,采集的数据正确,后面的一系列聚合与分析甚至情景再现才有意义,如果数据转化环节使用的传感技术就有问题或受到了人为的破坏,那么后台再强的分析都只能得出错误的结论。
我为什么要把大数据和三聚氰胺联系起来呢?我们知道2008年中国乳品行业发生了一场行业地震,这个事件被披露之后引发了乳品行业的全行业危机,并直接导致行业知名企业三鹿的破产,其所带来的行业危机到现在还没有完全消除,当然也让大众知道了一个原本陌生的化学名词三聚氰胺。
三聚氰胺被用于牛奶造假,是因为它有两个重要的特性,一是它的高含氮特性可以利用现在的定氮法蛋白检测的缺陷来人为“提高”掺水的比例;第二,就是它在表面上和短期内以及小剂量范围下是无色、无味、无毒的。就是一般消费者食用含三聚氰胺的牛奶,正常情况下(或者至少在制假者认为)只是营养物质摄入量降低了,但对生命并没有什么不良反应。我们现在已经知道,这种在表面上、短期内和小剂量下“无毒”的产品,长期积累反而会给人体带来不可逆转的伤害。
那么我们假设某种大数据分析的终端就是用的定氮法来检查蛋白含量,正常情况下,检测出来的氮含量对应的就是相应的蛋白含量,但是由于有了三聚氰胺,这种对应关系就被破坏掉了。如果没有被发现,那么这个被做了假的数据被用于后面相应的分析、管理、决策,可以想象这个错误直到发生了其他破坏性的影响才能被发现。而在某些情况下,这个破坏性影响可能是不可挽回的。
我们知道很多大数据的采集利用的是人们无意中发生的行为,但是我们也可以发现,一旦数据的利用有了某种导向性,就有可能被有某种目的的人有意利用,并在数据形成的一些环节人为的植入类似于三聚氰胺的东西,从而使大数据得出的结论有利于自己。
比如购物网站上的用户评论就有这种趋势,本来用户评论来源于不特定消费者,理论上来源于不特定消费者的真实使用感受,对于帮助更多的消费者获得某个商家和商品的真实价值是非常有意义的,但正因为这个数据会影响到商家的销售,所以就出现了专门改变这个数据来盈利的“差评师”或刷积分的行为,这就像牛奶检测中的定氮法被人为掺入了三聚氰胺一样,从而使得消费者看到的差评如潮,商家不一定是真实的坏商家,而好评多的也不一定是好商家。同样,一些公共事件中的网络水军发挥的是同样的作用,如果以为大数据就可以过滤掉个别人为因素的影响,那么水军就成了对付大数据客观性的克星。
在理想情况下,大数据技术确实可以极大的提高生产力和社会管理水平,但它也同时会带来技术和管理难题,诸如类似于三聚氰胺这样的掺假模式,如果不能有效的屏蔽,那么大数据也会变成作恶的工具,甚至放大作恶的影响范围。
作者为清华经管领导力研究中心研究员endprint
中国工业评论2014年6期