华南
从农业社会到工业社会,再经过短暂的信息社会,进入大数据时代,人类社会正借助数据向智能社会迈进。而一向对数据缺乏敏感性的中国,不能再错失已经交到手里的机遇且浑然不觉
“数据是什么,数据是对事实的记录,然而就像永不停歇的钟摆一样,数据仅仅是记录,但却无法完全精确地记录事实,数据永远在追赶事实。这也是我们今天为什么要提大数据,大数据事实上是电子手段的普及,是对生活、业务情况的记录,我简称为大记录,其实是在记录生活。因为大数据的背后是大事实,大事实的背后是大世界,事实就像世界一样无边无际,所以我们今天会有大数据,因为我们试图用数据去记录整个世界。”在将大数据概念带回中国之后,在大数据持续不断掀起的社会变革热潮中,著名信息管理专家涂子沛持续保持对大数据时代的关注与分析。
近日,涂子沛接受采访,就“大数据是土壤”、大数据时代的“德先生、赛先生与数先生”等观点进行阐释,在他而言,“从农业社会到工业社会,再经过短暂的信息社会,进入大数据时代,人类社会正借助数据向智能社会迈进。而一向对数据缺乏敏感性的中国,不能再错失已经交到手里的机遇且浑然不觉”。
数据是土壤
很多人说,数据是黄金,数据是石油,涂子沛则讲大数据是土壤。“为什么说数据是土壤,因为数据是无边无尽的。大数据的出现,事实上标志着我们在迈向一个智能社会。”原来人们所谓数据是小范围的,比如一二三四的数字、加减乘除的运算结果叫数据,而今数据则是挖掘、对比、排序,甚至人脸识别都是广义的数据处理。涂子沛举起手机说道:“现在,‘数据的概念和内涵不断丰富,视频、音频都是数据。我们随便都可以拍照,分享到互联网上的照片是数据,是活的数据;不分享到互联网上存在手机里的也是数据。数据事实上是对大世界的大记录,也可以说是对事实的记录。”
人类对数据的认知和探索起源已久,但直到数据生成、保存成本极大降低的今天,人们才迎来大数据时代。涂子沛将大数据兴起的原因归结为两点:首先是人们今天保存数据的成本,与计算机刚刚发明时相比,仅是当时的几百万分之一;第二就是现在挖掘、使用数据的能力也大大增强。“就像石油时代的来临一样,石油早就生成埋藏于地下,但直到开采技术成熟后才能便行其道。数据也是一样,数据早已有之,数据‘开采技术成熟才能普及。摩尔定律、普适计算、数据挖掘、社交媒体和云计算的诞生,促成‘大数据时代的诞生。”
涂子沛认为,大数据技术成熟的意义是,重现历史可以随时随地。他举例《史记》中对屈原的记录,说屈原走到江边,形容枯槁,看到一个渔夫,然后说“举世皆浊我独清”,记述中难免夹杂作者司马迁的想象。但今天如果屈原还做同样的事情,就有人拍照发微信、微博,可能还录音、录像,所有细节都会被真实记录下来。“今天我们留给后人的是整个历史。像我们昨天晚上的读书会活动录像,仔细想想也很‘恐怖,因为将永远放在互联网上。讲错的、讲好的,都将永存,一万年以后还在。所以我还要认真准备一下的。”涂子沛笑着开了自己的一个玩笑,又认真强调数据永生。
“数据不是一切,但一切都将变成数据。”涂子沛用这句话表明数据对现实的记录,也反映出数据的漫无边际,如土壤一般。他进一步讲到,从远古开始人类就认识到土壤的重要,土壤是万物之源,所有的食物都来自于此,“人非土不立”,表明人类很早就有土壤崇拜。
而当下,人們对数据的崇拜像对土壤一样。“为什么我们人类会有这种对数据的崇拜,因为数据在记录事实,数据表示的是过去,但是数据表达的是未来,人类一切的努力都是为了更好地去预测未来。我猜你喜欢什么东西,然后再推送给你,就是在预测未来。怎么预测未来?没有其他的办法,唯一科学的办法就是根据数据。数据当中有规律,数据当中预示未来。”
英国《自然》杂志近期刊登的研究发现,只要有4个时间点和位置的数据就能确定一个人身份,准确率高达95%。这表明大数据足以将一个人“描画”清晰,现有法律手段和核心技术对个人隐私的保护正在逐渐失效。而这正是涂子沛将大数据喻为土壤所包含的另外一层含义:“不仅仅是使用,还有保护。保护土壤,保护数据。但在这方面今天中国做得远远不够,对数据似乎没有任何保护。手机号等个人隐私可以被瞬间快速交易,随之而来的是各种‘服务的提供方。不健康的土壤结不出好的果实,而现在中国在这方面要做的太多。”
德先生、赛先生与数先生
“五四运动以来,中国人意识到民主与科学,也就是‘德先生与‘赛先生,并将之列为两大目标,多年来我们就在这两条轨道上奔跑。”刚刚过去的五四青年节,涂子沛将近期思考写入文章,再谈“德先生、赛先生”,不过这一次,他加入“数先生”。跨越97年历史岁月,涂子沛认为,时至今日无数据不科学,讲科学归根结底就是讲数据。“数据是定量的载体,所以数先生是比赛先生更形象的描述。因此现在纪念五四,应有新的杠杆和坐标,就是数先生。”
在涂子沛看来,数先生同样可以涵盖德先生。他认为民主是少数服从多数的大众意见,而现在大众意见可以从互联网上的表达中轻松获得。涂子沛讲道:“德先生是讲民主,民主就是少数服从多数,大众的意见。今天你到互联网上看,很容易发现大众的集体意见,因为意见已经开始被量化,比如点赞、点击、评论、回复,一下就能看到主流意见到底是什么。数据化的民主、电子化的未来,很容易被量化。把数据用好,民主机制自然就出来了。当然,民主是个奇怪的东西,并非简单多数就一定是好的,真正引领性的东西起始点都是小众的,这是另外一回事。但事实上点赞是个伟大的发明,使得意见收集显而易见。”
“把‘数先生用好,是可以涵盖德先生和赛先生的。中国传统文化的思维中习惯于感性表达,人们受制于模糊思维,往往忽视数据,或感觉差不多、无所谓,一个普遍现实是:数据难以有效地指导行动。”涂子沛曾在《大数据》一书中写下《挑战中国:摘下“差不多先生”的文化标签》,他举例讲到,说一件事差不多20分钟,可能在有人理解就是二十一二分钟,有的则会认为30分钟,1分钟与10分钟的区别。“界限不清,甚至阻碍中国商业文明发展。成熟商业文明的一个原因就是界限划得很清楚,也就是形成一种契约精神,规定得非常细,把任何可能发生的情况全部想到,然后给出相应对策。中国人不愿意定标准,往往只约定笼统内容,真正出了问题肯定处理不好,最后只能一拍两散。更有甚者,明明知道标准,却故意不制定,相反进行模糊化的、自由的裁量。缺乏数据化的精神,是中国商业文明差的一个核心原因。”
收集数据、使用数据、开放数据,都是大数据时代中国人需要一一面对的挑战。这些挑战,也是在大数据时代彻底摘掉“差不多先生”文化标签的重大历史机遇。
数据,从技术到文化
2016年清明节小长假期间,涂子沛的文章《解决清明连环撞,修路不如搞大数据》备受关注,文章推出后,他接到好几个省交通厅相关领导的短信、电话,感谢这篇文章提了醒。把交通事故与大数据联系在一起,涂子沛认为理所应当:“任何一条公路,容量都有限,因此存在一个‘饱和流量和‘科学密度。节假日期间,车辆骤然增多,中国的道路应该进行流量调控。这种调控并非限制特定车辆上高速,而是将相关的数据实时告诉驾驶员,然后用各种方式调控车流。”
作为数据产生大国,中国并非大数据强国。涂子沛根据观察研究,给出自己的见解:“首先是数据权益没有保证。在这种情况下,是商业机构在滥用,每天发短信、推送各种各样信息。滥用很厉害,用得好的又几乎没有;二是对数据不尊重,‘小姑娘的辫子想怎么编就怎么编。中国整个历史循环就是在这里,虚假的东西通过虚假的数据一直沉淀,后来的历史学家难以将之作为研究依据;三是数据不联通,这是大数据得不得很好应用一个最大、最核心的障碍,特别是在公共服务、政府管理领域。几乎全国所有的市民服务中心,目前实现的,都仅仅是物理空间上的人员聚集,数据联通非常有限。”
曾经在办理水、电事务时,被办事大厅里两个相邻窗口里的工作人员重复要求付印同一份身份资料的涂子沛坦言,大数据应用不是技术问题。
2014年5月,涂子沛第二本关于大数据的书籍《数据之巅:大数据革命,历史、现实与未来》出版,并提出“数据文化”理念,传承黄仁宇“數目字”管理的薪火,把数据这个科技符号在中国转变为文化符号,形成一种文化话语体系。
“在大数据时代再看历史学者黄仁宇的‘数目字管理,除了在治理技术上的精细化,更多了譬如隐私权、数据开放、数据标准等新含义。大数据正在撬动中国的制度创新、科技创新。所谓文化符号就是我刚才说的,中国人要习惯量化,用数据把事情说清楚,而不是感性的、感情的、含蓄的、暧昧的、没有边界的表述。改变思维,用数据说话、管理、决策,指导自己的生活。中国人不会用数据管理自己的生活,对数据是麻木的。要把数据变成行动才有用,中国人在这个链条上脱钩了。”
2012年5月,涂子沛著作《大数据》出版,在中国开大数据之先河,引发社会对大数据战略、数据治国和开放数据的讨论。而这本书的面世,甚至比美国最有影响力的大数据专家托克·维克多的《大数据时代》还早出版7个月。这也被涂子沛视为大数据时代信息扁平化流动的典型案例。“我们一点都不慢,我们的理念大家都可以接受,关键是接受程度怎样,又怎样应用。”
过分讲感情,拒绝迈出理性分析的一步,这是涂子沛回国几年来的一种感受。“理性分析就是量化。这是中国文化一个巨大的障碍。我现在发出声音,是期待大数据帮助我们迈出这一步,冲击文明深处的、还没有达到文明高度的基因。我们今天面临的生活事实上就是在全面的数据化,数据表示的是过去,但是表达的是未来,人类一切的努力都是为了更好地去预测未来,而唯一科学的办法就是根据数据。数据当中有规律,数据当中预示未来。”
责任编辑 王碧清