大数据伦理之争

2014-08-26 16:07胡春民
中国工业评论 2014年14期
关键词:维克托基因

胡春民

“两个数据本来没有活性,但是碰到一起就会发生剧烈化学反应,可能有的数据对我来说是毒药,但对别人来说就是蜜糖,所以我们需要通过数据交易和交换使得数据产生价值。”

汪建像一头倔强的驴子,一个做生物基因的,莽撞地闯进了大数据圈。

12年前他走出机关创立了华大基因,先后参与完成了国际人类基因组计划中国部分、水稻基因组计划等著名基因科研工作。他说,人类基因本身就是一个大数据,华大基因的数据库每两年就会增加10倍。目前华大基因租用的超级计算机天河一号、天河二号的使用率分别达到50%和37%。

汪建12年前的血液是“白色”的,被诊断为高血脂、高血压和冠心病,“基本属于没戏了,当时要求我住院,我把我的基因分析了一下,我是一个有出生缺陷的人,所以,现在撑着拐棍,看看能不能争取混进中国残疾人协会”。

幽默和自嘲并没有掩盖汪建和他的华大基因积累的令人惊诧的人类健康数据,当中国最好的医院院长为拥有60T的医院信息化数据而骄傲时,汪建说,“我想了半天,我还是告诉他吧,我一个人有4个T,什么叫大数据,就是人人都要关心、天天都要注意的数据。”

经过基因检测,汪建被确诊为基因出生缺陷,他开始定期检测,“从来不吃任何保健品,看看我缺什么就补什么,看看长期维持怎么样”。而现在汪建高山速降速度达到每小时60公里,还可以玩风帆,登珠峰。

汪建的梦想是,用基因大数据来拯救人的生命,诸如出生缺陷、癌症筛查等。他在“云上贵州·大数据国际论坛”上表示,贵州黔西南是国家的基因宝库,生物多样性,民族多样性,恰恰是疾病研究的宝贵资源。“我们能不能做出10的18次方大数据来控制遗传性疾病,这种山区的遗传性疾病有它的多样性和特殊性,如果能够控制黔西南遗传性疾病,就能控制中国其他山区的遗传性疾病。”

《大数据时代》作者维克托·迈尔·舍恩伯格确认了DNA是大数据巨大载体的说法。他说,DNA上面携带着大量的数据,为了获得这些数据人类花去了数十年和数十亿美元,但在大数据时代,人类找到了探索未知世界的钥匙。

飘浮的相关性

维克托·迈尔·舍恩伯格所说的就是大数据的相关性,即从一类大数据深度分析后可以发现另外一种事物的真相。

微软、雅虎、美国斯坦福大学联合进行了一个项目试验,他们收集了人们在互联网上的搜索信息,测试一个治疗高血压的药物是不是有副作用,却发现它与医治头疼的药物高度相关。他们并没有对化学物质进行测试,只是使用了对互联网搜索数据的分析,却得出了这样的结果,这就是大数据相关性的奇妙之处。

“在大数据时代,我们更加谦卑地认识或者认同人类对于现实的了解比想象的少,也就是说有更多东西我们需要去了解,去发掘,有了大数据我们可以做到这一点。通常我们不容易理解这种非常虚拟的或者比较飘浮的相关性,但是我们可以知道比较科学的相关性。”维克托·迈尔·舍恩伯格说。

维克托非常享受大数据相关性所带来的快感,他举例说,加拿大多伦多市一个大数据研究项目工程降低了早产儿死亡率,就是大数据相关分析的成功典范。“我们应用大量大数据预测之前没有预测到的现象,通过这种相关性给了我们及时的信息。”

该项目的具体做法是:通过数字传感器获得的早产儿每秒钟的身体体征数据,然后对数据进行分析,找到数据当中的规律,这种规律可以帮助他们预测早产儿在未来被感染的可能性,即在最早24小时里可以分析出早产儿会不会出现症状,这样就能挽救了早产儿的生命。

如果没有大数据前瞻性分析,医生单纯从早产儿体征上看很难判断其未来会不会遭到感染,从而错失提前治疗的机会。

维克托把自己对大数据理论的认知总结为:全局优于采样、混杂优于精确、相关性优于因果性。然而,英特尔公司中国研究院院长吴甘沙显然对维克托对相关性的过度崇拜不满意,他认为,大数据理论在重视相关性分析的基础上,也要弄清楚因果性的分析。

“如果我们只是停留在相关性,那与迷信没有差别,因为迷信本身就是基于相关性的一种判断。如果我们不追求因果性,有时候会犯错。比如说Google流感趋势就是一种典型相关性,但是发现它会过度预测而导致疫苗短缺,所以我们看中相关性,也要重视因果性。”吴甘沙说。

有关大数据相关性分析流传甚广的一个故事是,美国一家大型超市发现了啤酒与纸尿裤的相关性,从而促进了销售。

浪潮集团首席科学家、执行总裁王恩东不留情面地说,啤酒和纸尿裤的故事仅仅是大数据的初级阶段,甚至还算不上大数据,只是一个商业智能分析系统,系统本身并不会做预测,更多是在历史数据里找出规律,为决策提供依据而已。

相比王恩东,吴甘沙的言辞更具学术性,他把大数据的概念认知称作“第四范式”:从科学方法论的角度看,大数据探索是继实验、理论、模拟之后的又一种科学方法。

“如果说模拟是一种演绎的方法论,大数据探索更倾向于是一种归纳的方法论,它从大量的数据当中归纳出特别的规律来,这也是大数据一个主要的范式。”吴甘沙说。

“知行合一”的哲学

五百年前王阳明先生在贵阳修文县的龙场悟道,提出了“知行合一”的哲学理念:知是行的主意,而行是知的功夫,知是行之始,行是知之成。那么大数据的知和行分别是什么?它们之间又分别有什么样的关系呢?

德国汉莎航空公司在多年飞行当中收集了很多数据,包括温度、湿度、降水率等,但这些数据在飞完一程后就不用了。现在,汉沙航空把这些数据收集起来,发给了德国国家气象局,通过对汉莎航空300多架飞机飞行数据的分析,德国国家气象局从而把天气预报的准确率提高了8%。

汉莎航空公司的飞行数据应用到天气预报上,就是“知行合一”哲学的具体实践。大数据是“知”,应用才是“行”。维克托把大数据作为可再生、重复利用的资源,甚至比黄金还珍贵。endprint

王恩东更欣赏大数据在不同领域的挖掘价值,“如果能够把天气预报、农业生产、工业生产等数据融合起来,即根据天气变化能够预测粮食产量、旅游情况等,这才是真正充分利用大数据。”

谷歌最早收集道路数据是为地图服务的,但现在这些地图数据可以很好地支撑谷歌的无人驾驶汽车。这种无人驾驶汽车其实就是一个大数据汽车,在行进过程中每秒钟可以搜集几百万级的运行数据,包括道路的宽度、车流量等情况,这些数据可能还会应用到其他领域。

据说谷歌无人驾驶汽车在数年的行驶过程中只发生了两次事故:一次是被在无人驾驶车后面的车辆追尾,一个是无人驾驶汽车车主人工操作而发生事故,这两次事故都是人为原因造成的,大数据没有错。

马化腾说互联网与传统产业能够产生加法效应,实际上大数据与传统产业可以产生乘法效应,这是吴甘沙的观点。他认为,不同产业之间融合能产生数据外部效应,比如传统零售与金融放在一起,就产生了互联网金融或者大数据金融。用交通数据可以发现超市选址的最好地点,可把监测到的司机驾驶行为数据与他的车辆保险联系起来。

农业与金融也能够发生关系,一个非常典型的案例就是国外一家小公司,它拿美国政府开放的气象数据能够算出每一块农田上方的微气象,用它预测恶劣天气的概率,然后帮助农民去投保险,如果真正的灾害发生后,这家公司还可以帮助农民去理赔。

对大数据的重新认知还不止这些。马航370到现在已经失联4个多月了,从3月8日起飞1小时之后就失去联系了,但马航370并没有与地面完全失去联系,因为在飞机每个引擎上都装了20个传感器,每时每刻都在监控引擎的动作,并每隔一小时通过卫星把数据回传给引擎制造公司,总共回传了7次,也就意味着马航飞机失联后还飞了7个小时。

原来收集这个数据的目的是为了当飞机落地时,了解引擎要不要维修。现在国际民航组织已经决定,经由马航370事件的启发,以后飞机上的引擎数据不是一小时传一次,而是每15分钟传一次。

三个敏感话题

汪建的梦想是利用基因大数据来造福人类。他说,出生缺陷、癌症和心脑血管疾病可以影响人类健康和生死的80%,华大基因正在与比尔·盖茨合作一个项目,计划在黔东南或者别的地方建立以预防为主的基因检测数据,并把这些数据向世界分享。

但汪建触及了大数据的三个敏感话题:分享、开放和隐私,个人会把自己的基因给华大分享吗?华大的数据对比尔·盖茨会开放吗?

事实上,大数据里面很大一部分是关于个人的或者私有的,很多人都会担心隐私问题,会担心这些大数据采集公司甚至一些国家会滥用。如果这个问题没有得到成功的解决,人们肯定就不再相信大数据,从而使大数据产业陷入信任危机。

美国国土安全部有恐怖分子的名单,他们向航空公司索要乘客登记名单记录,看是否有恐怖分子,但航空公司不给,因为这涉及到乘客隐私问题。航空公司又去问国土安全部要恐怖分子的名单,这个又是国家的机密。双方都不愿意给出各自的数据,但是双方都希望知道恐怖分子在什么地方。

又比如癌症的研究,癌症是过去50年唯一没有获得突破性进展的疾病,有很多种癌,每个研究机构只有小部分数据样本,如果把这些数据样本融合起来,它就能帮助我们解决这个问题。

“现在数据经常在孤岛里面,大家知道数据与数据之间可能发生化学作用,两个数据本来没有活性,但是碰到一起发生剧烈化学反应,可能有的数据对我来说是毒药,但对别人来说是蜜糖,所以我们需要通过数据交易和交换使得数据产生价值。”吴甘沙在批判大数据的信息孤岛问题时,比喻十分形象。

但大数据在不同经济主体或机构之间自由分享也是不现实的,因为如果一个公司花几百万元去搜集数据,如何让另外一家公司在使用这些数据时获得经济补偿。维克托·迈尔·舍恩伯格建议应建立大数据市场,创建大数据所有权或者数据产权保障方面的法律体制。

吴甘沙认为,如果不尊重数据权利,就不能够让数据从孤岛里面出来进行交换和交易。数据交换,其实对传统产业来说未必是坏事。因为传统产业拥有大量数据,这是历史优势,法国的标致雪铁龙就是把大量的数据拿出来,变成了一个数据服务的企业,实现了自身的华丽转身。

不过,当大数据加速发展的时候,可能会出现“杰文斯悖论”,即经济学家杰文斯在研究煤炭的使用效率时发现,原本以为效率的提高能满足人们对煤的需求,然而结果是,效率越高,消耗的煤就越多。

如果把大数据看作像煤炭一样的资源,“杰文斯悖论”可能是一个福音,大数据产业或许将迎来一个梦幻年代。endprint

猜你喜欢
维克托基因
做爸爸那样的英雄
大侦探福尔摩斯5
修改基因吉凶未卜
基因事件
我不是海豹也不是企鹅
基因
说大话的维克托
基因搜索仪
基因小子
“基因的表达”一节的学案