中国全功能接入互联网已有20年的历史,互联网在为人们提供便利的同时,也给教育科技的发展带来了巨大的益处,并步入了以云计算和大数据为特征的科研信息化时代。面对庞大的数据信息,如何进行数据处理,如何进行计算成为大众关注的热点问题。对此,中国科学院院士、北京航空航天大学校长怀进鹏在近日举办的“CERNET第二十一届学术年会”上发表的主题演讲里做了详细分析,并就互联网大数据时代下新型计算模式进行了探讨。
大数据出现以前人们只关心算法,现在则会有新的挑战性的问题:原来可近似性的问题,在大数据面前就不能近似了。这就需要不仅要考虑到算法近似,还要考虑数据近似以及结果的近似。
根据吉尔德定律,主干网带宽每六个月加一倍,而每比特的费用将趋于零。20年来,IT技术不断发展,计算速度和存储能量也产生了巨大变化,CPU性能提高了3500倍,但内存和硬盘的价格却分别下降了45000倍和360万倍,在此背景下,提供了一个完全与众不同并且不断加速的空间,即宽带的速度远超过摩尔速度时,所有终端计算都进入网络计算,离线进入了在线时代。
互联网为人们提供更多更好的服务,随着互联网不断发展,特别是在进入移动互联网时代后,计算模式和技术都有了新的变化。如何建立一个更加开放的环境,从而使研究和教育更加有效日渐引起人们的关注。
最近几年,“大数据”频频被提及,人们对其的关注度也越来越高。数据处理一直是计算机技术、信息技术的一个重要内容。进入虚拟计算这样一个新的环境的时候,实际上已经表现出向终端到网络化、应用的智能化和系统管理的虚拟化的发展。同时,也带来了不同时期的变革。
第一次变革来自于PC时代,按许可证购买版权,软件成为商品。第二次变革就是在互联网时代下,基于互联网的信息服务业。互联网给我们带来了巨大的影响,促进了产业和学术的发展,这两次重要的变革都对实际的应用产生了重要的影响,比如CERNET就在发展推动研究和教育中有着不可或缺的巨大历史贡献。而第三次变革则不得不思考,云计算与大数据时代产生的新机遇。如今进入了用户产生内容、移动互联的新时代,将有可能出现一种新的机会和新的情况。随着移动终端数量的不断增长,这些终端所产生的数据和内容,以及为这样的内容所提供的服务会产生一个新的变化。这种变化不是商业模式的改变,而是其背后的数据分析时代的到来。未来互联网将创造出新的价值,是否以数据与服务为中心值得期待。如何有效地提供并支撑好数据库,并将其融入到教育事业中去,也是值得去思考的。
大数据的出现,带来了一定的好处,但也产生了一些问题。2010年,《经济学人》杂志做了一个关于“Data Deluge(数据泛滥)”的专题,指出信息从稀缺走向极大丰富,在带来便利的同时也导致大麻烦。例如,银行的评估机构拥有大量的数据,但依然无法预测出2008的金融危机。因此,当数据泛滥、无处不在时,如何去认识并利用数据是需要多加关注的。当然,大数据也确实给人们带来了很多机遇,并成功应用于传统医学研究、生物信息、高能物理等领域。
由于大数据的产生,谷歌在2008年通过庞大搜索数据训练4.5亿个数学模型,提前几周预测出H1N1流感在美国地区的爆发和传播,其准确的地域覆盖人群和基本特征都非常明确,这也使得医学专家,特别是医疗疾控领域专家对此刮目相看。另外如阿里巴巴、百度也有很多利用大数据分析的有效结果。因此,随着互联网不断变化,它已经从一个通讯的平台进入到计算的平台,而这种计算的平台改变了人们现在经济社会的生活。
众所周知,量变是容易把握和认识的,而质变则是很难发现的。对于未来发展,大数据是不是有科学价值,则需要像“盲人摸象”一般,不断地去探索。通常,科学研究有三个模式,分别是理论研究、实验研究和计算研究,那么针对第四种模式——数据密集型的科学发展正在被人们所认识和利用,一些基于实验科学所开展的工作有相当一部分源于这种模式。
大数据是否会改变过去的计算模式?显而易见,互联网的出现改变了人们的交流方式,而大数据处理则改变了经济和社会方式。
第一,从抽样向全样转变。大数据具有 4V(volume、velocity、variety、value)特征,即规模大、变化快、种类杂、价值密度低。在过去的计算的模式下,以抽样、统计数学为主要特征。而在数据规模十倍、一百倍、一千倍变化的时候,过去的算法并不适用,这就需要全样的分析。
第二,从精确计算向非精确计算转变。过去追求的精确计算,期望得到准确的解答。大数据下精确性不再是绝对追求目标,需对宏观趋势给出快速预测,上网的搜索未必得出唯一的内容。
第三,从因果向关联转变。过去做科学研究,不仅要知其然,还要知其所以然。但在大数据面前,仅需知其然,无需知其所以然,用于“发现事实、预测未来” 。
同时,大数据的计算具有相似性(inexact)、增量性(incremental)和归纳性(inductive)的特征,因此,要以这三个特征为基础去研究它的算法和复杂性。研究在如此广泛的数据下,是否会出现新的计算模式。
随着互联网的进一步应用,有可能出现以数据科学和理论为代表的新型计算模式。数据计算科学对计算理论、数据表示和学习方法提出新的挑战,这也许是数据科学和技术的转型。
实际上,可计算问题是计算机科学的本质问题,而算法是一切计算问题的核心。公式G=F(X)中,F是算法,那么过去关于“F”做了哪些工作?70年代以前一直做算法研究,到了70年代发现有NP问题,而80年代出现了随机化算法,90年代发现近似算法。目前,在大数据时代,计算复杂性与算法是否面临新的问题?
在大数据下,传统认为易解问题可能成为“难解”问题。因为通常说大数据是指算不了的数据,如采用最快硬盘读取速度6Gbps,仅线性扫描,1PB数据扫描下来需1.9天;1EB数据则需5.28年;但是,百度一天处理网页数据超过10PB,把这些数据扫描下来则需要19天,所以大数据是目前处理不了的数据。
大数据出现以前人们只关心算法,现在则会有新的挑战性的问题:原来可近似性的问题,在大数据面前就不能近似了。这就需要不仅要考虑到算法近似,还要考虑数据近似以及结果的近似。
在大数据下的计算,太小的数据无法计算,数据太多则精度不够。因此需要有新的计算模型,通过信息计算的方法,把数据以存储感知为基础,再加上计算联动的方式。未来,在这一领域将有很多新的结果,如何把多个资源融合和扩大提供服务,也引起学术界重视,图数据搜索正在成为新型“社会搜索”引擎。
此外,通过分析20万的新浪用户的7000万条的微博数据,发现愤怒是相关性最强的情绪,其次是高兴、低落和厌恶,这也验证了中国的一句俗语:“好事不出门,坏事传千里”。这一发现结果也被90多个国家的数百家媒体报道。
当然,在未来的互联网这个大数据应用当中,依然会面临的一个问题就是数据安全和系统安全,这是大数据研究中非常重要的。数据需要开放和透明,某个人的基本信息是可以开放的,但是作为隐私的数据是可以单独保留的。
在研究过程中,希望通过无序的数据能够找到它信息的关联图谱,通过信息图谱的深度融合和发掘,能建立起知识图谱而不是孤立的事件。通过关联融合形成的知识图谱,能对某一类的问题或现象有一个判断和认知。例如,在UGC下,是否有可能通过用户产生的数据做出预测分析,通过数据计算给人工智能和认知科学带来一个新的思考。
目前,主要还是以数据科学研究计算,通过它来进一步延伸进行迁移学习、自主学习等。其目的是形成知识的关联和构造出的复杂结构,能够为社会科学、传媒学、社会经济以及互联网发展提供数据的支持。
一位管理大师曾说过:“重要的不是趋势,而是把握趋势的转变”。尽管有很多难度,但是对数据的认识还是可以不断进化的。如果可以来利用这样的样本规模,通过不同方式的学习,使机器真的开始有学习记忆、认知,并且能够具有自主性。那么,看似无序的数据分析,却可能通过认识数据的外部功能和构造,来形成新的智能研究的方法,这也是一件可以探索的事情。