胡昭阳/编译
●为了充分利用迅猛增长的电子数据,奥巴马政府于去年3月29日发出了“大数据研究和发展倡议”,并为之投入2亿美元研发经费。
倡议书宣布将发展从巨量复杂电子数据中获取知识和洞见的能力,帮助美国应对当前的紧迫挑战。超过2亿美元的落实资金来自美国联邦政府的6个部门,他们承诺将大力改善从大数据中获取、组织和收集各种新发现的工具和技术。
据总统助理、白宫科技政策办公室(OSTP)主任约翰·P·霍尔德伦(John P.Holdren)博士介绍,“过去联邦政府曾用类似的方式投资信息技术领域,促进了超级计算的显著进步和互联网的诞生。今天我们提出的这一倡议是为了变革我们使用大数据的能力,为科学发现、环境保护、生物医学研究、教育以及国家安全领域提供支持。”
为了抓住此次机遇,OSTP将和多个联邦政府部门合作,提出的大数据研发倡议包括:推进收集、存储、保存、管理、分析和共享巨量数据的尖端核心技术研发;利用上述技术加速科学和工程的新发明,加强国家安全,变革教与学的模式;增强开发和运用大数据技术需要的人才力量。
此次倡议是对2011年总统科学和技术顾问委员会提出的一份建议的回应,该建议认为联邦政府对大数据相关技术投入力度不足。作为响应,OSTP成立了大数据高级指导小组,以协调和拓展政府在这个关键领域的投资。根据发出的公告,政府响应该倡议的第一轮项目包括以下内容。
美国国家科学基金会(NSF)和美国国立卫生研究院(NIH)将联合招标“大数据”项目,推进信息管理、分析、可视化以及从大量多样化数据集中提取有用信息的核心技术。这将加快科学研究发现,并将开启一些原本不可能实现的新领域。NIH还对与影像、分子、细胞、电生理学、化学、行为学、流行病学、临床和其他与健康和疾病相关的数据集特别有兴趣。
除了提供资金招标大数据项目之外,NSF的举措还包括:鼓励研究型大学开发交叉学科研究生项目,培养下一代数据科学家和工程师;向加州大学伯克利分校提供1 000万美元的项目经费,研究集成三种将数据转化为信息的重要方法:机器学习、云计算和众包;为“地球立方”系统提供第一轮资金,该系统将允许地学科学家访问、分析和共享地球信息;向研究训练机构拨款200万美元,培训本科生使用复杂数据图形和可视化技术;提供140万美元,支持一个测定蛋白质结构和生物通路的统计学家和生物学家重点研究小组;召集跨学科研究人员,确定大数据如何改变教与学。
美国国防部为大数据掷下大赌注,每年将向一系列跨军事部门的项目投入2.5亿美元 (6 000万美元用于新研究项目),包括:使用新方法管理和利用海量数据,集成传感、感知能力和决策支持,建立真正的自治系统以实现操作和决策的自动化;提高情境感知意识帮助作战人员和分析师,为他们提供更多的操作支持。国防部正在探寻比分析师高100倍的能力,以从所有语言文本中提取信息;该能力还将实现在目标、活动和时间上都显著超过分析师能观察的数量。
为了加快大数据创新速率,达到上述及其他目标,国防部将在接下来的数月公布了一系列开放式有奖竞赛。
此外,美国国防部高级研究计划局启动了XDATA计划,该计划每年将投资约2 500万美元,开发计算技术和软件工具,分析半结构化(如表格、关系、分类数据和元数据等)和非结构化(如文本文档、数据流量等)海量数据。该计划的主要挑战和目标包括:开发处理分布式数据存储中不完整数据的可扩展算法;开发高效的人机交互工具,并可以根据不同任务的视觉推理需求迅速进行定制服务。
XDATA计划还将支持开发源代码软件工具包,方便用户在进行特定时间、特定需求的目标防御任务中灵活开发软件,处理大量数据。
NIH宣布,已经在亚马逊网络服务(AWS)平台上,免费共享了世界上最大的人类基因组数据集,也即全球千人基因工程项目的研究结果。该数据集是大数据的一个典型案例,这些数据共有200TB,大小相当于1 600万个文件柜的文本信息量,或3 000张标准DVD的容量,有运算能力处理这些海量数据的研究人员少之又少。AWS已经将千人基因工程数据作为公共资源免费共享,研究人员使用这些数据时只需要支付计算费用。
作为该项目的一部分,美国能源部将提供2 500万美元的基金来建立可扩展的数据管理、分析和可视化研究机构。劳伦斯·伯克利国家实验室将牵头组织6个国家实验室和7所大学的专业研究力量,目标是研发新工具并改善现有工具,帮助科学家们对数据进行管理和可视化操作。由于能源部所使用的超级计算机的容量和复杂性都在不断增长,对于能在这些计算机上进行模拟运行的新工具的要求也在相应提高。
美国地质勘探局宣布将最新的研究奖励授予其下属的约翰·卫斯理·鲍威尔中心,以表彰该中心在分析和综合工作的成就。该中心通过向科学家提供场所和时间,以及深度分析、尖端运算和协同合作理解大数据集的工作条件,催生地球系统科学的创新思维。这些大数据项目将增强人类对于气候变化、地震复发率,以及下一代地址指标等问题的理解和应对。