·专题·
引言:2012年美国奥巴马政府发布了“大数据研究和发展倡议”,正式启动“大数据发展计划”。《Science》与《Nature》分别于2008年、2011年推出了大数据专刊。2012年达沃斯世界经济论坛把大数据列为主题之一,2013年我国第462次香山科学会议的主题为“数据科学与大数据的科学原理与发展前景”。IBM、Amazon、Google、Facebook等国际知名企业都宣布或实施了大数据研发计划,并进行了实际应用。麦肯锡、Gartner等公司分别发布了关于大数据的行业分析报告,对大数据的影响、关键技术和应用领域等都进行了详尽的分析。
情报分析,也被称为情报研究或信息分析,是根据用户的特定需求,对大量纷繁无序的信息进行有针对性的选择、分析、预测,为用户提供系统、综合、准确、及时、大流量的知识与信息的智能活动。由于情报分析是以数据、信息等情报源为基础的信息采集、管理、分析和服务的工作,本身就是一项数据分析和数据挖掘工作,正是因为如此,大数据理念和方法,正在深刻地影响着情报研究的理论和实践,也成为了情报学研究的热点课题之一。
在这种背景下,我们于2014年申请了国家社会科学基金重点项目“大数据环境下的计算型情报分析方法与技术研究”(项目编号:14ATQ005),得到了国家社会科学基金委的肯定和批准。本专题的四篇文章就是该项目的初步研究成果。
第一篇是“从棱镜计划看大数据时代下的情报分析”,这篇文章并没有讨论棱镜计划中的隐私及保护问题,而是更深入地揭示了棱镜计划背后隐藏的情报现象,全面剖析了棱镜计划的本质,分析了棱镜计划的数据基础、分析过程与方法、实施目标,并对大数据时代下的情报分析进行了探讨。棱镜计划的真正目标是运用大数据进行情报分析,从大量数据中发掘出有价值的情报,为战略决策提供全面准确、客观有力的支撑与参考服务,这是大数据时代情报分析的重点,也是情报从业人员的关键能力所在。
第二篇是“不同领域的情报分析及其在大数据环境下的发展”,旨在从宏观角度探讨不同领域中的情报分析之间的学科差异。大数据时代本身,各行各业都在重视情报研究工作,有些学科领域不仅有自己的情报分析,而且这种情报分析本身就是这些学科领域的核心内容和特色。但是,这些情报分析又都不可避免地打上本学科领域的烙印,不可以一言以蔽之。本篇文章的目的是揭示情报分析的学科差异,反映情报分析的学科特点,并探讨大数据环境下各学科领域中情报分析的发展。
第三篇是“大数据分析的方法及其在情报研究中的适用性初探”,大数据的价值不仅仅在于数据量,大数据的核心理念之一是大数据分析,即对海量的数据进行分析,从中获取有助于决策的信息。目前,大数据分析方法已经成为大数据领域的热点研究问题,而且,这些研究的内容对情报研究方法有借鉴意义,本篇文章梳理了当前大数据分析方法的研究与实践成果,总结了常见的大数据分析方法,探讨了这些方法在情报研究中的适用性。
第四篇“基于关联规则的术语自动抽取研究”是一篇实验类的研究论文。情报分析的第一步是要厘清文本中的各种概念,而概念又是用语词来表达,因而,从文本中抽取出跟踪术语,特别是抽取出由复合语词组成的术语,是自动化情报分析的重要和基础技术环节。本篇文章探讨了关联规则方法用于术语抽取的可行性。文章通过试验验证了关联规则可以很好的完成复合术语的识别和抽取问题,而且,与现有的方法相比较,关联规则方法具有实现简单、占用系统资源少、没有学科和语言的依赖性等优势。
北京大学信息管理系李广建