苏云梅,武建光
(山西医科大学,太原 030001)
大数据之下我国情报学面临的挑战及应对策略
苏云梅,武建光
(山西医科大学,太原 030001)
摘要:文章从大数据入手,简要概述了大数据的“4V”特征和我国情报发展简史,进而分析了大数据下我国情报学在实践、技术、理论与情报共享四方面所面临的挑战,并从实践层面、技术层面、人才培养、情报领域研究四个方面探讨了应对策略。
关键词:大数据;情报学;情报理论;情报技术;情报实践
随着计算机技术、通信技术、网络技术与设备的完备和发展,各种电子技术的相互融合,人们从远古时代的信息贫乏到如今的信息泛滥、信息污染、信息噪音、信息综合征。大数据之下情报学面临哪些挑战,是所有情报人所要思考的问题。
1大数据与情报学
大数据是指在一定时间内无法用一定工具对其内容进行抓取﹑管理和处理的数据集合[1]。数据科学家John Rauser提到一个简单的定义:大数据是超过了任何一台计算机处理能力的庞大数据量[2]。IBM公司提出大数据的“4V”特征:更大规模(volume)、更实时(velocity)、更多样化(variety)、价值密度低(veracity)[3]。
起始于1956年的新中国科技情报事业,在创立之初被赋予了“耳目、尖兵、参谋”的功能与重任。20世纪90年代末,开始从知识经济的角度组织、分析和利用知识。随着信息化的推进,研究领域渐渐拓展到企业信息管理、竞争情报分析、信息共享、个性化信息服务等一系列研究领域。情报从本质上讲是特定用户在特定时间解决特定问题需要的数据、信息和知识。情报要借助一定的媒介、工具,克服时间和(或)空间的障碍,方可传递到用户手中。大数据环境下,情报学已成为信息社会的强大支柱,并与物质、能量并驾齐驱。情报是关于特定问题的信息的集合。情报是包含在信息之下的种概念。情报学是研究情报的搜集、传递、管理以及应用的一系列过程的规律、方法和技术的学科。信息学则是研究信息的获取、组织、传递和利用规律的新兴学科。从学科概念定义上我们不难发现情报学与信息学有着很大的相似性,都是研究情报(信息)的获取、处理、传递和应用过程的规律、方法和技术。而情报学是最早涉及信息问题的学科,大数据之下情报学借助信息学的理论与方法,展现出无限活力。
2面临的挑战
2.1 理论方面
情报学的基本原理,信息的失真与保真,信息传递交流模式等内容在大数据环境下还有待进一步探索和研究。大数据之下传统情报理论是否依然可以解释诸如信息爆炸、实体关联性等新现象?传统影响因子在网络环境下如何确定?是以浏览量衡量、下载量衡量,还是以转载量评价?选择哪一种或哪些指标更能客观评价影响力?如果从受众面来衡量,浏览量无疑是个很好的参考量;如果从学术价值影响上看,被引量可能更有说服力。在评价时我们从哪一层面进行?综合评价某位作者的影响力时各层面的比例如何分配?解决这一问题还要看研究的目的,目的不同所采取的指标、比例有差异,最终分析结果也会有所不同。这一系列问题还有待进一步探讨研究。
2.2 技术方面
具体可表现在:信息侵权和安全问题,信息污染和非结构化数据。网络空间存在着巨大的开放性,人们进出自由方便,任何人都可以通过任一节点获取信息。一方面,一些不法分子借助网络的开放性窃取他人信息、恶意下载信息、恶意篡改信息,严重扰乱了互联网安全。另一方面,任何人都可以通过联网计算机发布信息,发布信息的权利开始走向平民化,但我们又不得不面临信息质量参差不齐的尴尬,使得情报价值大打折扣。如何加强网络安全的保密工作?如何抵制不良信息的发布?这些挑战不仅是计算机科学家、信息科学家要解决的问题,同时也是情报学家要突破的难关。非结构化数据难以用特定语言描述,在大数据背景下,非结构化数据大量涌现,任何数据信息都被视为有价值和可参考的,这对传统数据库提出挑战,非结构化数据成为情报数据分析的重点。
2.3 应用实践方面
其一:在进行情报搜集时,UGC内容中的日志、微博、网民评论、视频等内容都有可能成为情报工作分析处理的对象。而这类信息缺乏严格的监管与控制,碎片化的内容更零散、更复杂。例如我们要进行某一突发事件处理结果的网民满意度调查,初期情报收集时,如何确定情报搜集对象?所需情报是哪些类型?如何确定视频、图片情报中网民的价值取向等这一系列问题还有待思考与商榷。其二:情报服务问题。大数据之下,人们对情报检索的要求更加苛刻,传统单一的仅仅满足于文献出处的情报检索难以为人们所接受。人们更加苛求智能化检索、多语言情报检索、全文检索,甚至是系统自动对外文检索结果进行翻译。这些都是大数据之下情报服务所面临的挑战。其三:情报应用的具体领域还缺乏知识性的结论。例如阿里巴巴旗下的淘宝、天猫电商拥有大量的商家和注册用户。用户的商品搜索数据,用户的购买偏好,用户的消费能力等一系列情报资源,如果形成情报分析报告和结论,可指导商家有针对性地供货及定价。同时可为用户提供偏好产品,大大减少用户浏览时间。对此阿里巴巴成立大数据分析小组和数据分析团队。而其他行业领域这种有针对性的、专业化的大数据情报分析研究还少之又少。
2.4 共享和保密的平衡
大数据下人们倡导情报共享,在公共事务处理中,一些情报资源实施共享机制,可提高办事效率。如在公安系统案件侦破中有意识地促进情报资源共享,可及时将不法分子捉拿归案。这在打击跨国犯罪时,各国间情报资源的共享尤为关键。另一方面,情报的保密性又是情报的专有属性,一旦对情报广而告之,情报也就不再称其为情报。从情报搜集者、拥有者的角度讲,这些人更倾向于情报的保密。情报拥有者在情报获取过程中花费了大量人、财、物力。一些技术情报是企业内部的机密甚至是绝密,正因为对这些技术情报的垄断,才使企业在行业中成为龙头。情报共享与情报保密从不同群体的角度来衡量,其价值取向是不同的。那么在大数据之下解决这一问题时,我们站在哪一群体的角度来做取舍,如何平衡共享与保密的矛盾还有待探讨。
3应对策略
3.1 理论对策
大数据时代,情报学的研究领域从单一领域转向全领域,综合利用多种数据源,注重新型信息资源分析[6]。由于信息浪潮的冲击,各门学科都在与相关学科交叉融合,不断地扩大研究领域,在此基础上产生了分支学科、交叉学科。情报学也不例外,吸收借鉴其他学科的理论和研究方法,可使得情报工作更有针对性,提高工作效率。例如信息用户研究,更多地要借鉴心理学的相关知识。在情报服务、情报理论研究和情报实践中,专业情报人才的培养同样势在必行。未来数据科学家是情报收集、存储、管理、挖掘和分析的主力军。他们借助一定的数据分析软件,发挥他们的综合知识优势,拨开大数据的迷雾,真正将数据信息应用于趋势预测、危机预警和管理决策等实践中。
3.2 技术对策
对大数据之下的垃圾信息,在情报数据分析时可采取过滤机制。数据挖掘分析时,情报人员可针对被观察对象的特点或一个事件所处状态,采用一定取样标准(词频取样、词与词的共现取样、时间段取样、特定词取样等)选择和过滤相关数据,可大大减少结果偏差。以快递业务数据管理系统为例:在数据系统的开发阶段,开发人员根据客户需求,系统开发人员除了设计系统整体功能还应该设置数据过滤程序并嵌入整体程序中,其目的是规范用户的数据输入。当用户输入信息有误或不符合提前设定规则时,激发数据比较程序,并将错误信息反馈给用户。数据过滤程序中可设置邮编字段、邮编数组长度、地理区域字段(省、市、县、乡)并设置规范表达。为防止用户输入地址不一致,可在程序中嵌入地理区域查找表,让用户来选择,可减少不一致性。为了方便数据在时间上的管理,可设置时间字段组。当需要对快递业务进行数据挖掘分析时,由于设置了邮编、区域、时间等不同字段,可根据需要有针对性地筛选过滤数据(流程见图一)。如需要分析某城市在某一年内快递业务变化情况,以确定下一年度该城市是否增加快递网点时,为了减少数据冗余,可筛选时间年度字段和城市字段。这样,减少了冗余和不相关数据,提高了数据精准度和分析质量。解决海量数据的另一措施是实体识别与实体关系识别。所谓实体识别是指在情报数据中识别出表现现实世界的具体或抽象的对象。首先人工辅助标注语料,然后交给机器按照标注的语料进行识别实体,按文档中某一语料识别的频率来确定是否识别。在实体识别过程中,支持实体关系识别。例如识别某一突发事件与事件处理机构的关系,识别机制中设置关系亲密等级,这样在进行情报搜集时可确保最相关实体进入分析数据库,不相关数据排除在外。在处理非结构化数据时,首先对这些数据进行清洗,然后对这些数据进行分类处理并存储于相应数据库。最后在进行情报分析时,将这些数据库按相关性进行组合合并。如建立客户合同数据库,分析客户合同变化情况,将客户数据库与合同数据库中的数据分别导入数据分析系统中进行分析,这样可使分析更容易、更有针对性。
图1 数据过滤采集流程
3.3 实践对策
在解决应用实践挑战的问题时,情报人员首先要立足具体领域,根据具体的研究领域作出情报分析规划。情报收集时注意提前做好搜集计划,对搜集到的情报资料进行分类、聚类整理。情报结果分析时,除了简单的统计、结果呈现外,情报人员应试图对分析结果进行解释;对情报结果的关联性进行分析;形成情报分析报告为用户所用。情报服务机制问题,可在各行各业中解决。智能检索、多语言检索以及检索结果的自动翻译更多地需要人工智能、机器学习、文本采集技术的支持。这些技术对计算机掌握能力要求高,更多地要从技术层面来解决。在具体领域的情报研究中,成立行业情报资源数据库,对该行业的全部数据进行集中式采集、存储、管理和利用,实现全领域情报资源共享。
3.4 平衡对策
情报共享与情报保密平衡问题的解决,在不同性质行业中可采取区别对待的原则。在公共事业中,如医疗卫生领域、公安系统、教育文化产业部门,国家可搭建和倡导行业情报资源共享平台。而在商业领域的技术情报,一方面要顾及情报拥有者的利益,国家信息产业部门建立完善的知识产权、专利保护政策法规,以保护情报开发者的合法权益;另一方面要综合市场需要,相关技术的普及程度,情报拥有者的投入比例等综合因素,确定情报保密年限,以便情报资源及时开放、及时共享。
结语
我国情报学于20世纪50年代起步,应用实践、理论基础与相应技术都渐成规模。而大数据的到来,又给情报学带来一定的冲击和挑战,尤其在实践、技术和理论方面。应对这些挑战可从提高情报服务质量,建立行业情报库,提高技术手段,转变情报研究重点以及人才培养等方面入手。未来情报学走向如何,有哪些问题要解决,还需要一代代情报学人的关注和解决。
参考文献:
[1] Big data [EB/OL] . http://en.wikipedia.org∕wiki∕Big data. 2012-08-18.
[2] Philip Russom.big data analytics[EB/OL].http://www.docin.com/p_340502098.html. 2012-08-01.
[3] 戴维民.信息组织(第三版) .北京:高等教育出版社.2009.
[4] 郭志懋.数据质量和数据清洗研究综述[J] .软件学报,2012,12(11):22-28.
[5] 黄晓斌,钟辉新.大数据时代企业竞争情报研究的创新与发展[J] .图书与情报,2012,(6):9-14.
[6] 李健,杨林.大数据视角下的情报研究与情报研究技术[J] .图书与情报,2012,(6):1-8.
(责任编辑:傅正)
Challenges and Countermeasures of Intelligence Science in China in the Era of Big Data
SU Yun-mei, WU Jian-guang
(Shanxi Medical University, Taiyuan030001, China)
Abstract:This paper firstly briefly describes “4V” characteristics of the big data and informatics development history in China, analyzes deeply the challenges which informatics in China faced in practice, technology, theory and information sharing, and puts forward countermeasures from practical level, technical level, personnel training and information science research.
Key words:big data; Intelligence; Intelligence theory; Intelligence technology; Intelligence practice
中图分类号:G250.2
文献标识码:A
文章编号:1006-1525(2016)02-0009-03
作者简介:苏云梅,女,馆员。
收稿日期:2015-11-08