大数据时代企业竞争情报研究的创新与发展

2012-04-29 00:44黄晓斌钟辉新
图书与情报 2012年6期
关键词:情报研究数据量情报

黄晓斌 钟辉新

摘要:文章概述了大数据的主要特征,分析了大数据对企业竞争情报研究的影响,包括企业竞争力的提升需要大数据的支持,现有企业竞争情报数据处理面临的一些新问题,企业竞争情报分析方法亟待创新,提出在大数据时代企业竞争情报研究的发展方向,应重视数据和信息的集成、注意对数据的清洗与过滤、关注新的数据类型的挖掘分析方法、促进数据分析的可视化、探索大数据新的分析技术和工具的应用等。

关键词:大数据企业竞争情报数据挖掘

中图分类号:G250.2文献标识码:A文章编号:1003-6938(2012)06-0009-06

1引言

随着信息技术的不断发展,互联网的普及利用,各种终端设备记录了人类社会复杂频繁的信息行为从而产生了惊人的数据量。据国际数据公司(IDC)的研究报告称,2011年全球被创建和被复制的数据总量为1.8ZB,并预测到2020年,全球将拥有35ZB(1ZB=10亿TB)的数据量[1]。大数据已经渗透到每一个行业和领域,被视为“未来的新石油”,逐渐成为重要的生产因素。随着消费者、企业、各个经济领域不断挖掘大数据的潜力,我们正处在一个巨大浪潮的尖峰,这个浪潮就是大数据驱动的技术创新、生产率提高、经济增长以及新的竞争形势和新价值的产生[2]。近年来,大数据技术研究和应用迅速发展,许多国家已经意识到了大数据的重要性,并作为战略性技术大力推动其发展,大数据时代已悄然而至。

2大数据的含义与特征

目前对大数据还没有标准的定义,通常认为它是一种数据量很大、数据形式多样化的非结构化数据。亚马逊网络服务、数据科学家JohnRauser曾提到一个简单的定义:大数据是任何超过了一台计算机处理能力的庞大数据量[3]。维基百科定义为:大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合[4]。百度百科定义为:大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。从各种各样类型的数据中快速获得有价值信息的能力,就是大数据技术[5]。IBM从三个基本特性角度来定义大数据,即:“3V”:体量(Volume),速度(Velocity)和多样性(Variety)。也有人为大数据包括三个要素,即:大分析(BigAnalytic)、大带宽(BigBandwidth)和大内容(BigContent)[6]。

概括起来,大数据的特征主要体现在如下几个方面:

(1)数据总量规模增长巨大。同一类型的数据在快速增长,目前在传感器网络、地理信息导航系统、社会网络(如微博)、即时通讯(如QQ)、电子商务(如淘宝)、数字图书馆、网络日志等领域都产生了庞大的数据,规模在不断扩大。如淘宝目前每天活跃数据量已经超过50TB,共有4亿条产品信息和2亿多名注册用户在上面活动。零售巨头沃尔玛每小时都要处理100多万笔客户交易,数据库估计超过2500万亿字节——相当于美国国会图书馆书籍数的167倍,而移动互联网用户发送和上传的数据量达到1.3EB[7]。

(2)数据增长的速度呈指数级持续增长。目前很多领域的数据都以惊人的速度增长,根据WinterCorp的调查显示,最大的数据仓库中的数据量每两年增加3倍(年均增长率为173%),其增长速度远超摩尔定律增长速度。照此计算,2015年最大数据仓库中的数据量将逼近100PB[8]。大数据的动态性强,要求分析处理应快速响应,在动态变化的环境中快速完成分析过程,有些甚至必须实时分析,否则这些结果可能就是过时、无效的。如导航定位系统、股票分析系统等对数据实时处理有着较高的要求,大数据分析和处理的方法必须能快速地适应相关业务更新频率加快的需求。

(3)新的数据来源和数据类型在不断增加。目前产生大数据的领域在不断增加,数据类型不仅包括普通文本、照片、动画、音频与视频等,还有像位置信息、链接信息等新类型的数据。伴随着社交网络、移动计算和传感器等新技术不断的应用,大数据中有许多是非结构化数据或半结构化数据,没有特定的描述模型,数据结构是不固定、不完全或不规则的。

(4)数据的价值日益突现。大数据犹如一座富矿,通过海量数据的处理、整合分析,可以发现新的知识,从而创造新的更大的价值。大数据为许多行业带来新的商机和发展机遇,充分利用大数据可为企业带来强大的竞争力。大数据分析能从庞大的数据中发现稀疏而有高价值的知识和规律,为预测和决策提供相关支持。如视频监控的数据量通常十分大,虽然绝大部分可能没有实际利用价值,但几秒镜头捕捉到某罪犯体貌特征,可能对公安部门而言就是十分珍贵的。大数据分析就是要进行披沙拣金,发现这些珍贵的信息。

综上所述,对于大数据中“大”的理解,主要有两个方面,第一是指大量的、快速增长的数据,第二则是数据中所蕴含的价值量较大。可见,大数据之“大”,并不光是指数据的数量之大,它的意义还在于数据的价值之大。

3大数据对企业竞争情报的影响

情报研究是利用数据和信息提炼出有价值的情报,为决策提供有关方案,也就是对数据进行处理、组织和解释,以揭示其潜在的知识,转化为可执行利用的情报。企业竞争情报分析就是从原始的数据中发现关于竞争环境、竞争对手和竞争策略情报的过程,从而形成高附加价值的产品。因此,大数据分析在对象、运用的方法和目标等方面都与企业竞争情报研究有许多交集,大数据的兴起必然对企业竞争情报产生深刻的影响。

3.1企业提升竞争力需要大数据的支持

数据竞争已经成为企业提升核心竞争力的利器。来自各个方面零碎的庞大数据融合在一起,可以构建出企业竞争的全景图,洞察到竞争环境和竞争对手的细微变化,从而快速响应,制定有效竞争策略。庞大的数据更具有统计意义,能为各种预测模型提供支持,从而能预测未来的发展趋势,帮助企业获得先机。相关的数据整合在一起,能不断产生新的信息和知识,有助于提高生产率、降低经营成本。如2008年初,阿里巴巴平台上整个买家的询盘数急剧下滑,自然导致买盘的下降,说明欧美对中国采购量在下滑。海关是卖了货出去以后再获得数据,而阿里巴巴提前半年时间就从询盘上推断出世界贸易发生变化了[9]。企业的竞争不再只是劳动生产率的竞争,而是知识生产率的竞争。数据是信息的载体,是知识的源泉,是企业创造价值和利润的原材料,因此,基于知识的竞争将集中体现在基于数据的竞争上。正如马云所说,未来是数据竞争的时代,谁拥有数据,谁就拥有未来。如今各行各业都出现了以数据分析为竞争力的企业,它们都是在数据分析的基础上与其他企业展开竞争,以提升核心竞争能力,保持或获得行业领先地位,如谷歌、宝洁、沃尔玛等世界知名公司。沃尔玛就建立了一个超大的数据中心,其存储能力高达4PB以上,通过大数据分析,沃尔玛掌握了顾客的购买习惯,不同商品一起购买的概率,购买者在商店所穿行的路线、购买时间和地点,从而确定商品的上架布局以及对分类进行优化;决定对各个商店的不同商品进行增减,以保持最优的库存,降低成本;洞察销售全局,瞬间捕获到各种细微的变化,从而快速响应,制定营销策略;利用大数据工具对供应链进行分析以选择供应商、优化物流配送方案和进行价格谈判等;利用大数据分析工具对热销商品品种和库存的趋势进行分析,以选定需要补充的商品,分析顾客购买趋势和季节性购买模式,以确定降价商品,并对其数量和运作做出反应[10]。可见,大数据已经成为企业的核心资产,对数据的掌控可以形成对市场的支配,并且获取巨大的回报。大数据是企业用于提升核心能力的重要手段,而为提升企业竞争优势的大数据分析是企业竞争情报研究的重要范畴。

3.2企业竞争情报数据处理面临的新问题

如何确保规模庞大、异构和动态的数据实用可靠,为企业竞争情报研究不断地提供高质量的“原材料”,是大数据时代企业竞争情报面临的挑战。大数据为企业竞争情报工作提出了一些新的问题:(1)管理的数据量庞大。在大数据时代,企业的竞争情报研究需要大量异构的数据支持,而收集、存储和维护这样庞大的数据对于一般的企业来说是一种很大的负担。(2)收集范围广泛。为了使企业竞争情报分析更加精准、可靠,支持企业全方位决策,企业不但要持续不断地收集内部业务流程中各个环节的数据,还要收集顾客行为、竞争对手、供应链、宏观经济等数据,这种数据收集需要投入大量的人力、物力。面对不断产生的庞大数据,企业需要持续增加存储空间,这也是一笔不菲的投入。(3)数据安全风险增大。有关企业大量的数据趋向集中,一旦泄密或者被竞争对手利用,后果不堪设想;大数据量使企业可能采用云服务的模式,委托第三方进行数据存储和管理,这样接触企业数据的人员就会增加,风险无形增大。(4)数据质量难于控制。在大数据时代,数据经过层层的萃取转化为决策的情报,数据的质量也变得愈加重要。高质量的数据必须保证数据的客观、可用和完整。数据的质量问题涉及数据收集、使用、传递等所有过程,而数据在发布阶段经常会被扭曲。在大数据时代,数据的质量是情报价值体现的生命线,不管分析的方法如何先进,但如果输入时是垃圾数据,最终获得的还是垃圾结果,对企业不但无益反而有害。(5)数据难于动态集成。目前竞争情报收集子系统对整个企业范围内的数据集成大多采用静态整合策略,当数据源中的数据发生变化时,这些变化就不能立即反映给决策者,导致决策使用的是过时的数据,而大数据对实时响应要求很高,因此,竞争情报系统对分布式的数据如何进行动态集成也是一个很大挑战。

3.3企业竞争情报的分析方法亟待创新

大数据里隐含了许多“金子”,然而“金子”却不是现成的,需要通过一定方法和工具从中才能“淘”出来。谁掌握最先进的“淘金”方法和工具,谁就能把握先机,从而获得竞争优势,而落后者就可能面临被淘汰的危险。然而,目前从大数据中提炼情报的分析方法面临诸多问题:(1)难于处理庞大的数据量。在大数据时代,企业竞争情报的分析方法和工具需要处理庞大的数据,通常是PB级的,但是传统的企业情报分析技术无法处理这么大量的数据,在分析上TB级的数据量时,都会花费几十个小时的时间才能得到结果,如果分析PB级的数据量时,分析软件可能根本无法运行,或者运行很久才能获得结果。(2)难于处理分布式的数据。目前企业竞争情报的分析工具一般都是对数据进行集中式处理,然而在大数据时代,数据是分布式存储的,如果没有良好的访问数据模式,必然导致服务器之间的通讯增加,计算开销加大,时间延长,成本提高。(3)分析数据结构比较单一。传统企业竞争情报分析工具的数据通常是结构化数据,而大数据时代,企业有各种不同类型的数据集,其中有可能包含来自企业资源计划系统和客户关系管理系统的交易数据、网络评论和电子商务数据,还有内部文档和其它格式信息等,绝大部分的数据是非结构化的,超出了现有的企业竞争情报分析能力。(4)无法处理流数据。动态数据流是大数据的主要特征之一,有了分布式的文件系统支撑之后,也必须有进行数据流处理功能才能发挥其效用,但是目前企业情报分析工具基本不具备分布式流处理的功能,对许多实时数据的处理无能为力。(5)数据抽样受限。由于分析手段的限制,取样时的样本数不够大,不能充分反映和代表所有的数据;同时受限于分析能力而无法获取复杂问题的答案,受限于时间而不得不采用某项简单的建模技术。另外,由于没有足够的时间来执行多次迭代,模型精度在一定程度上大打折扣。(6)反应速度滞后。在一个开放和竞争的大数据时代,速度是企业的生命线,企业所需的竞争情报是变化的、实时的,这要求企业快速从数据中捕捉情报后用于决策,那么企业竞争情报分析中要对数据存储、计算、建立模型的过程、提交结果的方式等进行快速应变,但目前的企业竞争情报分析应变性还要达不到这样的要求。大数据分析处理的基本要求就是速度要快。没有速度,价值再大的数据也只能是一堆无法流通的废纸。大数据研究就是对高速增长、规模庞大、多样性的数据进行快速的挖掘分析,以发现其中隐含的规律知识,并以持续应变的方式提供有效的服务。因此,企业竞争情报研究方法要适应大数据时代的要求,必须在数据的处理量、数据类型、处理速度和方式方法上进行创新。

4大数据时代企业竞争情报分析的发展方向

在大数据时代,数据分析日益成为企业提高利润来源的支撑点,企业已经不满足于对现有数据的分析和监测,而是更期望能对未来趋势有更多的分析和预测,能洞察细微的变化,以增强企业竞争力。因此,需要对数据进行深度分析,而这正是企业竞争情报工作职责所在。从上述看到,目前的竞争情报研究方法和技术处理还存在不少的问题,因此,必须与大数据的分析方法和技术结合,并探索新的方法和技术,形成新的分析方法体系。在大数据时代,定量分析将会得到更广泛的运用,提供更精确情报信息。大数据技术主要实现对动态、异构、庞大数据的存储和管理,并从中提取出简约的数据集。大数据为数据挖掘技术提供了更广的“舞台”,数据挖掘主要是在数据中发现有潜在价值知识和模式,而竞争情报分析主要是将挖掘的知识激活,转化为产生行动的情报。大数据时代企业竞争情报分析主线仍是数据—信息—知识—情报逐层萃取的路线。

4.1加强数据和信息的集成

数据集成是通过各种手段和工具将已有的数据集合起来,按照一定的逻辑关系对这些数据进行统一的规划和组织,如建立各种数据仓库或虚拟数据库,实现数据资源的有效共享。随着分布式系统和网络环境日益普及,大量的异构数据源被分散在各个网络节点中,而它们之间往往是相互独立的。为了使这些孤立的数据能够更好地联系起来,迫切地需要建立一个公共的集成环境,提供一个统一的、透明的访问界面。因此,数据集成所要解决的问题是把位于不同的异构信息源上的数据合并起来,以便提供这些数据的统一查询、检索和利用。数据集成屏蔽了各种异构数据间的差异,通过集成系统进行统一操作。数据分析通常需要大量的数据作为支撑,而这些数据通常又是分散和异构的,通过集成可以更好地保证所分析的数据质量问题[11]。互联网是一个大而复杂的异构数据环境,每一个站点都可以看作是数据源,各站点间的信息和组织都不一样,每个数据源都是异构的,要利用这些数据进行数据挖掘分析,必须研究站点之间异构数据的集成问题。网络数据集成就是从大量的数据中将有用的数据按照不同的应用进行整合、封装、处理的过程,以解决数据挖掘的应用质量和数量问题。由于大数据的量比较大,采取集中式的挖掘方法总体上看比较困难,而采用分布式协作策略是较为可行的方式,按照某种标准如学科领域或地理区域对数据资源空间进行划分,得到若干子空间,再对每一个子空间分别建立相应的系统进行数据挖掘分析,构成网络上的分布式协作数据挖掘群体系统,然后对挖掘的结果和数据进行整合,形成总体方面的知识。目前很多企业设有许多分支机构,有些大型的企业甚至还有海外分支机构,其业务数据一般也要通过集成才能进行总体的竞争情报分析,更好地为企业的战略决策服务。

4.2注重数据的清洗与过滤

大数据时代企业所要处理的数据比较多,但数据的质量往往参差不齐,如有些数据不一致或不准确、数据陈旧以及人为造成的错误等,通常被称之为“脏数据”。由于数据挖掘是数据驱动,因而数据质量显得十分重要。“脏数据”往往导致分析结果的不正确,进而影响到决策的准确性。由于大部分的数据库是动态的,许多数据是不完整的、冗余的、稀疏甚至是错误的,这将会给数据的知识发现带来困难。由于人为因素的影响,如数据的加工处理以及主观选取数据等,从而使得数据具有某些噪声,会影响数据分析模式抽取的准确性。大量冗余数据也会影响到分析的准确性和效率。因此,在数据挖掘分析时,首先需要进行数据预处理,也就是要对数据进行净化和过滤,删除一些无关的数据。数据清洗是一个减少错误和不一致性、解决对象识别的过程[12]。一般通过概率统计等原理查找数值异常的记录。如在网站的日志文件数据处理中,可以通过检查URL的后缀删除认为不相关的数据,可使用一个缺省的后缀名列表帮助删除文件,去掉一些不能反映用户行为的记录,过滤一些请求错误和失败的记录等。

在大数据时代,不能不计成本盲目的收集各种海量的数据,否则将成为一种严重的负担。数据的体量只是大数据的一个特征,而数据的价值、传递速度和持续性才是关键。为了达到这些目标,企业竞争情报收集可以采用最小数据集的方法,指通过收集具有代表性的最少的数据,更好地掌握一个观察对象所有的特点或者一个事件所处状态,其核心是针对被观察的对象建立一套精简实用的数据指标,采用一定取样标准选择和过滤相关数据。总之,通过对数据质量的控制和管理,可以提高数据分析的准确性,进一步提高竞争情报工作的效益。

4.3关注新数据类型的分析方法

在大数据时代,企业无论是日常运营,还是重大战略决策,都会在各种各样的信息系统中留下各种数据记录,这些数据通过技术整合起来,可以再现一个企业的运行轨迹和发展全景。竞争情报研究就是发现有价值的知识和模式,洞察企业竞争环境,预测未来,从而获得竞争优势。随着信息技术的普及应用,新的数据类型不断产生,下面一些新的数据类型和分析方法值得关注。

(1)实时数据。如微博、短信等大量的动态数据流,是一种十分重要的竞争情报源。数据流挖掘是对数据进行单遍现行扫描,快速处理数据,提供实时近似结果的技术。如窗口技术采用分而治之的策略,将流数据按照特定的需求分配到不同的窗口,进入窗口内的数据才会被处理,以减少分析处理的数据量;而概要数据结构技术将数据流进行概括统计的数据结构代表原始数据,而不是保留数据流中的全部数据,从而减少处理的数据量[13]。在大数据时代,竞争情报分析的数据许多是连续、快速、随时间变化的,对如此巨大的数据流,企图存储或者扫描所有的数据都是不实际的,只有采用动态的数据流挖掘分析技术才能有效解决数据的冲击,获得实时近似的结果。数据流挖掘技术能为竞争情报提供实时查询服务和处理,从而促使企业的“触角”保持足够的敏捷性。

(2)动态数据。从时间的维度发现有关变化规律。时间序列分析是指从大量不同时间重复测得的数据中发现前后数据相似或者有规律的模式、趋势和突变的方法,主要的技术主要是相似模式发现,包括相似模式聚类和相似模式搜索时间序列,采用的主要挖掘方法主要有小波变换法和经验模态分解法[14]等。在大数据时代,各种数据源源不断的产生,比如交易数据、网站访问日志等,从中必然会呈现出时间上的规律,企业希望从积累了大量的历史数据中分析出一些模式,以便从中发现商业机会,通过趋势分析,甚至预先发现一些正在新涌现出来的机会,比如企业可以通过数据时间序列分析了解产品销售的旺季和淡季,制定针对性的营销策略,减少生产和销售的波动性,从而获得利润和竞争优势。

(3)关联数据。关联数据发现技术是分析数据之间的联系,将孤立、离散的数据点结合产生数据链或者数据图,随后从多个数据源中查出匹配给定关联模式的实例、最后再对匹配的实例评估。目前已应用的主要方法有:图论的稀有度监测法、图熵法和基于谓词的逻辑归纳推理法等[15]。关联发现技术特别适合于动态的数据发现未知的模式,而大数据中隐含了大量未知、潜在的关系,新模式的发现有利于企业采取“蓝海”战略,抢占先机,从而获得竞争优势。

(4)社会网络数据。社会网络分析也叫链接挖掘,是通过网络中的关系分析探讨网络的结构及属性特征,其挖掘重要任务的是基于链接的节点排序、基于链接节点的分类、节点聚类、链接预测、子图发现等[16]。在大数据时代,大量相关的数据聚合在一起,相互支撑解释和印证,形成了复杂的数据网络,数据之间的关系具有非常重要的价值,如通过消费者行为的链接数据挖掘能发现传销顾客网络,从而制定找出利润最大化的顾客群,又如从人际关系的网络节点的中心度来分析竞争对手,从而制定相关的竞争策略等。

4.4促进数据分析的可视化

数据可视化技术指的是运用计算机图形学和图像处理技术,将数据转换为图形或图像显示出来,并进行交互处理的方法和技术,其本质是从抽象数据到可视化结构的映射。在大数据时代,数据只是原材料,其真正的价值需要通过知识和情报来实现。企业竞争情报分析的结果必须是可理解的,才能较为容易地转化为生产力。可视化可以反映数据的语义关系,加快数据的处理速度,使庞大的数据得到充分有效利用;可以在人与数据间实现交互,帮助人们观察到数据中隐含的问题,为发现和理解有关规律提供有力工具。可视化使竞争情报更加易于理解和运用。采用一定的分析模型将相关的数据组织在一起,直观地表达竞争情报和竞争情报之间的逻辑关系,如进行一些关联分析,以生动形象的方式显示描绘人物、公司和事件之间的联系,探索事件、人、地点、产品和组织间潜在关系并预测可能产生的结果,辅助决策过程。可视化可作为一种基础技术嵌入到企业竞争情报分析工具中,人们总是希望看到研究报告中的生动图像,而不是一大堆枯燥的数据,企业竞争情报研究结果通过可视化方式,采用不同数据维度提供给不同层次的决策者使用,便于理解,支持企业高效运营。因此,可视化技术是大数据时代企业竞争情报研究的有效工具。

4.5探索大数据新的分析技术和工具的应用

大数据时代企业竞争情报面临的数据量是无法比拟的,对一些实时性要求较高的决策,分析方法的速度和效率显得十分重要。传统的竞争情报分析方法显然难于处理不断增长的、庞大的、异构的数据,只有借助新的处理技术才能实现数据提取和清洗、分析和利用。目前大数据相关技术研究已取得一定的进展。如“MapReduce”是一种简洁的并行计算模型,它在系统层面解决了扩展性、容错性等问题,通过接受用户编写的函数,自动地在可伸缩的大规模集群上并行执行,从而可以处理和分析大规模的数据。“MapReduce”具有简洁的模型、良好的扩展性、容错性和并行性,可以进行复杂深入的数据分析,随着其性能的不断改进和分析能力的不断增强,能够帮助人们从大数据中分析和发现有用的知识[17]。如何提高数据挖掘算法的效率和适应性,使挖掘方法具有一定规模的伸缩性,是数据分析较为突出的问题。应用实时性技术和分布并行算法技术是提高数据挖掘方法效率和实用化的有效途径。此外,统计分析语言标准化也有助于提高数据分析效果。如R语言是主要用于统计分析、绘图的语言和操作环境,其功能包括数据存储和处理系统、数组运算工具、完整连贯的统计分析工具。R语言针对大数据将广泛使用的统计算法进行了优化,能够在短暂的时间内从大量的数据中发现有意义的信息[18]。目前业界对大数据的处理分析方法已开始进行了一些探索,并且开发了一些相关的工具。企业竞争情报研究应该针对大数据的特点,吸收和融合数据挖掘分析新的技术方法,不断创新和发展。

5结语

企业竞争情报可以帮助企业洞察竞争环境,发现新的竞争对手、判断竞争的发展性动向,及时做出相关的反应,从而获得较大的竞争优势。大数据提供了一个全新的信息生态环境,给企业竞争情报研究带来了深刻的影响,促使其不断地创新和变革,以适应企业在大数据时代获取核心竞争力的需求。大数据时代的企业竞争情报研究将走传统情报分析方法与大数据技术相结合的发展道路。目前基于大数据的企业竞争情报研究刚刚起步,许多问题仍然需要进一步探讨。

参考文献:

[1]F.GantzandD.Reinsel.The2011DigitalUniverseStudy:ExtractingValuefromChaos[EB/OL].[2012-08-18].ww

w.emc.com/collateral/demos/microsites/emc-digitaluniver

se-2011/index.htm.

[2]Bigdata:thenextfrontierforinnovation,competitionandproductivity[R].McKinseyGlobalInstitute,2011.

[3]PhilipRussom.bigdataanalytics[EB/OL].[2012-08-01].

http://www.docin.com/p-340502098.html.

[4]Bigdata[EB/OL].[2012-08-18]http://en.wikipedia.org/wiki/Big_data.

[5]大数据[EB/OL].[2012-08-18].http://baike.baidu.com/view/6954399.html.

[6]涂兰敬.专家观点:“大数据”与“庞大数据”的区别[J].网络与信息,2011,(12):37-38.

[7]国金证券.“大数据”行业专题分析报告[EB/OL].[2012-08-01].http://wenku.baidu.com/view/177989130

b4e767f5acfce3f.html.

[8]王珊等.架构大数据:挑战、现状与展望[J].计算机学报,2011,34(10):15-16.

[9]国金证券.“大数据”行业专题分析报告[EB/OL].[2012-08-01].http://wenku.baidu.com/view/177989130b

4e767f5acfce3f.html.

[10]涂子沛.大数据[M].广西师范大学出版社,2012:161,

304-306.

[11]毕强.网络信息集成服务研究综述[J].情报理论与实践,2004,(1):21-25.

[12]郭志懋.数据质量和数据清洗研究综述[J].软件学报.2012,12(11):22-28.

[13]JiaweiHanMichelineKamber.范明,孟小峰译.数据挖掘概念与技术[M].北京:机械出版社,2007:306-320.

[14]倪志伟等.动态数据挖掘[M].北京:科学出版社,2010:31,232.

[15]张公让.商务智能与数据挖掘[M].北京:北京大学出版社,2010:151-159.

[16]约翰·斯科特.刘军译.社会网络分析法[M].重庆:重庆大学出版社,2007:1-6.

[17]覃雄派等.大数据分析——RDBMS与MapReduce的竞争与共生[J].软件学报,2012,2(1):33-42.

[18]AlainF.Zuur.R.语言初学者指南[M].西安:西安交通大学出版社,2011:3-10.

作者简介:黄晓斌(1961-),男,中山大学资讯管理学院教授,博士生导师,研究方向:竞争情报、网络信息开发利用;钟辉新(1979-),男,中山大学资讯管理学院博士生,电子科技大学中山学院图书馆馆员,研究方向:商情分析与竞争情报。

猜你喜欢
情报研究数据量情报
情报
情报
体育信息情报研究发展趋势探析
情报
基于大数据量的初至层析成像算法优化
计算Lyapunov指数的模糊C均值聚类小数据量法
面向新阶段高质量发展的图书情报研究(卷首语)
高刷新率不容易显示器需求与接口标准带宽
宽带信号采集与大数据量传输系统设计与研究
交接情报