大数据挖掘方法的势科学研究

2018-01-04 10:10厉蕊陈素梅陈豪
中国管理信息化 2017年24期
关键词:数据挖掘大数据

厉蕊 陈素梅 陈豪

[摘 要]大数据已经是包罗万象,渗透到社会发展的很多领域,并且还在不断扩大中。大数据研究的难点在于提取数据,数据提取的核心在于网络中的相关关系,而势科学理论中的信息作用机制的“差别与联系”也体现了相关关系。通过计算与比较各种数据维度的信息势,就能有效认识大数据中各数据维度的相关关系,从而提高知识的提取能力。

[关键词]大数据;数据挖掘;势科学

doi:10.3969/j.issn.1673 - 0194.2017.24.088

[中图分类号]TP311.13 [文献标识码]A [文章编号]1673-0194(2017)24-0-02

1 大数据概述

大数据泛指巨量的数据集,记录了众多信息主体的状态、特征、行为、偏好和思想等方面,因可从中挖掘出有价值的信息而受到全世界关注。国外对大数据的权威定义为:由科学仪器、传感器、互联网电子商务、电子邮件、音视频软件和网络点击流等众多数据源生成的大规模、多元化、复杂、长期的分布式数据集。IBM将大数据特性归纳为4V:大量化(Volume),多样化(Variety),快速化(Velocity)和真实性(Veracity)。

大数据的主要用途为进行分析预测和辅助决策,在政府管理、公共服务、金融投资、商业分析和企业管理等领域都已经有广泛应用。

大数据目前应用的主要场景有:驱动企业营销创新,效率提升和策略优化,改善客户体验和实现实时化,个性化产品与服务创新以及进行风险监控;帮助政府对重点管理领域进行实时跟踪和分析,提高监管和服务效率;对环境灾害和传染性疾病进行提前监测,做好灾害预警防备和疾病防治。

人们平常说的大数据实际上只是简称,更准确的叫法应为大数据挖掘,不挖掘出大数据的价值大数据也就没有用处、没有意义。麦肯锡(McKinsey)指出大数据挖掘是继云计算、物联网之后IT产业又一次颠覆性的技术变革,大数据将是提高创新、竞争、生产力的下一个前沿阵地。

现阶段,大数据研究与应用正从起步阶段开始进入深化发展阶段,但还有很多技术难题有待解决,支撑的理论和方法也不够,研究远远落后于应用的需求。大数据挖掘需要处理的数据不仅庞大而且多源异构,有结构化数据、半结构化数据和非结构化数据,在类型上又分为数字、文字、图片、文档、网页和视频等不同种类,并以数据流的形式快速、动态地产生,导致大数据各数据维度之间的差异悬殊,并缺乏条理性,同时也难以清洗冗余數据,给大数据研究带来了很大困难。如何从海量、碎片化的大数据中提取出知识点进行有效融合计算,并解决科研问题,是目前亟待解决的问题,也是当前的研究热点和难点。

2 势科学概述

势科学是李德昌教授自创的科学理论,是以信息为基本元的科学理论,信息是研究一切自然和社会现象及原理的基本元素,势科学总结信息的有序是知识,知识的有序是方法,方法的有序是智慧;知识不是简单的数据累计,而是有序的可以指导实践的信息。势科学理论指出只有既有差别又有联系的信息,才是有序的信息,才能从中提取出知识,再将知识融会贯通发现出规律从而解决复杂问题。

势科学理论根植于我国传统文化,也与西方自然科学理论的研究一脉相承,找到自然科学研究与社会科学研究的相同之处,在原理上也具有一致性,因此高度概括出核心概念“势”。势=差别×联系=差别÷距离,势即梯度、导数和斜率,势科学的基本作用机制是势增原理“联系扩大差别,差别促进联系”,差别最大即相反,联系最大即相同,即相反又相同,则为对称。对称是自然界最普适、最高级的状态,归于对称性原理的势科学为研究人类社会发展,提供了具有普适性的动力学原理。势科学理论在中国管理实践、区域发展、企业治理和高等教育上已经取得了丰硕研究成果。

3 势科学在大数据中的应用

3.1 势科学视角看大数据

从势科学视角看大数据近几年的高速发展来源于:差别促进联系,联系扩大差别,“势趋”不变,推动着大数据研究加速扩张和加速发展。另外,因为传统基于小样本数据挖掘出新的价值越来越难,在追逐创新的驱动下,针对大数据的挖掘顺势而来。在势科学理论中,有序的消息称为信息,信息量或信息势代表着有序信息的数量,并定义“创新”是系统过程在信息势作用下超过某个临界值,发生非平衡相变和非线性分叉所产生。正是大数据挖掘出的价值具有的信息势够大,超过了某个临界值,所以大数据挖掘被视为是重要创新并获得广泛追捧。因此在大数据研究中,首先要找到信息量大的数据维度并根据研究的问题提取出知识,再通过进一步分析挖掘出重要的信息,从而获得更大的信息势,产生出创新和带来更大价值。

3.2 大数据重点研究相关关系

在小样本数据挖掘中,必须有明确的因果关系作支撑,才能保证从小样本数据中得到的规律和价值信息是正确的。但在大数据挖掘时,因为样本规模巨大、涵盖广阔,没有像小样本数据中那样以偏概全,所以仅需要分析大数据之间的相关关系,就能得到正确的结果。大数据主要也是研究相关关系,毕竟在大数据这种复杂系统中,要解决的问题也很复杂,更多时候是众多相关因素共同作用下产生出的某种结果,同时因果关系只不过是相关关系中的特例。例如,股市的涨跌来自于宏观经济基本面、市场情绪和政策面等多种相关因素的共同作用,而不是受某几个特定的因素决定走势和结果。正因为股市受太多相关因素的共同作用,数据量大又变化快,股市涨跌才如此难以预测。

可见,相关关系分析对大数据研究意义重大。大数据挖掘本质就是从纷繁复杂的多维大数据中根据相关关系,用数学模型、算法对大数据进行计算,从而发现和总结规律,并投入实践产生价值。势科学研究的核心问题是信息作用机制,只有相互间有相关关系即存在信息阻尼,才能产生作用力,也是重点研究相关关系。势科学最基本的概念是差别和联系,具有高度逻辑性和对称性,可以用来表示大数据各维度数据间的相关关系的不同侧面。同时,势增原理“差别促进联系,联系扩大差别”,也演绎出大数据中相关信息相互作用于结果的内在动力学原理。因此,势科学理论很适合分析大数据内部的相关关系,通过深入准确分析相关关系,为从中提取出知识和解决科研问题带来了很大帮助。

3.3 信息势概念对大数据研究的作用

在大数据研究中,为了能得到理想结果,往往会将众多不同来源的数据放在一起研究。此时如果只关注到数据的广度,会造成数据维度太多,分散研究注意力,也会给研究带来多余的问题,所以有必要消除冗余的数据广度,专注于数据的深度。如果通过人为拍脑袋觉得去掉哪些维度数据,或是决定哪些维度数据更重要,这类做法对大数据研究来说很不严谨,也不科学。大数据科学的本意就是在黑箱中用科学理论和方法摸索大数据,挖掘出潜在价值,人为主观地干涉越少越好。因此,在数据选取和主要性判断上,需要用更科学的理论和方法处理。

在信息论中,信息被表达为负熵,负熵即意味着有序,有序构成梯度,而梯度就是势,所以信息等于势,信息势等价于有效信息量。如果大数据中某个数据维度在与内部其他数据维度相关关系上,表现出差别较大而联系又较紧,说明它的有效信息量更大即信息势更大。信息势更大的数据维度所包含的知识也就越多,就能為解决大数据科研问题提供更多的知识和更好的选择,所起的作用也就更大。通过用信息势来衡量大数据中数据维度相关关系大小,能够帮助科研人员透过现象看到本质,更有效地从大数据中提取出有用的知识,助力挖掘出大数据价值。

4 结 语

势科学的信息作用机制完美演绎了大数据内部相关关系的意义,通过势科学分析大数据中数据维度的信息势,能够解析大数据网络中复杂的关系结构,能使科研人员更好地研究大数据相关关系,找到大数据中蕴含的不同知识,从而能更好地解决科研问题,让大数据产生出更大的价值。数据维度信息势模型是建立在普适性的基础上,在众多不同类型的大数据研究中都能用来分析大数据中的相关关系和发现规律,并提取出知识。

对大数据和势科学的交叉研究还需要继续深入下去,研究者在以后的研究中可以利用势科学相关理论,进行大数据知识融合、知识库建设和复杂问题研究,形成“数据-信息-知识-智慧-决策”的一整套完整和科学的理论与方法体系,助力大数据挖掘不断向前发展,让大数据的价值更好地展现出来并惠及社会。

主要参考文献

[1]李德昌.势科学视域中管理系统的逻辑机制——从整体直觉到逻辑演绎的中国管理学研究[J].管理学报,2008(6).

[2]李德昌,张守凤.基于信息本质的不确定性机制的中国管理实践研究及评价——势科学视角[J].管理学报,2012(8).

猜你喜欢
数据挖掘大数据
探讨人工智能与数据挖掘发展趋势
基于并行计算的大数据挖掘在电网中的应用
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究