聂鼎 宋忧乐 范黎涛 施冬明 马志强
摘要:大数据时代,数据相关的分析因其具有可以快捷、高效地发现事物间内在关联的优势而受到广泛的关注,并有效地应用于推荐系统、商业分析、公共管理、医疗诊断等领域.面向非线性、高维性等大数据的复杂特征,结合现有相关分析方法的语义分析。文中从数据聚合、数据分析两个方面对数据的研究进行了梳理说明。
关键词:大数据;数据分析;数据聚合
一、序言
随着信息与通信技术的迅猛发展,全球数据量呈现爆炸式增长。面对海量、复杂的数据,人们日益发现其是人类发展的重要经济资产,有效的数据分析与挖掘将推动国家、企业乃至整个社会的高效、可持续发展。
自2008年9月《 Nature 》出版“BigData ”专刊以来 [1],大数据更是成为政府、学术界、实务界共同关注的焦点,如2011年《Science 》出版的专刊“ Dealingwith Data ”[2] 和麦肯锡公司发布的报告“Bigdata:The next frontier for innoation,competition,andproductivity ”[3],2012 年达沃斯世界经济论坛上发布的报告“Bigdata,bigimpact:New possibilitiesfor international development ”[4] 等。大数据分析与挖掘的研究成果也被广泛应用于物联网、舆情分析、电子商务、健康医疗、生物技术和金融等各个领域。
当前云南电网配网线路和设备故障明细,配网设备相关的交叉跨越,安全隐患等信息,目前是各单位采取EXCEL表格为载体对数据进行收集、整理并报送,由于数据量太大,导致全省各家供电单位报送数据质量和内容规范性较差,数据格式也无法统一,进一步导致大量数据的统计和分析工作无法高效进行,无法对配网线路和设备故障进行有效的闭环跟踪管控和多维度分析。
基于以上原因,有必要开展配网生产运行数据纵向聚合分析平台开发,实现对全网配网线路和设备生产运行数据的统一规范化填报、管理,实现配网运行数据多维分析和统计。实现配网生产运行数据统一规范化管理,更高效的进行数据统计和分析工作,为配网生产管理提供数据支撑,减轻基层人员数据填报的工作量,提高工作效率。为运维人员提供全面的信息展现,支撑设备生产技改大修,差异化运维决策,为管理层提供有效的管理依据。
二、数据纵向聚合
数据聚合是指通过同时聚集多个数据源分析数据来获取数据全貌的数据。在数据信息多样化发展下,为了实现对各类数据的多元化分析和应用,相关人员需要结合实际采取多样化的策略来处理多源数据下载,从而提升数据信息应用效率。
(一)数据纵向聚合的必要性:
1.数据和信息系统分散
我国信息化产业经过多年的发展,现已开发了众多计算机信息系统和数据库系统,并积累了大量的基础数据。然而,丰富的数据资源由于建设开发的时期不同,开发部门不同、技术发展阶段不同、使用设备不同、开发方式和能力水平的不同等,从而导致数据存储管理极为分散,以至于造成了过量的数据冗余和数据不一致性,使得数据资源难以查询访问,管理层无法快速获得有效的决策数据支持。目前,管理者想要了解所管辖不同部门的数据信息,需要进入各种存储数据的系统,而且数据之前不能直接比较分析,所造成浪费的时间和人力成本不可估量。
2.信息资源利用率较低
当前信息系统普遍存在集成度低、互联性差、信息管理分散,数据的完整性、准确性、及时性等方面的问题。虽然有些单位已经建立了内部网和互联网,但多年来分散开發或引进的信息系统,对于大量的数据不能提供一个统一的数据接口,不能采用一种通用的标准和规范,无法获得共享通用的数据源,于是不同的应用系统之间必然会形成彼此隔离的信息孤岛。现阶段缺乏共享的、网络化的可用度高的信息资源体系。
3.支持管理决策能力较低
数据的共享度达不到单位对信息资源的整体开发利用的要求。简单的应用多,交叉重复也多,能支持管理和决策的应用少,能利用网络开展经营活动的应用更少。对一个企业来说,最有价值的资产就是数据,数据中蕴藏着巨大的信息资源,但是没有通过有效工具充分挖掘利用,信息资源的增值作用还没有在管理决策过程中充分发挥应有的作用。
(二)数据聚合的优点:
1.底层数据结构的透明:为数据可以访问(消费市场应用)提供了统一的接口,消费模式应用无需我们知道:数据在哪里保存、源数据库系统支持那种生活方式的访问(XQuery,SQL)、数据的物理知识结构、网络安全协议等。
2.性能和功能扩展性:数据聚合把数据集成和数据访问分成了两个过程,因此访问时数据已经处于准备好的状态。而且数据会更易于提取。
3.提供真正的单一数据视图,数据视图data view这个概念很容易理解,数据聚合的优势是经过了数据校验和数据清理,使用者看到的数据更加真实、准确、可靠。
4.数据可重用性好:由于数据有了实际的物理存储方式,从而聚合后的数据就可以为各种应用提供可重用的数据视图,也不用担心底层实际数据源的可用性。
5.数据管控能力加强:数据管控是SOA里面重要的概念。数据聚合的优势是数据规则可以在数据加载,转换中实施,从而可以确保数据在计算实施过程中高效的管控能力。
(三)数据聚合方案:
1.多数据库聚合方案;
2.数据仓库聚合方案;
3.中间件聚合方案;
4.Web Services聚合方案;
5.主数据管理聚合方案。
三、数据分析
数据分析是大量的高效地收集用于分析数据的分析的统计方法中,为了最大限度地提高功能数据的发展,数据的作用,提取有用的信息和形态的结论,以便详细地进行研究,并汇总数据的的处理。这一过程也是质量管理体系和智能管理决策的支持过程。在实际应用中,数据分析可以帮助人们作出准确判断,以便后续采取开展适当行动。数据分析是数学与计算机科学的结合。数据分析的数学基础确立于20世纪初期,但直到计算机的发明使用才使得实际操作成为可能,从而使得数据分析为人熟知并得以推广。
(一)数据分析的必要性
以市场而论,在一个产品的整个生命周期,包括从市场调研开始到产品研发、成品销售、售后服务和最终处置的各个过程都需要运用大数据分析来支撑,以提升有效性。例如J.开普勒通过分析大量行星角位置的观测数据,找出了行星运动的规律。又如,一个合格的销售型企业领导人想要让带领公司发展,就需要通过市场调查,分析所得数据以判定市场动向,从而制定合适的生产及销售计划。由此可见,大数据分析有极其广泛的应用范围和巨大的潜在价值。
(二)数据分析的类型
现阶段数据分析大致分为探索性数据分析、定性数据分析、离线数据分析、在线数据分析几种。
(三)数据分析方法
1.列表法
将所得数据按一定规律用列表的方式表达展示出来,列表法是记录统计和处理数据最常用的方法。
列表法基本分析
对比分析:进度分析,展现目标完成情况的分析方法
差异分析,多个样本之间的差异程度
纵向对比(时间序列的趋势分析):时间序列分析,同一指标不同时间下的对比
横向对比:部分与部分,部分与整体或是对象与对象之间的对比
同环比分析:同比:本期值与同期值之间的对比
环比:本期值与上期值之间的对比
结构分析:构成分析
反映同一指标或多种指标状态及数值变化情况的分析方法
2.作图法
映射方法可最显着地表达的各种物理变化之间的关系。一些实验结果可从图所需的行,也有些复杂的函数,通过一定的变换表示以图形方式被简单地确定。
(一)数据分析工具
Excel自己的数据分析功能可以完成多个专业软件的数据统计,分析,包括:直方图,相关系数,协方差,各种概率分布,抽样和动态仿真,人口均值判断,均值推断,线性,非线性回归,多元回归分析,移动平均等。在商业智能COGNOS,风格智力,MicroStrategy的,布里奥,BO和Oracle以及国内产品如永洪Z-套房BI套件。
(二)数据分析步骤
1、明确分析的目的,提出问题。只有弄清分析的目的是什么,才能准确定位分析因子,提出有价值的问题,提供清晰的思路;
2、数据采集。对采集收集到的原始数据进行数据加工,主要包括、数据抽取数据清洗、数据检索、数据分组等处理方法;
3、数据探索。通过探索式缝隙检验假设的形式方式,在數据之间发现新的特征,对整个数据集有个全面的认识,以便后续选择何种分析策略;
4、分析数据。数据整理完后,需要对数据进行综合分析和相关分析,需要对产品、业务、技术等有足够的了解,常常用到分类、聚类等数据挖掘算法,excel是最简单的数据分析工具,专业数据分析工具有Python,Finbi等;
5、数据可视化。借助可视化数据,能有效直观地表述想要呈现的信息、观点和建议,比如金字塔、矩阵图、漏斗图、帕累托图等,同时也能用报告形式与他人交流。
大数据分析的主要过程活动由开始识别信息需求、收集整理数据、分析计算数据、评价并改进数据分析的有效性组成。
四、总结
大数据相关分析作为探寻与发现事物内在规律的重要“导航”工具,其自然成为大数据分析与挖掘的关键科学问题。大数据相关分析的研究尚处于起步阶段,可以预见,在未来的大数据研究中,具有快捷、清晰、高效探测事物内在关系、规律功能的大数据相关分析将涌现大量的重要研究成果。本文针对大数据相关分析的综述研究希望能够为关注大数据相关分析理论与应用的研究者与实践领域专家提供借鉴。
参考文献
[1]梁吉业,冯晨娇,宋鹏. 大数据相关分析综述. vol.39 No.1 Jan.2016
[2]赵守香,唐胡鑫,熊海涛著.大数据分析与应用:航空工业出版社,2015.12
[3]数据整合方案介绍_数据整合的优点_数据整合的缺点.人大经济论坛[引用日期2017-06-21]
[4]李会超.通信领域网络管理数据模型的建立.2008-11-01
作者简介:聂鼎(1983-),男,汉族,黑龙江省哈尔滨人,硕士,高级工程师,主要研究方向:电力大数据,智能配电网技术等。