时立峰 内蒙古机电职业技术学院
在“大数据”为主导的浪潮席卷全球来临之际,充分利用大数据整合技术、大数据分析挖掘技术以及数据可视化技术,通过挖掘数据的潜在价值,来展示相关企业的工作成果、把握企业经济发展走势、分析企业增长难点、研究企业变动状况及潜力,达到提前布局宏观经济调控治理策略的目的。
当前企业经过多年的建设,基本已经实现信息系统的部署,但随着互联网、大数据、云计算飞速发展以及大屏终端、商务智能的快速普及,出现了如下问题:
1.数据存储及处理压力大
海量数据、特别是海量非结构化数据及半结构化数据的增长,对数据管理能力及系统分析能力带来进一步的挑战。随着业务发展和应用复杂导致的数据量增加,传统数据库技术存在无法线性扩容,管理难度加大,成本高扩容压力大,效率下降等问题,难以满足日益增长的业务数据带来的存储、计算需求;对分析系统提出了不同以往的处理要求,如自然语言处理、非结构化数据处理等。
2.业务分析能力不足
数据标准不够规范、不能够保证数据质量,系统种类单一,时效性差,不能够融合内、外部数据。所以应搭建支撑管理决策的应用分析体系,支持挖掘、分析能力扩展,最大限度的实现数据的业务价值。
3.缺乏数据可视化
传统图形展示手段无法将数据分析的结果形象、直观地展示给最终用户,同时也无法支持丰富的图形展现形式和未来的图形能力扩展。开发简单易用的引导式自助图表开发功能,使业务用户能够轻松实现自助开发。
总之,规范信息化基础架构资源管理,形成了覆盖较为广泛的数据仓库,实现了自动实时生成各类收支统计数据,以及按照管理对象归集相关属性信息,并提供多维度可视化的业务分析功能,是实现大屏数据可视化展现体系的重中之重。
1.扩展数据架构
设计先进可扩展的三层数据架构,它是成功通过大量项目实践检验的优秀架构。它具备简单、抽象、标准、可扩展、隔离、可延展、可维护、整合等诸多特性,可以从容不迫地面对分析环境的变化:
(1)简单的架构意味着系统、实施、维护、管控都将变得简单,从而降低整体成本;同时也意味着更容易做出调整。
在工程项目建设中,业主和承包商之间要进行信息的交流和沟通,来达到自身利益最大化的目的。但在具体信息交流中,存在一些业主和承包商都不想透露给对方但双方又都想从对方那里获取到的隐性的信息。想要获得这些隐性信息就要消耗大量的时间、金钱、物力等等。不管最终隐性信息获取与否,都会给工程项目的建设增加一部分成本[2]。而信息的不对称也会导致因盲目投资工程项目而提高投资者相应的投资风险。
(2)抽象意味着独立于物理实现,使得实现变得更加灵活;架构是业务需求和IT实现之间的桥梁,抽象则意味着有更广泛的适应性,业务人员也更容易理解。
(3)标准意味着更低的实现和维护成本,更容易被管控。
(4)可扩展意味着不断增长的业务需求可以通过对软件、硬件组件的复制来满足。
(5)互相隔离的组件更容易建设和维护,也更容易复制以支持扩展。隔离性可以极大地简化架构。
(6)可延展是对未来新出现的业务的支持,这使得架构可以随着业务一起成长。
(7)可维护即是指理解、改正、改动、改进软件的难易程度。高的可维护性带来更低的总体成本,同时也更容易做出调整。
(8)整合加强了机构内部的一致性,降低了互相矛盾的结论带来的决策成本,同时也让更深入的洞察成为可能。
2.整合层数据模型
利用模型设计方法论和众多经验做定制化的设计。整合层模型的设计思路与三层数据架构的设计原则是高度契合的,它从数据的自然属性出发,通过归纳、抽象等方法得到主题域。由于它以抽象的方式组织,因此具有良好的扩展性,当业务发展时可以实现线性扩展。
3.加强数据挖掘与分析能力
随着信息化建设的飞速发展,不但需要完成相关流程的电子化,同时还需积累了大量的数据。对积累的海量异源异构数据进行清洗、加工、整理,运用机器学习算法,挖掘数据背后的知识,对于提高企业监管水平、提升工作效率、辅助经济决策,具有十分重要的现实意义和示范意义。
采用的分析框架综合了统计分析、机器学习、数据仓库等诸多方面的研究成果,可以从大量的数据中提取隐含在其中的、人们事先未知但又是潜在有用的信息和知识。面对纷繁复杂的业务需求,该框架提供了灵活的分析方式和工具。一方面,高级分析人员可以使用R、Python等脚本语言在数据实验室中进行高度定制化的数据探索,形成假设,验证假设;另一方面,业务人员可以通过自定义分析主题、数据源、图表样式以及分析方法来进行可视化分析。
第一,采用的分析框架包含四大模块:数据准备、探索性数据分析、机器学习、可视化分析。四大模块彼此相依又相对独立,一起形成了一个不断迭代完善的敏捷分析流程。在该分析框架内,用户既可以使用R、Python等高级分析工具进行机器学习建模,又可以采用灵活自由的可视化方式进行探索性数据分析。此外,我们的框架集成了大量统计分析方法和机器学习算法(如趋势分析、相关性分析、回归分析、聚类分析、主成分分析、因子分析、异常值分析、风险分析、预测分析等),用户可以轻松运用这些内置模型和算法快速搭建分析流程。
第二,为了确保分析框架的顺利执行,采用六步项目实施方法论:定义业务问题范围、数据准备(选取和抽样)、探索性数据分析、建模、模型评估、模型发布和实施。
第三,采用的数据实验室是数据仓库敏捷云的具体实现。用户可以在数据实验室中进行面向专题的高级分析和挖掘。在数据实验室中提供了行为分析、终止行为预测、专项监控三个分析专题。在数据实验室中,用户可以根据业务需求,自定义数据源(既可以是数据仓库内数据,也可以是外部数据)、分析方法(组合内置分析模块或自定义)、可视化方式,快速搭建业务驱动的分析专题。
4.提供灵活多样的可视化大屏数据
数据可视化的展现图形创建过程中,可供选择的图形高达几十种,图形组合方式多种多样,但是为了突出分析的主题,需要选择特定的图形来进行展现。因此系统提供可视化图形选择路径指南,帮助分析人选进行展现图样的选择。减少无效图形的编辑次数,提高分析效率。
数据展现图形的选择方式大体基于数据分析的四大主题进行构建,分别是构成、分布、比较和关系。其中,图形之间可根据展现的维度数量组合嵌套,最终确定展现思路。