基于数据质量的大数据集成服务研究

2019-12-13 07:22黄东
数字技术与应用 2019年9期
关键词:数据质量支持向量机大数据

黄东

摘要:本文采用基于数据质量的大数据集成服务方案及支持向量机的数据挖掘技术来解决当前大数据管理中数据质量低下的问题,通过建立科学的分析模型,及时治理数据质量问题,推动大数据的整体质量持续提升。

关键词:数据质量;大数据;集成服务;支持向量机

中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2019)09-0109-02

0 引言

大数据质量的好坏,直接影响学校信息化建设的成败和后续的可持续发展性,高校原有公共数据平台完成了基本的业务系统之间进行数据共享和交换的工作,一定程度上消除了数据孤岛、数据割裂的问题。但在大力开展信息化建设的同时,各种原因导致数据的质量存在一定程度的问题,大数据集成服务质量整体堪忧。

1 当前高校大数据分析存在的普遍问题

1.1 大数据系统集成服务的数据质量低下

数据质量是整个信息化建设中大数据系统集成服务的重中之重,只有高质量的数据,才能带来高效率和高价值的系统决策和服务。数据质量低下,导致后期数据运维无法开展,当需要某些数据支撑其进行决策或改善的时候,拿不出高质量的数据,普遍存在数据不准、数据不全、数据不一致的问题,需要进行分析时,还要耗费大量人工线下采集,及时率无法保证,采集之后的加工也耗时耗力,每次都要进行重复工作。

1.2 数据共享时无法执行统一的数据标准

大多数前期的信息化建设已经完成了校内信息标准的梳理和建设,但没有真正做到标准的统一管理与有效执行,学校内部缺少有效的管理工具和管理机制,造成各业务系统还是按照自有标准进行业务建设和运行,集成时可能保持一致,但运行过程中又出现了新的不一致,例如大多数学校教务系统和研究生系统采用自有的学院代码。

1.3 大数据集成与共享过程响应慢

大数据的集成与共享一定程度上是校园信息化整体运行的基础保障,一旦集成过程或数据共享出现问题,会影响到多个业务系统的正常运行。学校信息部门在缺乏很强的专业知识的前提下,无法快速定位与排查,联系厂家再安排处理,浪费大量时间的同时造成业务系统的使用障碍甚至故障,影响信息化整体运行。

2 解决方案

针对上述问题,可以采用基于数据质量的大数据集成服务方案来解决目前高校智慧校园建设中普遍存在的问题,通过建立科学的分析模型,利用先进的信息化工具,对主数据的质量进行自动化检查,及时治理数据质量问题,推动整体数据质量持续提升。

2.1 信息标准建设

信息标准是数字化校园建设的重要基石,信息标准确保信息在采集、处理、交换、传输的过程中有统一、科学、规范的分类和描述,保证源数据的唯一性和数据转换中的一致性,能够使信息更加有序流通、最大限度地实现信息资源共享,降低系统整合的成本。

2.2 大数据的质量治理

随着学校大数据应用系统迁移,更多深层次数据质量问题进一步暴露,如何为后期数据应用和分析做好充分的准备是关键前提。数据质量检测可以对系统集成的主数据进行事后检测,发现数据存在问题,并自动汇总形成数据质量报告,让学校对当前的数据质量有清晰的认识并轻松发现数据质量根源,便于着手解决。

2.3 ERP思路下的集成服务设计

基于“顶层设计”的思想,借鉴国际先进的ERP设计理念和行业优秀的业务实践为数据集成服务搭建的统一高效、互联互通、信息共享的管理平台,实现校内各厂商不同时期开发应用系统、异构数据源集成,实现应用系统一体化,解决内部信息孤岛,实现数据共享和互通。

3 技术手段

3.1 技术方案

梳理校内信息标准,加强信息标准执行状况,确保整体“一个标准”,形成统一的校级大数据,强化数据存储,完成大数据仓库建设,自动化保留大数据的历史痕迹,丰富历史数据,为大数据集成分析做数据储备。對大数据质量进行调整与优化,确保数据是逐步可信、权威的,整理与优化是循序渐进的过程。如图1所示。

3.2 数据挖掘分析技术

大数据的数据分析技术主要有朴素贝叶斯、决策树、K最近邻分类、支持向量机、集成学习、K-means、Apriori、最大期望(EM)等技术。本文主要介绍基于支持向量机技术的大数据挖掘技术。SVM算法通过下式的形式来实现,其中表示非线性变换,即使输入空间映射到一个对应的高维空间,同时以线性函数的形式表示出来。

考虑到便于观测样本,上式中的Rn表示输入空间,这样我们即可以简单的将回归SVM视为线性约束二次规划优化问题:

其中是C>0函数复杂度和损失误差之间的一个平衡量。由优化问题(1)的Lagrange函数相对于变量的偏导数为0,可得优化问题(1)的对偶问题,它的解是核函数的线性组合,具有如下的形式:

上式即为回归函数的学习机器即SVM,即为表达式系数始终不能为零的训练样本。

SVM的训练算法本质上是一个二次规划的求解问题,是大数据挖掘分析的重要技术。

4 最终效果

4.1 建成完善的信息标准体系

有了统一的信息标准,在数据抽取、数据清洗、数据分析的过程中有统一的规范,可以最大限度地实现信息优化管理和资源共享。

4.2 提升大数据集成服务的数据质量

通过数据清洗处理,提升数据整体的质量,加强不同系统之间的数据共享的力度,避免重复维护数据,给决策提供更准确的数据支撑。

参考文献

[1] 于长虹,王运武.智慧校园建设的现状、问题与对策[J].教学与管理,2015(06):48-51.

[2] 蒋东兴,付小龙,吴海燕.大数据背景下的高校智慧校园建设探讨[J].华东师范大学学报(自然科学版),2015(S1):119-125.

[3] 熊频.面向智慧校园的学习环境建设研究:案例与策略[J].电化教育研究,2015(03):64-69.

[4] 胡钦太.教育信息化的发展转型:从“数字校园”到“智慧校园”[J].中国电化教育,2014(01):35-39.

[5] 黄荣怀,张进宝.智慧校园:数字校园发展的必然趋势[J].开放教育研究,2012(04):12-17.

Abstract:This paper adopts big data integration service scheme based on data quality and data mining technology of support vector machine to solve the problem of low data quality in current big data management.Through the establishment of scientific analysis model,Manage data quality problem in time,We will continue to improve the overall quality of big data.

Key words:data quality;Big data;Integration services;Support vector machine

猜你喜欢
数据质量支持向量机大数据
浅谈统计数据质量控制
基于支持向量机的金融数据分析研究