基于大数据时代数据项数量“有限量”的探讨

2016-03-16 01:07李铧无锡科技职业学院物联网学院江苏无锡214028
河北软件职业技术学院学报 2016年3期
关键词:数据项限量数据挖掘

李铧(无锡科技职业学院 物联网学院,江苏 无锡214028)

基于大数据时代数据项数量“有限量”的探讨

李铧
(无锡科技职业学院 物联网学院,江苏 无锡214028)

随着大数据时代的到来,数据的使用覆盖了社会的各个方面,随着智慧城市的建设,数据涉及面也越来越广,这触及到一个基本的概念,即数据项的数量到底是无穷尽的还是有限量的。在数据项数量是有限量的情况下,这将改变有关数据应用研究和软件工程理论等许多信息技术研究的理论基础与方向,使得一个最简单的问题涉及到大数据时代的核心概念,为此,确立大数据时代数据项数量是有限量的概念,将会对未来大数据时代的技术发展与数据应用产生深远影响。

大数据;数据项;软件工程

随着智慧城市项目的建设,信息技术的发展已进入大数据时代,物联网和云计算技术为大数据的应用提供了技术支持与保障。在大数据发展应用过程中,相应的理论研究是必不可少的依据与指导。为此,确立在数据平台建设和应用中数据项的数量是有限量的概念,是未来大数据应用过程中发展方向和发展方式的重要基础。

在整体数据结构中,从理论出发点上确定数据项数量是无限量的还是无穷尽的问题,将影响到未来技术研究是面对具体数据项展开,还是面对相应的数据处理技术展开,为此数据项是否有限量的问题将确定未来技术研究发展的方向。笔者提出的观点是:数据项数量是有限量的,只是这个限量的数量级大些。

1 数据项的定义

数据项是指信息化系统中的数据项目,按照软件工程E-R图的定义,数据项是数据的属性项,在数据库中就是指每一个具体的数据字段。

大数据的研究是针对海量的数据,按照数据项进行整理、分析,为此数据项的设置,关系到数据挖掘的质量和数据应用的效率。

2 对数据项限量问题的认识过程

未来大数据所面对的数据项数量是有限量的,只是这个限量的数量级大一些而已。对于这个基本概念也是随着计算机应用系统的发展过程而逐步确立的。随着各种应用系统的使用,信息系统的应用深入到生活、社会、自然界的各个角落,所涉及数据项数量将逐步增多,最终趋于极限值。信息系统的应用与数据应用可分为三个阶段。

2.1第一阶段:小规模系统应用

在第一阶段,计算机应用系统的开发与应用都是以小规模应用和局部应用为主,每一个应用系统所涉及的数据项都有所不同,仅限于应用本身,数据量小,系统规模小,应用范围小。系统应用以单机版或在局域网内使用为主。为此,人们看不到系统数据体系的全貌,只是立足于本系统够用就好,系统的应用与发展关注的是如何建立应用系统。在这个过程中从应用到理论研究都是围绕应用系统建设的方法展开的。

2.2第二阶段:中等规模集成应用

随着互联网技术的发展,应用系统的规模逐步扩大,在某些行业或部门甚至出现了系统应用的全覆盖。由此,涉及的数据项也越来越多,但这些数据项多数局限于某一个具体应用方向上,而且多年的系统应用积累了大量的具体数据,技术的研究与发展侧重点都放在了一定量数据的处理方面。由于系统应用受到行业或使用方向上的约束,数据项数量虽然很大,但局限于行业或应用方向内部,由此,形成了多个内部应用很广泛,但彼此之间相对独立的信息孤岛。在这种情况下,对于数据的研究是以面向对象的方式开展系统建设和数据结构搭建的,系统研究围绕数据的应用性进行理论建设和模型搭建,对数据问题的关注点是通过技术手段解决不同系统中存在的数据同类项的关联上,所有数据局限于应用范围。

2.3第三阶段:大规模全面应用

随着技术的发展,应用系统的规模越来越大,涉及的数据项的数量也越来越多,而且多年的系统应用也积累了大量的具体数据,技术的研究与发展侧重点都放在了理论建立和技术开发上。随着智慧城市等大型信息化项目的实施,大数据的应用范围越来越广,应用系统的建设面临的是各大系统之间的数据互换共享问题,而随着应用的拓展,由于对数据本质的研究不够,就出现了数据接口繁多,数据共享不充分等诸多问题。要解决这些问题,就要对整体数据结构进行规划研究。

3 数据项的数量是有限量的理论依据

数据项数量是有限量的概念的理论依据主要有下述几个方面。

3.1现实社会所包含的事物类型是有限量的

在现实社会中,所有的事物类型虽然数量庞大,但却是有限量的,这本身就是一个基本的自然规律或者说是一个基本的社会规律,例如,行业数量是有限量的,虽然随着社会发展,会不断有新的行业出现,但这都是在社会基本需求范畴内的,这表明世界再大,其所包含的事物也是有限量的,只是这个量值大一些。对于信息化管理的软件系统来说,它所涉及和应用的范围是不可能超过实际事物数量的,而作为记录现实社会信息的数据项数量是不会超过现实社会的事物数量的,为此可以确定数据项的数量是有限量的概念。

3.2从软件工程学的角度能够确立数据项的数量是有限量的概念

软件工程学作为计算机信息系统开发应用的理论指导,虽然到目前为止还是以方法研究为主导,但是在所确立的开发方法中对数据项提出的概念和理论,最终所得出的结论也是同样的。软件工程学中目前所确立的主要的也是最重要的开发方法与理论是面向对象的方法理论,在面向对象的方法和理论中,对于数据项的描述涵盖在对对象、场景的描述之中,并且明确了“类”及类的上层“父类”和下层“子类”,以此为理论依据,那么可以明确,“类”上层不断向上聚集,不会是无限的,为此,数据项是有限量的,同样“类”的下层是子类,不断的分下去也不是无限的,否则系统的建立就没有了依据,所以数据项数量也可以确定是有限量的。因此,对于数据项数量是有限量的概念,是符合目前软件工程学的理论基础的,也是由目前软件工程学理论所推演出来的。

3.3从信息系统的应用开发中能够明确数据项的数量是有限量的概念

信息化系统的建设,从初期的单点应用发展到大数据应用的过程本身就是一个逐步挖掘数据、发现数据的过程,在智慧城市等大系统的建设过程中,已不再是解决都有什么数据的问题,而是围绕这些分布在各个应用系统中的数据项的合并、对接、关联和共享的问题,这也从大数据应用的角度证明了数据项的数量是有限量的概念。

4 确定数据项是有限量还是无限量对未来的影响

为了保证和满足未来大数据的应用,实现平台数据的互联互通,就要对数据结构体系进行研究。如何研究,首先涉及到的一个最基本的理论基础就是数据项是有限量的还是无限量的问题。如果数据项是无限量的,那么采用的方式方法就是继续以数据的应用方法研究为主导,对经常使用的数据进行定义;如果数据项是有限量的,那么研究方法将是对所有数据项进行逐一定义,形成统一的数据标准,最终覆盖所有数据,对于方法方面则围绕定义的方法进行理论研究,并且在各个概念下建立相应的组织机构进行统一管理。

作为大数据应用的基础,数据项的设定将起到关键的作用。在大数据时代,涉及到一个关键问题就是数据项到底是有限量的还是无限量的,将影响到未来技术的发展方向。有限量数据项与无限量数据项是两个根本不同的概念,对于技术的发展影响也是完全不同的。目前,在无限量数据项概念下的大数据应用技术与体系将会存在极大的局限性,本文确立了数据项有限量的概念,将会对未来的大数据时代的技术发展和数据应用产生深远影响。

4.1将影响未来数据挖掘技术的发展方向

目前的数据挖掘技术是针对不同系统产生的数据进行挖掘,也就是数据挖掘技术本身并不清楚要挖掘的数据情况,每次挖掘系统的使用,都需要使用者针对要挖掘的数据进行人工分析,构建模型,进行系统设置。

在数据项是有限量的情况下,数据挖掘技术将针对有限量的数据项建立数学模型,这个数据模型数量也将是有限量的,未来的数据挖掘技术将能够针对具体数据应用来进行研究和发展,更多的是针对具体模型,而不是理论的研究,经过多年研究将会形成大数据挖掘的数据模型库,任何应用只要在这个数据模型库中找到已经完成的模式系统直接使用就可以了。

因此,在数据项有限量的情况下,未来大数据挖掘技术的发展将针对一个个具体应用展开研究,而不是对如何挖掘的技术进行理论研究。

4.2将影响软件工程理论体系的调整

软件工程学随着软件技术的发展而发展,其根本出发点是基于数据项是无限量的,每个系统的开发应用,都要针对所涉及的数据项进行分析,为此软件工程学从理论方法上展开研究,如何进行数据项的研究,由此形成了面向过程、面向数据、面向对象等理论体系,为软件技术的发展和信息化系统的发展起到了积极的作用。

如果数据项是有限量的,软件工程学的理论基础就发生了变化,如面向对象的软件开发技术研究的是如何面向对象,而数据项既然是有限量的,那么就不用继续从理论研究上去面向对象,可以直接面向每一个具体的数据对象进行研究,制定每一个数据项具体的技术标准,形成一个具体的针对应用的数据项应用库,统一所有应用系统的数据项,形成应用标准,为构建商用的综合数据平台打下基础。

因此,在数据项有限量的基础上,软件工程学的研究方法也将转移到对具体数据项进行处理的研究上来,而不只是研究如何办,如何做的理论问题了。

4.3将影响具体应用项目的开发

在目前情况下,每一个具体项目的开发,都要经过需求分析、概要设计、详细设计环节,而后进入开发过程,在这些工作步骤中一项最重要的工作就是要进行数据项的收集、分析、设置,形成数据字典,而后按照数据字典进行数据库的建立。这一过程工作量大、耗时长,基本要占用整个开发时间的30%。

在数据项有限量的理论基础上,先构建综合数据平台,而后所有开发工作都在这个平台上进行,这样,应用系统开发工作将大为简化,就某一项具体的开发工作而言,只要了解清楚数据的变化过程,针对变化过程进行开发即可,这将大大缩短应用系统的开发时间。而针对每一个具体开发形成一个模块,逐步构建起具体应用模块池,将彻底改变目前的软件开发模式。在数据结构平台上逐步形成针对应用的专用开发系统,使应用系统的开发工作逐步实现自动化、智能化。

5 在数据项有限量的基础上数据技术的发展

综上所述,对于数据项是否有限量的问题可以得出一个结论,即数据项是有限量的,只是这个限量的数量级大一些。在数据项是有限量的情况下,各方面的技术发展应做好下述具体工作。

5.1构建整体数据架构和体系

从具体应用的角度出发,在数据项是有限量的基础上,要为每一个数据项找到具体的定位,由此建立一个整体数据架构体系。这项工作,需要对各个行业、条块、体系的数据进行分析,从应用研究的层次提高到整体架构的层次上来,一是建立一套理论架构体系,来指导整体数据平台的搭建;二是为每一个数据项进行定位,为具体应用的使用打下基础,由此形成大数据时代数据挖掘的应用架构。

5.2制定统一的数据项标准

对有限量的每一个数据项制定标准,规范应用,形成统一的数据标准体系,规范数据应用行为,为大数据应用挖掘创造一个良好的数据环境。

5.3改变现有的开发模式

在有限数据项的情况下,研究每一个数据项与其他数据项之间的关系,研究数据项数据内容变化的逻辑关系,使软件开发工作由每次都要进行全面分析过渡到只针对数据内容变化的具体应用开发,改变开发模式,并在这个基础上逐步形成应用系统开发平台,在平台中开发应用系统,这将大大降低应用系统开发的难度,缩短开发周期。

5.4搭建相应的库

这里所说的库包括数据项字典库、数据项关系库、应用系统模块库。由相应的机构牵头,进行相应库的建设,形成标准,搭建起一个类似于LINUX系统应用平台的体系,为整个应用系统开发提供服务。

大数据时代的云计算大平台的建设工作在各地展开,需要理论的支持与研究,以上是笔者对大数据时代数据项是有限量的一些研究和看法,希望能够抛砖引玉,有更多的研究者来共同探讨大数据应用体系的建立。

[1]维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代[M].杭州:浙江人民出版社,2013.

[2]李建义.数据库原理及开发[M].北京:中国水利水电出版社,2005.

[3]艾伯特-拉斯洛巴拉巴西.爆发[M].北京:中国人民大学出版社,2012.

[4]贾晓飞.基于物联网的大数据量实时信息交换策略研究[J].电子政务,2011(4).

[5]张敏霞.基于高并发及大数据量的B2B商务系统的设计与实现[J].河南工业大学学报(社会科学版),2009 (1).

[6]罗陆锋,邹湘军,刘天湖,等.大数据量虚拟景观的三维模型优化与漫游[J].系统仿真学报,2009(6).

[7]任群,唐淑萍.大数据量内容文件管理系统的研究与应用[J].山东农业工程学院学报,2016(2).

[8]陈勇.大数据量多进程环境下生产者消费者模式实现研究[J].电脑编程技巧与维护,2015(24).

[9]郝杨杨,王玉平,黄有方.大数据环境下基于HBASE的订单处理研究[J].中国物流与采购,2015(23).

[10]徐铂韬,张毅,刘亚欧.移动单站定位的线路规划技术研究[J].无线电工程,2014(6).

[11]王安全.SaaS模式下大数据量统计框架的研究和实现[J].计算技术与自动化,2009(2).

[13]杨绪坤,刘义勤.铁路BIM设计系统中的大数据渲染技术研究[J].铁道工程学报,2015(2).

[14]蓝冬梅.大数据环境下高校图书馆开放获取文献的采访策略[J].河南图书馆学刊,2016(1).

[15]朱涛.一种基于增量归集的大数据量的数据查询方法[J].电子世界,2014(17).

[16]张卫华.浅谈通过数据库后台数据评估业务系统的应用开展情况[J].科技与企业,2011(13).

[17]孙中东.企业级数据治理框架下的数据质量管理[J].金融电子化,2011(6).

[18]侯冬梅,谷雨,谷新胜.大数据在科技、教育与信息领域的应用[J].计算机教育,2014(1).

Analysis of Data Items“Finite Quantity”in the Era of Big Data

LI Hua
(Wuxi Vocational Institute of Science and Technology,Jiangsu Wuxi 214028,China)

At the era of big data,data covers all aspects of society.With the building of smart city,data distributes more extensively,which is related to a basic concept—whether the number of data items is infinite or not?In the case of finite quantity,theoretical foundations and directions of information technology and software application research should be changed,which make a simple problem to be the core concepts of the era of big data,which generation a concept of data items finite quantity in the era of big data.It will have a significant impact on technology development and data application direction in the future era of big data.

big data;data items;software engineering

TP311

A

1673-2022(2016)03-0043-04

2016-06-11

李铧(1962-),男,江苏无锡人,高级工程师,研究方向为计算机软件工程、软件外包。

猜你喜欢
数据项限量数据挖掘
探讨人工智能与数据挖掘发展趋势
一种多功能抽签选择器软件系统设计与实现
非完整数据库Skyline-join查询*
基于Python的Asterix Cat 021数据格式解析分析与实现
为创造之心 开启无限视野凯迪拉克XT5周年庆版 限量呈现
基于并行计算的大数据挖掘在电网中的应用
Green Fade里约限量系列全球限量10万支
一种基于Hadoop的大数据挖掘云服务及应用
GB 2763-2014《食品中农药最大残留限量》发布
加拿大:拟修订除草剂Pyroxasulfone的最大残留限量