数据种类、质量及数据处理

2017-03-09 19:29
环球市场 2017年16期
关键词:对象特征信息

张 悦

上海大学

数据种类、质量及数据处理

张 悦

上海大学

本文介绍了什么事数据,数据的属性和数据值是什么,数据的种类包括标称属性、序数属性、区间属性和比率属性,以及数据质量和数据处理必要步骤

数据;数据处理

什么数据?《中国大百科全书》给出的定义是:“数据,或称资料,可由人工或自动化手段加以处理的那些事实、概念和指示的表示形式,包括字符、符号、表格和图形等”,全书认为数据是关于事件的一组离散的客观的事实描述,是构成信息和知识的原始材料。

人们在日常生产生活中会产生大量的信息或者说数据,在浏览照片的角度,这是信息,而在网站的维护人员来看这是一串数据,但是数据和信息显然存在某种关系。有人认为数据是信息的具体表现形式,信息经过加工成数据才能传输和存储。那么数据是否可以指能够传输和存储的信息呢,从信息论的观点看来,数据=信息+数据冗余,可以简单的理解为信息是数据中包含的有用的内容,因此,为了获取信息我们有必要研究数据,研究数据从认识数据开始。

一、数据和属性

属性是客观对象的特征或特性,一种属性往往反映事物对象一方面的特征,例如:一个人眼睛的颜色、肤色。一系列的属性就能够客观的的描述事物对象,例如:《血字研究》中,福尔摩斯描述嫌疑人的特征:身高六尺、性别男、脸色赤红、吸印度雪茄等,这一系列的特征就大致勾勒出嫌疑人。在数据研究中属性也常被称为变量、特征或特点。

1、属性值

在福尔摩斯的案例中,我们用“六尺”数值来描述“身高”这种属性,用“赤红”描述“脸色”这种属性特征,“六尺”、“赤红”就是我们赋予属性的数值和符号,称为属性值。

属性和属性值之间的关系:同一个属性可以赋予不同的属性值,例如,当形容笔记本“长度”这个属性时,我们可以赋予“长度”属性1英尺的属性值,也可以赋予12英寸或30.48厘米的属性值。不同的属性可以用同一套价值标准来衡量,例如,人年龄和身份证这两种属性的属性值都是整数,但需要注意的是,两种属性所赋予的属性值的性质有所差异,人的年龄有最大值和最小值,即存在一个整数区间,但是身份证号码却没有这种限制,理论上可以取任意整数。

2、属性的类型

属性有不同类型,每种属性属于那种类型取决于属性值拥有以下几种特征:可辨别性、顺序性、可加减和可乘除。当某种属性的属性值能够区分一个对象和另一个对象信息之间的区别,例如:员工代码能够明确的区分两个员工、压缩码能够辨别两个文件,就把拥有这类属性值的属性归为标称属性。当某种属性值不仅具有可辨别性,而且属性值的排序具有一定意义,例如成绩顺序可表示优差、金属硬度顺序可为加工制作选材提供依据,那么就把拥有这类属性值的属性归为序数属性。当某种属性的的属性值不仅具有可辨别性和顺序性的特征,值之间的差异还是有意义的,即一个测量存在单位,这类属性是区间属性。当某种属性的属性值具有以上四种特征时,我们把他归为比率属性,比率属性值之间的差异和比率本身都是有意义的。

总之,属性分为四种类型:标称属性(nominal)、序数属性(ordinal)、区间属性(interval)和比率属性(ratio)。每种属性的属性值特点不同,每种属性也有所不同。

3、数据的离散属性和连续属性

离散数据有一个有限或可数无穷数集,通常表示为整数变量,具有离散属性的数据只能呈现一定的个体价值。

连续数据是拥有实数作为数值集,实际上一般使用有限数值来测量和表示真实的价值。连续数据在一定范围内具有价值,比如:温度、高度、重量、比赛时间、汽车的最高时速。

二、数据集的种类

1、数据矩阵

如果数据对象拥有同样固定的属性,这样数据对象可以被看做是一个多维空间中的点,每一个维度代表一个不同的属性。这样数据集就可以表示成x、y代表的矩阵。x代表横向,每一个单位代表一个对象,y是纵向,每一个单位代表属性值。

2、文件数据

在文件数据中,每一个文件变成一个向量,每一个属性都是这个向量的组成部分。每一种属性的价值就是在一条文件记录里发生的次数。

3、交易数据

一种特殊的记录数据。因为每一条记录都会有不同的术语,也就是记录之间的属性不完全相同。

三、数据质量

数据存在问题,数据噪音和数据异常、数据和数据重复。数据噪音指的是改变了初始值。数据异常指的是在数据集中,数据的属性特征和和其他大多数的数据有所不同。数据丢失的原因有:信息没有收集到,例如,在调查中人们会少说他们的年龄和体重;预设的属性不适合所有的案例,例如,平均收入对于儿童来说是不适用的。解决的方法有:剔除数据对象、估计无效值、在分析时忽略无效值、用所有可能的数值替换,比如用人们所有有可能的体重都计算一遍。重复数据是指数据集中的数字对象重复,或者某些属性值重复,主要问题是发生在在从混杂的数据资料中合并提取数据时,例如,同一个人拥有多个邮箱地址,这个时候我们就要进行数据清洗。

我们研究数据的本质目的是为了能够更好的处理工作、科研生活中产生的海量数据,了解数据的本质能够为我们如何组织、存储数据,共享、应用数据,制定可行的保障政策奠定基础。

张悦 女 汉 河北石家庄 研究生 上海大学 研究方向:数据挖掘

猜你喜欢
对象特征信息
根据方程特征选解法
涉税刑事诉讼中的举证责任——以纳税人举证责任为考察对象
不忠诚的四个特征
攻略对象的心思好难猜
抓住特征巧观察
订阅信息
基于熵的快速扫描法的FNEA初始对象的生成方法
区间对象族的可镇定性分析
展会信息
抓特征 猜成语