大数据时代的数据研究与应用

2022-05-05 09:27:00王保成
襄阳职业技术学院学报 2022年2期
关键词:分词结构化文本

王保成

(襄阳职业技术学院, 湖北 襄阳 441050)

在我们的生活中,数据无处不在。尤其是在大数据和人工智能飞速发展的时代,数据成为人们关注的重点。比如我们几乎每天都在使用的淘宝、京东等电商平台,单位时间产生的数据都是不可估量的。还有我们浏览各类网站时,后台也会自动产生大量的数据。这些数据既可以帮助平台开发者改变决策,也可以为使用者提供更为便利的信息服务。当你多次浏览相似的网页信息或多次购买同一类商品时,数据就会“说话”了,他会在你下次打开网络时,自动为你提供你所关注的信息。[1]正确认识现实社会中的各类数据,掌握它们的有效研究方法,可以让我们的学习、工作、生活更加智慧化。

一、数据的基本内涵

(一)数据

简单说来,数据就是为了某种应用而收集和转换的任意字符的集合。数据的形式既包括文本、数字,也包括图像、语音和视频等。将数据记录下来,可以帮助我们分析、整理和提取数据中蕴含的知识以及规律。在计算机系统中,所有的数据最终都是以二进制的形式来存储的,即用0或1字符串来表示。

(二)大数据

大数据(Big Data),它是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征(麦肯锡全球研究所)。

我们生活在一个数据爆炸的时代,大数据越来越多地出现在我们的生活中并对我们的生活产生诸多影响。大数据说到底就是海量数据的集合,必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于依托云计算的分布式处理、分布式数据库和云存储、虚拟化等技术对海量数据进行分布式数据挖掘。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。大数据的专业化处理,是未来数据发展的主要方向,也是智能时代的利器。[2]

二、数据的类型

存储在计算机系统中的数据一般分为结构化数据和非结构化数据。

(一)结构化数据

结构化数据就是指数据的结构已经定义好,在使用时严格按照定义好的结构进行存储、计算机和管理。最常见的结构化数据就是关系型数据库中的二维表,表中的每一行称为一条数据记录,它包含多个字段,即表中的每一个列数据。比如,我们建立一个学生成绩数据库,每名学生占一行为一条数据记录,每条记录都包括4个字段:姓名、班级、成绩、名次。见表1。

表1 学生成绩数据库

定义好结构后,我们可以往表中存储三条记录,分别表示张三、李四、王五等三名同学的学习成绩。这样的一个表格就称为一个二维表,它是一个典型的结构化数据表。

(二)非结构化数据

非结构化数据,是指数据结构不规则或不完整,甚至没有预定义的数据模型。我们的生活和工作中,往往存在大量的非结构化数据,比如文本、图像、视频和语音等,这些非结构化数据对我们的生活非常重要。在很多行业领域里,80%的业务相关的信息都是来自于非结构化数据,特别是文本数据。[3]图1展示了近五年非结构化数据的增长情况。

图1 2014-2019年非结构化数据增长情况

1.文本数据。文本数据是非结构化数据的一种类型,利用计算机处理文本数据是非常关键和常见的一项技术,也是一个技术难点。让计算机理解文本数据,需要进行编译,这也是人工智能发展的一个方向——自然语言处理。文本数据要比一般的结构化数据占用更多的存储空间。比如,“hello!”这样一个简单的词语,计算机要用二进制表示出来,会是一长串的0、1字符串,如下所示。

文本数据:hello!

计算机表示:01001000 01100101 01101100 01101100 01101111 00100001

2. 图像数据。图像是另一种非结构化数据。一般图像是由很多像素点(分辨率)组成,像素点越多,图像就越清晰。

假设:数字8的图像中,横排有16个像素点,竖排有22个像素点,一共由16*22个像素点组成。如果图像是黑白的灰度图,我们可以用256个等级(0~255)来区分每个像素点颜色的深浅度,此时我们得到一个矩阵。其实,计算机就是用数字矩阵的形式来存储图像的。如图2。

图2 数字8的数字矩阵图

如果图像是彩色的,颜色种类会更多,处理起来就会比黑白的图像更加复杂。

3.语音数据。语音是第三种非结构化数据形式。在计算机中,记录语音是通过将连续的声波进行数字化来完成的。数字化的过程包括采样、量化、编码等。采样是第一步,按照一定的时间间隔,对声音信号的幅值进行一个瞬时的取值。然后进行第二步量化,将瞬时取值得到的信号,按就近原则对应到二进制数值,这样就可以把一个模拟的、连续的声波信号转换成一串二进制编码。

4. 视频数据。第四类非结构化数据是视频,它是由一系列的静态影像与声音组合而成的。视频按照一定的刷新频率进行刷新和播放,利用人眼的视觉暂留原理,当播放的速率超过人眨眼的频率(每秒24帧以上)时,可以给人一种平滑连续变化的动态视觉效果。因此,视频的本质实际上是不断变化的图像,可以把它看作是单位时间内声音的存储和若干帧图像的存储处理,只不过处理视频需要更强大的存储和计算能力。

三、数据的处理流程

利用科学的方法、过程或算法,从结构化或非结构化的数据中提炼知识、洞察规律,这是让数据智能化“说话”的主要途径。

(一)数据采集

借助相关的技术和手段来进行数据的收集。数据管理环节中,通过将收集的数据存储在介质中,来对数据进行管理和维护。

(二)数据治理

通过对数据进行有效组织,可以高效地提升数据的质量,为后面的分析过程提供更好、更可用的数据。

(三)数据分析

通过对数据进行详细的研究和概括总结,提炼有价值的信息来洞察规律。数据分析是整个数据研究过程中最为重要的环节,它是从数据中提取有价值信息的关键步骤。

(四)数据可视化

数据可视化,就是指运用图形、图表等多种有效的可视化方法来展示数据,以便更清晰明确地传递数据中所蕴含的价值,也帮助人们更好地理解数据。

(五)数据安全

我们在分析和运用数据的过程中,是否会产生数据安全问题?是否会侵犯用户的隐私?我们运用算法得出的一些结论,是否会对某些特定群体产生不公平现象?是否会存在认知上的偏见?这些既是数据伦理问题,也是数据安全问题,需要有更深入的研究。[4]

(六)数据应用

对于数据的应用,就是通过对数据的分析,得出知识、见解、原理,或者是相关关系。这是数据智能化的体现。数据应用必将对相关行业领域产生影响,并带来应用价值。

四、数据分析技术的运用

数据分析的主要技术是探索性数据分析和机器学习。探索性数据分析(Exploratory Data Analy⁃sis,EDA)是通过探索数据的结构和规律来分析数据间关系的一种数据分析技术,它注重描述数据的真实分布情况,强调对数据的可视化呈现,以启发和帮助数据分析者找出数据中隐含的规律。机器学习是近年来发展非常迅速的一种方法,也是大数据时代的重要数据分析技术。机器学习利用数据来建立模型,进而获取对信息的理解,发现其中的规律。相对于探索性数据分析,机器学习被广泛用于数据的预测性分析中。[5]

(一)数据分析技术的工作过程

下文以房价预测运用为例,来说明机器学习这种数据分析技术的工作过程。

在房价预测问题中,我们将房屋的面积、布局、建成年代、现知价格等数据输入计算机中,采用某种机器学习算法,通过对这些数据进行计算,建立一个房价的预测模型。利用这个模型,当再次输入房屋面积、布局等相关数据时,就可以自动输出这个房屋的价格。在这个过程中,最关键的是预测模型的建立,即要建立一个准确、科学的输入数据与预测房价之间的映射关系。假设预测房价为目标变量y,输入的数据称为特征变量x,其模型可以表示为:y=f(x),其中x代表房屋建成年代、房屋面积、布局等数据,f表示特征变量与目标变量之间的映射。如下所示。

在建立这个模型时,机器学习的方法需要将收集到的数据集合分为训练集和测试集两组。训练集用来训练模型,即得出函数关系y=f(x);测试集用来评估模型的有效性,即我们得出的函数关系y=f(x)与真实情况相比,准确度有多高。一般情况下,在拥有的数据样本中,我们至少要拿出70%的数据样本来进行模型训练,再用剩下30%的数据样本来对得出的模型进行测试。

除了房价的预测之外,孩子身高的预测、银行贷款客户的信用风险评估、电商客户消费和购买行为预测等领域,机器学习都有着广泛的应用。

(二)数据分析技术的典型应用:中文分词系统NLPIR

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,比如“Hello world!”有两个单词,而中文分词比之英文要复杂得多、困难得多。例如:“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“他被任命为中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别?

分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的。因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。研究中文分词的大多是科研院校,中科院、清华、北大、哈工大、北京语言大学、山西大学、东北大学、IBM研究院、微软中国研究院等都组建了研究团队。比较好的中文分词方案有中科院汉语分词、哈工大分词器、清华大学THULAC、斯坦福分词器、Hanlp分词、结巴分词工具等等。

NLPIR是中科院张华平博士开发的中文分词系统,被誉为自然语言处理奠基之作,目前国际、国内测评双第一。NLPIR分词系统前身为2000年发布的ICTCLAS词法分析系统,从2009年开始,调整命名为NLPIR分词系统,推广NLPIR自然语言处理与信息检索共享。现在的NLPIR大数据语义分析系统能够全方位多角度完成对大数据文本的处理需求,包括大数据完整的技术链条:网络抓取、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析、语义深度扩展、繁简编码转换、自动注音、文本聚类等。

猜你喜欢
分词结构化文本
促进知识结构化的主题式复习初探
结构化面试方法在研究生复试中的应用
计算机教育(2020年5期)2020-07-24 08:53:00
在808DA上文本显示的改善
结巴分词在词云中的应用
智富时代(2019年6期)2019-07-24 10:33:16
基于doc2vec和TF-IDF的相似文本识别
电子制作(2018年18期)2018-11-14 01:48:06
值得重视的分词的特殊用法
文本之中·文本之外·文本之上——童话故事《坐井观天》的教学隐喻
基于图模型的通用半结构化数据检索
计算机工程(2015年8期)2015-07-03 12:20:35
如何快速走进文本
语文知识(2014年1期)2014-02-28 21:59:13
基于软信息的结构化转换