基于大数据的非物质文化信息分析方法

2021-03-22 02:53蒋姗姗梁建伟邸臻炜
电脑知识与技术 2021年4期
关键词:非物质文化大数据

蒋姗姗 梁建伟 邸臻炜

摘要:大数据环境中,非物质文化的数据信息分析是以其信息建设、管理为前提。基于此,提出基于大数据的非物质文化信息分析方法。首先利用数据挖掘对数据信息进行采集和加工,之后对其进行清洗、信息关键特征提取以及数据信息建设,从而有效实现对非物质文化信息的分析管理。实验结果表明,本文提出的基于大数据的非物质文化信息分析方法,在非物质文化信息测试中可以有效实现错误信息文本的自动分析,从而减少了人工分析错误信息文本的工作量,且具备时间短,工作效率高的优势。

关键词:大数据;非物质文化;信息分析

中图分类号:G350      文献标识码:A

文章编号:1009-3044(2021)04-0039-02

大数据作为数据在一种全新的处理模式下自动生成庞大的、海量的、多样化的信息资产的现代代名词[1]。其最关键的技术变革就是促使人们能够利用更多海量数据,而非对某个数据的随机取样;人们不再过分苛求数据信息之间的因果关系,而转变为对相关关系体系的重视[2]。非物质文化在数据信息分析上的研究是非常及时和有必要的。通过信息的智能化手段,对非物质文化的数据信息分析是在目前非物质文化应对严峻社会环境下生成的新方法、新手段。

1基于大數据的非物质文化信息分析方法

1.1数据的采集与加工

大数据在信息获取过程上具备一定难度和复杂,是由于现代社会中生成的庞大数据,虽然人们基本上是将其所需信息储存在计算机网络之中,然而其中也存在着很多和自身发展并无多大关联的冗杂信息,使得信息变得更为复杂多样。数据信息只有被实际应用的前提下才可以完全发挥出其应有的功能,使用者在计算机网络上按照关键词对信息进行有用搜索,计算机对和关键词有关的信息进行仔细的筛选和整理,最终将搜索结果具体展现出来,使用者按照这些搜索结果最终确定信息内容,这就是对信息的获取和采集过程[3]。

加工过程:一般状况下,假如使用者获取到的数据信息较多,那么其就越需要利用计算机更为复杂多样的程序来对检索工具的准确度和严谨性进行提高,进而提升使用者获取信息的精准性。计算机在为使用者加工信息的全过程中,为进一步保证信息的准确性,就需要对计算机的应用状态进行实时监管,过滤掉垃圾信息,从而实现对数据信息的重点加工[4]。在对信息数据进行加工的时候,有必要利用计算机信息处理对使用者提供的信息关键点进行精准定位,并对数据库信息进行二次归类和整合,从而为客户提供其所需的有效信息。加工环节中,将从CNKI导出我国非物质文化一系列的研究数据,依次保存为Refworks格式、Endnote格式[5]。Refworks格式内的数据可引入Cite space,借助转换格式能够生成有关作者、合作组织以及关键词共现等加工而成的知识图谱。Endnote格式内的数据可引入SATI,借助转换格式能够就作者、机构名称、关键词分别建立Excel格式的共现矩阵,之后将共现矩阵导进Ucinet从而生成**h文本格式,利用Netdraw选调能够自动加工生成实际可需的可视化图谱。也可以利用Ucinet转换成.net格式下的文本矩阵,导进VOS viewer就能够自动加工生成实际可需的可视化图谱。如此一来,在数据完成采集和加工的基础上就可以为后续数据清洗提供便捷。

1.2数据清洗

数据清洗的目的就在于将原始文本数据中出现的不规范、格式重复、语义歧义、冗余数据以及信息指向不明确的数据完全排除。数据清洗一般会利用空值、差误值、不完整数据、干扰数据类型、异常数据等清洗方法。在以上手段的应用基础上,还利用了以下数据清洗法:第一,增加限定状语,如“形容词+名词”等;第二,按照发布者的具体IP地址,排除非限定地区搜索出来的信息;第三,按照微博上显示的前后时间关联,排除掉一些延续性信息的微博;第四,按照发布内容的有关性,排除和社会一般认识无关的评论、新闻等;第五,排除非人群特征类信息,譬如转发的报纸、学报、期刊、官方新闻等。将所有数据清洗完毕后,获取到的数据信息本身在格式、规范、语义以及指向性等方面是合格的,这在很大程度上可以为之后关键特征的提取减少阻力,降低操作环节的复杂性。

1.3提取信息关键特征

数据清洗后,将完成清洗的文本信息进行扫描,将计算机网络中出现的关键词以词频的方式,作为对应对象描述的主要内容。另外,文本利用tf-idf权重来确定关键词的重要性,衡量非物质文化和一系列关键词间的关系。tf-idf权重在基于大数据的基础上在信息分析与管理等领域上已经有了成功案例,分析手段已经发展的比较成熟了。利用阈值设定和排序分列,筛选出权重比较高的关键词。tf-idf值的计算公式表示为:

式中:[x]代表文档[D]内所有的关键词;[tf(x)]代表某一提取关键特征值在文档中出现的实际次数;[idf(x)]代表某一提取特征值在整个文档内的分布状况;[N]代表文档[D]数据内的文本数目,[D]代表某个非物质文化信息的数据集合;[d∈D:x∈d]代表文档[D]内包括关键词x在内的所有文本总数;[fx]代表关键词出现的具体频次;[Nd]代表关键词出现的总数。

通过上列公式获得tf-idf值来确定关键词的重要程度后,就可以对后续数据信息的建设提供重要依据,从数据上增加非物质文化信息分析的在关键词上的准确度。

1.4数据信息建设

在非物质文化的数据信息建设上,首先要务就是将原始数据进行细致分类,构建数据关系,以及对数据逻辑体系下的关键数据进行分析。在上述操作环节完成的基础之上,将在非物质文化信息的前期调研中采集到的诸多海量的图片、文字、视频等信息加工在一起,因为受到技术、采访环境、以及偶然因素等限制,还没有形成一个统一的标准化组织形态。从非物质文化数据信息建设的立场上,利用技术标准的统一制定,对原始信息进行标准化处理。对于庞大的非物质文化信息资源,借助大数据技术,以数据统计学的手段,构建数据之间的逻辑关系结构,将会为非物质文化的深入发展奠定一定研究基础。非物质文化信息资源在归类整理上也能够根据研究属性来划定。而在属性研究上,对其划分的主要依据就是根据非物质文化的信息门类,以各个领域内的具体内容为标准进行划分。归类构建数据库时必须以非物质文化为一级目录,以目录类别为准构建二级目录,比如民族舞蹈、民俗音乐、传统曲艺、传统手艺(如杂技、体育竞技等)、传统美术、传统医药等,以具体内容构建三级目录。另外一方面,对非物质文化信息资源来说,还需要利用信息建设、使用者分析、传播途径等角度对其进行进一步的研究,研究内容视研究视角不同而有所区别。完成一系列分类整理建设之后,我们就可以将信息分析交给元数据来实现。

1.5大数据信息分析

对于非物质文化而言,对其元数据进行设计前必须首先了解有关非物质文化馆藏资料的部分特殊属性,并对这些特殊属性进行分析管理,不同类别的非物质文化遗产资料对应的元数据信息类型也各不相同,如此一来才可以实现对元数据的更好管理。非物质文化信息元数据管理分析设计的主要目标是为了便于对非物质文化信息资料的元数据进行精准分析与管理。这部分工作主要有两方面来完成,即元数据数据库和功能设计。

元数据数据库设计:首先需要制作一张元数据表(Metadata),在元数据表中按照数据信息下不同类型的非物质文化添加不同信息,同时在非物质文化类别表中也需要按照添加的内容的不同自动添加元数据信息的新字段。向元数据总表内添加新的元数据以后,非物质文化类别表就会自动添加新信息,该信息对应了总表中元数据的全部记录。

功能设计:非物质文化元数据管理主要是采取C/S构造,具体包括了非物质文化元数据管理、专业资料信息管理这两方面内容。它能够对元数据进行动态实时的管理,如信息删改、增添和查看等一系列操作。其中自定义编号是为了进一步保证元数据在内容修改上的方便,如有助于增添新的元数据,同时表单将会按照自定义的编号顺序排列,使用者在实际操作过程中,以非物质文化的具体类别为主,能够自行查阅已经输入和导入进去的元数据表单。还有利于增添新的元数据信息,也能够对表格内的现有元数据进行删改,如元数据的字段、长度、类别、实例、名称等。

2实验与效果分析

为了更加清楚、具体的看出本文提出的基于大数据的非物质文化信息分析方法的实际应用效果,特与传统的非物质文化信息分析方法进行对比,对其信息分析的平均耗时进行比较。

2.1实验准备

为保证试验的准确性,以某地非物质文化信息数据库的测试用例作为基本资料,将两种非物质文化信息分析方法设计置于相同的硬软件配置之中,进行错误文本信息的分析,实验其信息分析平均耗时。配置参数见下表。

2.2实验结果分析

试验过程中,通过两种不同的非物质文化信息分析方法设计同时在相同配置环境下进行工作,分析其信息分析平均耗时的变化。实验效果对比图1所示。

实验结果表明,本文提出的基于大数据的非物质文化信息分析方法,在非物质文化信息测试中可以有效实现错误信息文本的自动分析,从而大大减少了人工分析错误信息文本的工作量,且具备时间短,工作效率高的优势。

3结束语

对基于大数据的非物质文化信息分析方法进行分析,虽然大数据的非物质文化信息分析法的应用已经在社会各领域获得了比较好的应用效果,然而影响非物质文化信息的建设因素是多种多样的,要想完全了解各类人群对非物质文化信息的认知,就具备较大的挑战。希望本文对非物质文化信息分析方法可以为未来有关大数据以及非遗保护和传承提供一定价值的借鉴。

参考文献:

[1] 马思根,赵小明,吴勇.贵州非物质文化遗产的数据挖掘与分析[J].计算机时代,2020,10(5):41-45,49.

[2] 张一然,陈爱强.信息可视化设计下的非物質文化遗产保护和传承——以北塘飞钹为例[J].工业设计,2020,12(4):137-138.

[3] 余佳睿.非物质文化遗产数字化保护与开发——以南京为例[J].华夏文化,2020,1(1):41-42.

[4] 张轩宇.基于大数据的江南非物质文化遗产品牌网络影响力实证研究[J].中国经贸导刊(中),2020,15(5):66-71.

[5]侯效彬.基于“大数据”时代的计算机信息处理技术探讨[J].现代信息科技,2019,3(2):89-91.

【通联编辑:张薇】

猜你喜欢
非物质文化大数据
日本非物质文化遗产保护及启示
大数据环境下基于移动客户端的传统媒体转型思路