严鹤峰 袁丽
摘要:随着大数据技术的不断应用,给企业和社会带来了较大的效益。“非遗”作为我国的传统文化信息,其形式多样、内容复杂化,采用传统的口口相传方式不适合“非遗”的发展。于是通过利用大数据技术,设计一个应用系统,该系统能够对“非遗”信息环境资源进行规划和大数据分析,从而提高“非遗”的发展和保存其价值。文章首先对大数据进行介;然后阐述大数据技术的基本流程;最后通过对“非遗”信息进行分析,利用大数据技术设计应用系统。应用系统能够对复杂的“非遗”信息进行存储、查询、分析等功能,有助于“非遗”的保存和发展。
关键词:大数据技术;“非遗”;应用系统
中图分类号:TP27
文献标识码:A
文章编号:1001-5922( 2020)09-0090-04
随着计算机技术的广泛使用和快速发展,数据呈现大规模暴增,大数据时代如期而至。通过大数据技术的应用,各行各业越发的重视大数据,利用大数据提升自身发展[1]。“非遗”作为一种文化信息,在民间通过口口相传的方式进行发展。然而在大数据时代,改变了“非遗”信息的处理模式,传统代代相传的方式已经不再适用,而是将其变得更加数据化和信息化,使其更加符合现代的发展需求[2-3]。于是文章利用大数据技术,设计一个应用系统,能够对“非遗”信息环境资源进行规划和大数据分析,使其传递方式更加科学、合理、有效。
1 大数据的介绍
1.1 大數据的概念
随着社会的发展,大数据变得愈发的流行,人们越发的认识到大数据的价值,全球中很多机构开始参与对大数据的研究,但是对于大数据的定义还没有一个统一说法,不同机构对于大数据的定义会有所不同,在众多大数据定义中本文列举了4种比较有代表性的定义,如图1所示[4]。从这4个定义中可以得到大数据的特点,即大数据不仅具有大的特点,通过对其进行分析还会存在利用价值,所以大数据的本质特点在于大和具有价值。正因为大数据庞大的利用价值,所以全球对于大数据的研究愈发强烈。
1.2 大数据的基本处理流程
“非遗”信息环境资源中涉及到很多的数据,并且由于其数据的形式比较多,会涉及到文字、视频、图片、音频等,使用大数据技术能够将这些数据进行整理分析。图2即为大数据价值转换框架,从图中可以看出,为了将大数据发挥作用,需要对各种数据类型进行分析,只有对其进行分析之后,才能够体现出大数据的价值。
运用大数据的基本流程如图3所示,“非遗”信息环境资源存在大量的不同数据,主要包含半结构化数据、结构化数据和非结构化数据,非结构化数据包含着图片或者图片文本等。需要将这些数据利用大数据技术进行采集,将不同结构类型的数据进行整合和提取。然后,这些数据会比较乱,然后大数据技术会将其进行清洗等预处理,从而对庞大的数据进行存储。将数据进行存储就是为了以后利用,所以会通过数据挖掘、机器学习等算法分析各种数据,从而发挥存储数据的利用价值。最后就是将分析的结构使用人机互动的可视化方式展现给用户。这就是大数据技术的主要基本流程。在“非遗”信息环境资源中利用大数据技术可以将其进行完整的规划,并且用户还能够得到得到反馈。
2 大数据分析应用系统
建立应用系统需要使用到Hadoop技术,因为其性能优异、应用成熟,能够对大量数据进行存储和分析。将其运用于“非遗”信息的应用系统中,因为“非遗”信息的复杂性较高,该技术能够对大量复杂数据进行分布式存储。另外,Hadoop技术能够包含大数据技术处理的基本流程。所以对该应用系统进行设计时选择Hadoop技术是非常合理。
2.1 “非遗”的信息属性
“非遗”信息属于一种特殊的信息,它可以脱离物质载体,其传播方式就是通过原生态、传统的方式,这种传播的效率比较低,因为其信息形式比较模糊,不像媒介能够对信息进行清晰化,使其具有一定的信息结构,所以它的传播比较快,“非遗”在原生态环境中没有一定的结构,所以传播的效率会比较低[5]。
随着科学技术的不断提高,新媒介和数字化传播的方式逐渐被广泛使用,从而提高了“非遗”信息的传播效率。“非遗”信息通过数字媒介会有更好的发展,是一种能够将其提高清晰度,保持“非遗”特性的作用,虽然口头媒介也可以对其进行传播,但是口头媒介容易出现误差,并且没有一个很好的清晰度。所以数字媒介更适合于“非遗”信息的发展,也有利于对其进行“非遗”信息环境资源规划[6]。大数据时代,提高了“非遗”信息的发展,能够对“非遗”进行及时的更新,并且保存大量复杂的“非遗”关系模式,还能够对这些信息数据进行整理规划,从而方便人们得到相关信息。
2.2 Hadoop技术的介绍
Hadoop技术的内容比较多,如图4所示,其中HDFS是一种存储模块,能够对大数据进行处理和存储[7]。Hive的主要作用就是将语言转换为传统的任务,然就将传统的数据进行集成。Mahout是一种对大数据进行处理和分析的机器学习框架,从而能够方便应用系统的扩展[8]。
2.3 应用系统的模块设计
应用系统的的主要功能就是对“非遗”信息进行存储、规划和利用,系统的存储单元是HDFS系统,它能够将“非遗”信息环境资源进行存储,然后对其进行分类规划,使得众多的“非遗”信息数据更加明确、有条理,Hive还可以建立新的数据库系统,使得复杂的“非遗”信息能够进行归类,从而有利于规划。然后存储分类完成之后,可以利用Kylin对存储的数据进行分析,只需要将其接到相应的接口就可将信息传递到系统中,从而得到用户需要的信息。其基本结构如图5所示。
通过利用Hadoop技术设计的应用系统的基本结构如图6所示,其中主要包含三个部分,首先是登录模块,然后是数据选择模块,其中就会包含这多的“非遗”信息数据,最后就是数据呈现模块,用户即可获得自己需要的信息。
图6中的登陆模块设置了用户登陆权限,只有访问权限的用户才能够进入到该系统中。其中数据选择模块中包含着不同类别的“非遗”信息,用户可以根据自己的兴趣爱好进行选择了解。数据呈现就会根据用户的选择,呈现出不同的“非遗”信息,其中可以会以文字的方式呈现、也可能会以表格、视频、音频等方式进行呈现。
2.4 “非遗”信息环境资源数据库
2.4.1 数据分类和存储方式
“非遗”信息环境资源是包含大量的信息,而不是个别的信息,所以对其进行建立数据库时会以数字档案的方式进行存储或者是数据信息建立。“非遗”包含的种类非常多,所以要根据信息的差异性将其划分为不同的形式,每种类型的“非遗”其内容会不同,但是“非遗”中至少需要包含“非遗”的发展历史过程、表现方式和载体、传承人、成果等。对“非遗”信息环境资源进行划分为三个大类,分别为实物档案、记忆档案和“申遗”档案。 数据库的建立首先是信息进行分类,按照上述3种方式可以大致分为3个档案。然后再对其进行设置目录,以“非遗”作为一级目录,然后以不同类别作为二级目录,比如曲艺、传统手工艺、民间文学等。然后再根据具体的研究内容将其划分为三级目录。
在利用Hive数据库时采用的分类方式就如上所述,并且Hive中数据表采用的创建外部数据存储方式,应为这种方式更加的安全,能够降低误操作带来的缺陷,另外不要移动数据,而是采用存储路径指向数据的方式。并且,每个Hive数据表只会有一个文件路径,不会存在其他的路径,所以在后期的管理过程中只需要找到路径即可将数据文件进行管理。
2.4.2 数据库部署
应用系统中数据库属于重要的部分,必须要对其进行选择和建立。数据库具有独立的API,从而可以达到创建信息、管理信息、访问信息、检索信息等操作。由于将“非遗”信息环境资源进行合理的分类,在访问或者检索信息时将会更加快捷,而且通过利用MySQL达到单独索引功能,方便管理,方便对系统信息进行及时更新,所以文章选择的MySQL作为数据管理系统,对“非遗”信息环境资源规划进行管理。
1)数据库安装的启动。获得MySQL数据库的方式简单,直接在官網中下载,本文选择的版本为MySQL RPM,因为该版本能够方便对数据进行管理,并且还能够对用户的使用进行控制管理,用于“非遗”信息环境资源规划和分析更加合适。安装完成之后,需要对其进行检查,是否能够在该系统中进行使用。只有检测合格之后才能将其运用于应用系统中。
2)数据库管理。“非遗”信息环境资源种类繁多,信息数据形式多样、并且会出现不断的更新,所以对其数据库进行管理十分重要。当出现一个新的“非遗”信息之后,要能够将其正确的加入到系统中,并且能够进行查询和分析。
3)数据库的链接。开启数据库的链接采用的方式为PHP,其函数为,其关键参数如表1所示,如果数据库连接成功,则会自动返回到相对的标志。完成数据库的使用之后,需要使用mysql_close0函数将链接关闭。 对于“非遗”的应用系统进行建立,其主要就是数据库的建立,因为只要将数据库建立合理之后,只需要通过相关的方式对数据库进行访问、管理等,这写功能的实现比较简单。通过利用Hadoop技术即可以完成。于是应用系统建立完成之后,就可以对“非遗”信息环境资源规划和大数据分析,能够为用户提供正常的需求。
3 结语
“非遗”信息复杂、内容多样化,存在不同的数据形式,通过大数据技术的应用,设计一种应用系统,能够有效解决对“非遗”信息环境资源的规划和大数据分析,使得“非遗”的传递内容更加准确,并且有助于提高“非遗”的传播速度和效率。文章设计的系统还不够完善,其功能性不全面,有待后续加强。
参考文献
[1]王元卓,靳小龙,程学旗,网络大数据:现状与展望[J].计算机学报,2013( 06):1125-1138.
[2]陈明兵,大数据时代非物质文化遗产资源数据库建设的思考[J].图书情报导刊,2014(21):104-106.
[3]杨子奇.大数据时代非物质文化遗产保护途径研究[J].凯里学院学报,2015(04):59-62.
[4]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(01):146-169.
[5]戴呖,周耀林.论非物质文化遗产档案信息化建设的原则与方法[J].图书情报知识,2011(5):69-75.
[6]张旭,非物质文化遗产的数字化展示媒介研究[J].包装工程,2015(10):20-23.
[7]钱维扬,王俊义,仇洪冰.基于Hadoop的数据挖掘技术在测光红移上的研究[J].电子技术应用,2016,42(9):111-114.
[8]何冲.Hadoop集群调度优化的研究[D].上海:上海师范大学,2015.
作者简介:严鹤峰(1983-),男,汉族,陕西部邑人,硕士研究生,讲师,研究方向:远程教育教学、建筑给排水。
基金项目:陕西省教育厅2018年度重点科学研究计划项目“开放大学视域下陕西“非遗”文化教育资源建设及应用模式研究”阶段性研究成果(18J2009)