马思根 赵小明 吴勇
摘 要: 贵州省非物质文化遗产极为丰富,蕴涵着贵州各民族特有的精神价值、思维方式、想象力和文化意识,体现着贵州各民族的生命力和创造力。为了更好地发掘和保护贵州非物质文化遗产,通过对贵州省非物质文化遗产保护中心网的数据挖掘,采用词云分析、聚类分析和可视化技术等,对贵州非物质文化遗产的文本数据进行处理,并提取有价值的关键文本信息,为贵州非物质文化遗产的传承和发展提供依据。
关键词: 聚类分析; 词云分析; 数据挖掘; 非物质文化遗产; 贵州
Abstract: Guizhou Province is rich in intangible cultural heritage, which contains the unique spiritual value, mode of thinking, imagination and cultural consciousness of all ethnic groups in Guizhou, and reflects the vitality and creativity of all ethnic groups in Guizhou. In order to better excavate and protect the intangible cultural heritage of Guizhou, through data mining of Guizhou intangible cultural heritage protection center network, the text data of Guizhou intangible cultural heritage are processed by word cloud analysis, clustering analysis and visualization technology, and valuable key text information is extracted to provide basis for the inheritance and development of intangible cultural heritage in Guizhou.
Key words: clustering analysis; word cloud analysis; data mining; intangible cultural heritage; Guizhou
0 引言
非物质文化是一种非物质形态的文化,它常存在于民间并且世代相传,具有浓厚的艺术价值和历史价值,其主要的表现形式有工艺、文学形象、音乐和图像等,通过身形和语言传承并延续至今,是人类历史发展進程中不断积累的珍贵财富[1]。贵州省非物质文化遗产极为丰富,是我国非物质文化遗产的重要组成部分,也极大地丰富了世界文化的多样性。然而,由于各种因素的影响,贵州非物质文化遗产在发掘、继承、保护和发展等方面的缺失,导致一些非物质文化遗产正面临着不断消亡的尴尬局面。为了改变这种窘迫的境况,更好地发掘、继承、保护和发展贵州非物质文化遗产,就显得非常迫切。虽然为了推动非物质文化地区经济的繁荣发展和非遗的保护工作,贵州省各地区以政府为主导,积极打造以非物质文化遗产为基础的文化旅游经济,力求在推动地方经济发展的同时,弘扬非物质文化遗产精神[2],但其效果极为有限。本文通过爬取贵州非物质文化遗产现有文本数据,然后进行词云分析、聚类分析以及可视化技术处理等对贵州非物质文化遗产展开研究,力求为贵州非物质文化遗产的有序传承及其健康发展提供可靠的依据。
数据挖掘是对大型数据库、数据构件库和其他大型信息资源中标志知识含义的类型的自动或便捷的提取,是从大量数据中提取出可信、新颖、有效并能被人理解的模式的高级处理过程[3]。文化遗产的数据挖掘与云计算相结合,为文化遗产的感知、认知和决策提供了基础[4-5]。贵州非物质文化遗产的网页信息数不胜数,要选取可靠的网页信息源,并从这些海量的数据中提取有价值的信息,挖掘出贵州非物质遗产的文本数据信息,分析这些数据之间的制衡关系,并为贵州非物质文化遗产的发掘、保护和继承提供依据,这是本次研究的意义所在。
1 数据源的选取
网络中关于贵州非物质文化遗产数据信息数以亿计,而且鱼目混珠,数据的爬取及收集首先需要选择可靠的数据来源,本次研究选择贵州省非物质文化遗产保护中心官方网站作为文本数据来源。贵州省非物质文化遗产保护中心是贵州省文化和旅游厅直属的事业单位,是承担全省非物质文化遗产的普查、传播和数据库建设,开展非物质文化遗产理论研究、学术交流、科学实践及保护工作,并负责进行全省非物质文化遗产保护的人才培训和相关咨询服务的工作机构,其官方网站数据也是贵州省非物质文化遗产领域最权威、最齐全的数据。本次研究通过对贵州省非物质文化遗产保护中心官方网站解析其URL,并且运用Python相关的库,编写代码爬取贵州省非物质文化遗产的相关文本数据并进行分析。
贵州省非物质文化遗产保护中心网站,网址为:http://www.gzfwz.org.cn/。网站分为导航和主体网页两大部分,网站主体页面内容包括通知公告、新闻动态、遗产名录、政策法规、学术论坛、传承人、协会工作、非遗产品和工作机构等十三个板块;网页的具体内容包括标题、作者、来源、正文、时间以及阅读量等等。
2 数据的爬取及数据库表设计
选定网络文本数据源后,就可以利用网络爬虫抓取网站上有价值的文本信息,保存到本地文本或者数据库中,为后续的研究提供基础数据语料。基于Python的网络爬虫步骤为:
⑴ 首先建立URL列表,编写脚本与网站进行交互,利用Python库(urlib、urllib和httplib),并获取网页中的相关内容。
聚类分析是描述数据中对象之间的关系,进行数据对象分组的过程。利用数据对象的相关性和不相关性聚类,差异越大,聚类效果越好。其中,K-means是常用的聚类方式,它是一种基于距离的迭代算法[7]。这里讨论基于贵州非物质文化遗产的聚类分析,主要包括TF-IDF、聚类分析、可视化分析等过程。
4.1 TF-IDF权重计算及结果分析
通过TF-IDF权重计算的方法,分析爬取的贵州非物质文化遗产文本数据,TF-IDF(Term Frequency-Inverse Document Frequency)是一种用于资讯检索与文本挖掘的常用加权技術,用于评估一个字词文本对于一个文件集或一个语料库中的重要程度。字词的重要性随着它在文件中出现的次数增加而增加,但同时会随着它在语料库中出现的频率增加而下降。根据表9关于贵州非物质文化遗产词汇统计情况,做如下的计算。
⑴ 计算TF(词频)
由于文本大小不一样,需要进行词频标准化整理。计算方法如式⑴所示。
通过计算TF-IDF值可知,某文本中“表演”、“传承”出现的次数很高,说明贵州非物质文化遗产中“表演”、“传承”方面的内容比较丰富。同时计算剩余几个词语的TF-IDF值并相加,便可以得到整个文档的值,并能用于信息检索。
4.2 聚类分析
基于非物质文化遗产的数据分析、挖掘技术越来越受到关注。K-Means聚类算法快速、简单,适合大规模数据挖掘[8]。在聚类分析过程中,文本调用Sklearn机器学习扩展包Kmeans,散发属于欧式距离。基于贵州非物质文化遗产的聚类分析中,首先对收集的贵州非物质文化遗产语料集数据预处理,然后使用jieba工具对处理后的数据进行中文分词,接着使用Python包导入数据,进行K-means聚类分析,最后导入画图包,对数据进行可视化展示。聚类分析的实验过程如下。
⑴ 导入KMeans聚类扩展包,from sklearn.cluster import KMeans从机器学习聚类中导入KMeans聚类方法。采用clf=KMeans(n_clusters=10)设置类簇为10,因为非物质文化一共有民间文学、民间音乐、民间舞蹈、传统戏剧、曲艺、杂技与竞技、民间美术、传统手工技艺、传统医药、民俗这10种类别。
⑵ 导入数据集进行降维处理,data=pd.read_csv('shujuchuli.csv')为TF-IDF贵州非物质文化文本处理结果的数据集,from sklearn.decomposition import PCA进行降维处理。
⑶ 可视化,import matplotlib.pyplot as plt导入画图包,利用plt.scatter(x,y,c=pre,marker='o',s=200)绘制散点图。
通过以上过程的代码实现后,可得贵州非物质文化遗产文本TF-IDF聚类分析结果如图2所示。
如图2,根据编号将文本内容分为10类。整体来看除了1号和9号外,其他类的差异不大,主要集中在零点附近,也代表大多数文本之间的差异不大。其中只有1号和9号偏离较远,表示1号和9号与2号、3号、4号、5号、6号、7号、8号和10号相比差异较大。
5 结束语
通过对贵州非物质文化遗产的数据爬取以及文本数据处理和分析,可知贵州非物质文化遗产的关键词有“苗族”、“活动”、“传承”、“文化”、“表演”、“民间”、“侗族”和“民族”等,由此说明贵州非物质文化遗产在这些方面所占的数量比较多,在将来贵州非物质文化遗产继承和保护过程中需重视这八个方面的内容。通过计算词频最高的八个“关键词”TF-IDF值,可知其中“表演”和“传承”出现的次数更高,说明贵州非物质文化遗产中“表演”和“传承”方面的内容比较丰富,说明将来贵州非物质文化遗产的发掘和发展可以从这两个方面入手,将能发掘出更多、更好的非物质文化遗产。通过对贵州非物质文化遗产的聚类分析可知,民间文学、民间音乐、民间舞蹈、传统戏剧、曲艺、杂技与竞技、民间美术、传统手工技艺、传统医药和民俗这10种类别中,除了两种类别差异较大外,其他类别差异不大,说明对各种类别的贵州非物质文化遗产的发掘和发展尽量平等看待,共同发展。
参考文献(References):
[1] 曹瑞.互联网商业信息中的非物质文化数据挖掘及空间可视化[D].河北师范大学,2012.
[2] 浦凯迪.关于贵州少数民族非物质文化遗产保护的调查研究[D].北京印刷学院,2015.
[3] 李晓城,张增杰,夏勇明等.基于Web数据挖掘的健康餐饮分析推荐系统的设计[J].微型电脑应用,2011.27(1):44-46,5-6
[4] 马楠,鲍泓,刘宏哲等.Web 3D图像的存储管理及在数字博物馆中的应用[J].北京联合大学学报(自然科学版),2006.20(1):45-48
[5] 鲍泓,刘宏哲.大数据时代文化遗产数据挖掘的认识[J].北京联合大学学报(自然科学版),2015.29(3):1-4
[6] 周善.数据新闻:网站专业生产内容(PGC)的可循之途——四大门户网站的数据新闻实践[J].编辑之友,2014.8:70-73,86
[7] 范生姣.黔东南非物质文化遗产现状及保护对策研究[J].凯里学院学报,2014.32(5):37-40
[8] 张大虎.基于主题的文本数据采集系统的研究与实现[D].东北大学,2010.