陶晨 白琳琳 金姝 徐蓉蓉 杨剑平
摘要: 针对丝绸文化演变的数字化观测问题,文章探析大数据中的丝绸文化情感特征与构成,透视新时期丝绸文化的内涵升级。利用主题网络爬虫技术采集得到丝绸文化情感的大数据,对情感词词频的统计展示了丝绸文化正、负情感在“一带一路”倡议影响下的总体走向;对历年丝绸文化情感来源的构成分析,发现了物质性来源的下降趋势、社会性和精神性来源的上升趋势,揭示了“一带一路”影响下丝绸文化主导形态的转变和升级。研究结果表明,对于新时期丝绸文化发展状态的评估、文化政策制定具有重要参考价值。
关键词: 丝绸;情感;大数据;文化计算;“一带一路”倡议;词频
Abstract: Around the digital observation of silk culture evolution, this study is intended to explore the characteristics and composition of silk cultural emotions in big data, and reflect connotational upgrade of silk culture in the new era. Big data of silk cultural emotion was collected with topic-focused crawler technology, and emotional word frequency was counted to reflect the general trend of positive and negative silk cultural emotions under the impact of the Belt and Road initiative. Analysis was made on the composition of silk cultural emotion source over the years to reveal the decline of material sources and the rise of social and mental sources, as well as the transformation and upgrade of the dominant type of silk culture under the impact of the Belt and Road initiative. The findings have an important reference value for estimation and policy-making in the domain of silk culture in the new era.
Key words: silk; emotion; big data; culture computation; "the Belt and Road" initiative; word frequency
中國丝绸古往今来传承数千年,品种与技艺繁多,同时也承载了劳动人民丰富的情感与信念,深刻地影响了民族个性和民族心理的形成。近年来“一带一路”倡议的推行,赋予丝绸文化新的时代内涵和发展动力,由此引发的丝绸文化情感的涌动和翻新,成为考察新时期丝绸文化演进和升级的独特窗口。国内已有许多学者探讨新时期丝绸文化的演变和适应性发展,如讨论丝绸文化的复兴[1]、新时期文化共同体的形成[2]、新丝路历史文化遗产的保护策略[3]、新时代背景下丝绸文化产业融合发展策略[4]等。该类研究采取社会调查、资料整理和观点讨论的传统方法,主要成果形式为提出愿景或对策,而鲜有对丝绸文化现实状态的数据实证。另一方面,随着大数据技术应用的不断深入,跨学科的“文化计算”应运而生,成为利用数据挖掘和文本处理进行文化与社会科学量化分析的前沿性领域[5]。文化计算源起哈佛大学的Aiden等[6]对谷歌数字图书数据进行的研究,其通过海量文本中单词或人名随时间变化的频率,推导出了一些重要历史文化事件和趋势,证明了利用大数据处理手段提取文化特征并进行量化分析的可行性;中国学者邵培仁等[7]对词频方法用于文化基因的提取做了探索,提出了利用文化计算方法进行中华文化基因库建设的构想;龚为纲等[8]通过大数据词频分析,结合关系网络与语义情感,考察了海上丝绸之路中丝绸产品的贸易格局和文化影响力;陶晨等[9]在词频统计基础上分析了丝绸文化的特征分布及其背后的新时代内涵,展示了丝绸文化在“一带一路”倡议影响下的演化过程;Correia等[10]考察不同语言中各种动物名称的频率分布,通过实时监测物种文化可见度的变化,揭示了公众环保意识的纵深演化;Kozlowski等[11]利用词向量模型研究社会阶级结构,发现了社会阶级的形成与转化随宏观经济波动而周期性改变的规律。本研究将文化计算方法用于丝绸文化大数据中情感要素的挖掘和量化分析,透过情感变化观照文化的演变,新时期丝绸文化的内涵升级可见一斑。
1 数据采集与处理
文化即人的生存方式,丝绸文化是中国劳动人民养蚕、制丝、织绸的生活方式及在此之上衍生和沉淀的社会传统、礼节习俗、民族情感、思维模式等。丝绸文化相关的文本可以通过人工方式从书籍、报纸、电视、网络等媒体上搜集,当积累的数据达到一定的规模,能够基本覆盖人们在这一对象上产生的所有言论或观点,即形成了丝绸文化的大数据。但人工采集方式耗时耗力,且难以保证数据的时效性,近年来逐渐让位于自动化采集方式。
当今世界,互联网已成为全球第一大媒体,特别是社交网络的不断渗透,人们日常生活与工作的所见所闻所想,几乎立刻就会出现在互联网上。互联网不遗巨细地映射了人们社会生活的点滴,因此其蕴含的海量信息资源对于一定的社会文化对象具有解释力。在基于互联网的自动化采集方式中,以主题网络爬虫技术[12]的使用最为广泛,可在短时间内实现高效的数据采集。
本研究将“蚕丝”“丝织”“丝绸”等词语作为关键词,以百度网站的搜索结果页面作为入口,利用主题网络爬虫进行多线程大规模文本采集,将网页时间戳赋予相应文本对象的时间属性,共爬取20 943个网站的570 120个有效网页,获取文本74 985 KB,时间上涵盖2010—2019年共十年。这些文本涵盖了丝绸文化的各方面,可认为是丝绸文化的大数据,如图1所示。
丝绸文化的文本大数据需要进行预处理,以便得到情感词的序列。预处理的过程主要包括分词、停用词过滤和情感词标记[13]三个步骤。分词是中文文本处理的特有技术,通过分词进行中文词语的分割,将文本转变为词语序列。此时序列中含有一定数量的量词、连词、介词、语气词等意义不大的非实体词语(称为“停用词”),借助中文停用词表对词语序列进行过滤,以析出实体词。进一步地,通过调用中国知网Hownet情感词库,对序列中实体词的情感色彩进行识别和标记。Hownet情感词库是目前使用最多的中文情感分类工具,包含中文正、负面情感词8 000多个,其优点是分类明确、检索方便,能够满足丝绸文化应用的需要。经过情感标记后,文本中的正、负面情感词分别用记号P、N指示。
2 情感对象特征分析
利用词语序列的时间标签,可将文化大数据切分成一系列子集对应不同时间段。本研究将丝绸文化大数据划分成十个子集,对应2010—2019年。对这十个子集分别进行词频统计,得到最近十年间正、负面情感词在丝绸文化大数据中出现的频率,其总体走向如图2所示。
由图2可见,近十年间丝绸文化中正面情感词出现的频率(以下简称“正面词频”)总体呈上升趋势,负面情感词频率(以下简称“负面词频”)总体呈下降趋势。在2013、2014年左右,正面词频与负面词频同时发生了一次大幅跳变(正面词频上升约30%、负面词频下降约23%),该时间点与“一带一路”倡议提出的时间节点(2013年9月)基本吻合。可见“一带一路”倡议的提出,有力地推动了丝绸文化中正面情感的发扬,这对强化确立丝绸文化在中国优秀传统文化中的地位具有重要的作用。进一步,本研究考察丝绸文化情感对象的性质,列出了历年频率排名前五的情感词,如表1所示。
根据有关“文化阶层”的观点[14],文化要素可分为物质性要素(丝绸产品、技艺、工具等)、社会性要素(丝绸服饰的礼俗意义、丝绸贸易与丝绸产业的格局、新丝路上的国际政治角力等)、精神性要素(物质性和社会性实践中升华而来的理念和个性,如务实、友好等)三大类。三大类之下亦可再作细分,如社会性要素可细分为礼俗性要素、经济性要素、政治性要素等。
这里的情感对象是指情感所针对的丝绸文化要素。基于对丝绸文化一定的理解,可通过情感词来判断情感对象。如情感词“高贵”“华丽”“舒适”“典雅”等一般是针对丝绸产品及其性能(即物质性要素),故其情感对象具有物质性,这类修饰词占据了2010—2013年正面情感词的大部分。相较之,2014—2019年正面情感词中“复兴”“包容”“合作”“共赢”之类的动词比例攀升,这类动词主要针对新时代背景下的社会政策和国际格局(即社会性要素),其情感对象具有社会相关性。这表明,丝绸文化正面情感对象有从物质相关向社会相关转变的趋势。
负面情感词的演变过程存在类似的分段特点。2010—2013年负面情感词中“低端”“落后”“奢侈”“萧条”等大多数针对丝绸产业和丝绸贸易(即社会性要素中的经济性要素),其情感对象具有经济相关性。而2014—2019年负面情感词中“动荡”“极端”“恐怖”“非法”等词语比例攀升,主要针对新丝路上各种国际政治不利因素(即社会性要素中的政治性要素),其情感对象具有政治特征。这表明,丝绸文化负面情感对象有从经济相关向政治相关演变的趋势。
3 情感来源构成分析
本研究发现,情感词的词频分布具有集中性特点。以2014年为例,其典型形式如图3所示。
为析取高频情感词从而进行更有针对的分析,本研究将词频由小到大、间隔均匀地分为10个等级。图2中,正、负面情感词词频区间分别为0~0.31、0~0.09,故正、负面词频等级间隔分别为0.031、0.009。为统计每个等级上出现的情感词数量,图3给出了2014年丝绸文化情感词的词频分布情况。可以看出,正、负面情感词的词频分布都具有指数分布的特征,即较高频段为少数词占据,绝大多数情感词集中在较低频段。将10个词频等级按照其容纳的情感词数量进行聚类与分类,可将情感词划分为高频、中频和低频,如图4所示。
图4给出对2014年正面情感词词频等级聚类的结果,可见在图中虚线位置上存在自然三分类,可据此将正面情感词划分为低频(对应词频等级1,共284个词语)、中频(对应等级2,共105个词语)和高频(对应等级3~10,共182个词语)。对于负面情感词,亦可作类似的分类。
基于情感词词频的集中分布特点,对其进行频段的划分后,可藉由部分高频词把握丝绸文化情感的主要来源。在丝绸文化大数据中定位高频词的位置,分析其上下文,可辨识其情感对象;通过对情感对象的梳理与整合,提取丝绸文化情感的来源,过程如图5所示。
本研究對2010—2019年丝绸文化高频情感词(其中正面词182个、涉及上下文142 672条,负面词67个,涉及上下文35 362条)按照图5步骤进行人工辨析、整合和汇总,总结正面情感来源项13条、负面情感来源项8条,如表2所示。
表2中,将情感来源按其对象性质分为物质性来源、社会性来源和精神性来源三种,正面情感来源包含上述三种,负面情感来源包含前二种(其在高频区上不涉及精神性情感对象)。各情感来源项在丝绸文化情感中所占比重,可用其背后支撑的上下文条目数量(经归一化处理后)表征。进一步考察时间轴上丝绸文化各情感来源项的比重变化,如图6所示。
图6(a)为近十年丝绸文化正面情感来源的构成变化。总体上,物质性来源的比重呈下降趋势,社会性、精神性来源比重呈上升趋势;物质性来源内部,仅PM04(现代丝绸产品的健康、绿色、环保特性)保持稳定、略有上升,其余项均下降;社会性来源内部,PS10(新时期丝绸文化的时代内涵、感召力、活力、动力等)增幅最大,是推动社会性来源比重上升的主要因素;精神性来源项中,PP12(丝绸之路的和平、友好、开放、包容精神)增幅最大,是推动精神性来源比重上升的主要因素。
“丝绸”的本意昭示其物质性,几千年来中国劳动人民养蚕、剥茧、抽丝、纺纱、织绸,创造了丰富的物质性文化;这种物质性文化在生产实践中培育了特定的社会群体(如蚕农、绸商)及相应社会生活方式(如耕织、衣锦),给丝绸文化赋以社会性特征。从图6(a)来看,2014年之前丝绸文化正面情感以物质性来源为主导,丝绸文化主要表现为一种物质性文化;2014年之后,社会性来源的比重逐年攀升,至2016年超越物质性来源比重,此后维持在相对稳定水平,这喻示了“一带一路”倡议推动下丝绸文化由物质性主导向社会性主导的转变。
图6(b)为近十年丝绸文化负面情感来源变化的情况。总体上,物质性来源的比重逐年下降,社会性来源比重呈逐年上升趋势;社会性来源项目中,NS08(对新丝路上贸易保护主义、单边主义、零和思维、极端势力、恐怖主义的忧虑)增幅最大,是推动社会性来源比重上升的主要因素。值得注意的是,近几年来情感来源项NS08的凸显,表明当今国际政治环境中的各种不利因素已成为新时期丝绸文化传播、发扬和演进的主要障碍。
4 结 论
本研究在丝绸文化大数据上开展的统计与分析,展现了近十年丝绸文化中情感特征与构成,包括:丝绸文化中正面情感上升、负面情感下降的总趋势;正面情感对象的社会性倾向和负面情感对象的政治性倾向;具体的丝绸文化正、负情感来源项共21条;丝绸文化情感来源中物质性下降、社会性和精神性的上升的现象。这些发现反映了新时期丝绸文化在“一带一路”倡议影响下的演变、升级及面临的挑战,包括:丝绸文化主导形态的转变,即从物质性文化向社会性文化的升级;新时期丝绸文化发展和演进的主要障碍,来自国际政治中的贸易保护主义、单边主义、零和思维等。
参考文献:
[1]李希光. “一带一路”文化建设与丝绸之路文化复兴[J]. 新闻与传播, 2015(6): 24-26.
LI Xiguang. Cultural construction and cultural revival of the silk road under "the Belt and Road" initiative[J]. Journalism & Communication, 2015(6): 24-26.
[2]江晋, 李洁. “一带一路”背景下基于Wiki平台丝绸文化学习共同体的构建[J]. 新西部, 2018(2): 40, 50.
JIANG Jin, LI Jie. Construction of silk cultural learning community based on Wiki platform under the background of "the Belt and Road"[J]. New West, 2018(2): 40, 50.
[3]李丕宇. “一带一路”背景下“丝绸之路”历史文化遗产研究的双向视域[J]. 齐鲁艺苑, 2017(2): 4-8.
LI Piyu. The bi-directional perspective for historical and cultural research on the heritage of the silk road under the background of "the Belt and Road" initiative[J]. Qilu Realm of Arts, 2017(2): 4-8.
[4]王俊鹏, 韩斌. 新时期“一带一路”对民族文化传播的影响及启示[J]. 贵州民族研究, 2019, 40(1): 49-52.
WANG Junpeng, HAN Bin. "The Road and Belt" initiative in the new period of national culture dissemination and the influence of the enlightenment[J]. Guizhou Ethnic Studies, 2019, 40(1): 49-52.
[5]赵海英, 贾耕云, 潘志庚. 文化计算方法与应用综述[J]. 计算机系统应用, 2016, 25(6): 1-8.
ZHAO Haiying, JIA Gengyun, PAN Zhigeng. Review on the methods and applications in cultural computing[J]. Computer System Application, 2016, 25(6): 1-8.
[6]MICHEL J B, SHEN Y K, AIDEN A P, et al. Quantitative analysis of culture using millions of digitized books[J]. Science, 2011, 331(6014): 176-182.
[7]邵培仁, 林群. 中華文化基因抽取与特征建模探索[J]. 江苏师范大学学报: 哲学社会科学版, 2012, 38(2): 107-111.
SHAO Peiren, LIN Qun. Exploration of extracting chinese cultural genes and modeling its characteristics[J]. Journal of Jiangsu Normal University: Philosophy and Social Science Edition, 2012, 38(2): 107-111.
[8]龚为纲, 罗教讲. 大数据视野下的19 世纪“海上丝绸之路”: 以丝绸、瓷器与茶叶的文化影响力为中心[J]. 学术论坛, 2015, 38(12): 82-91.
GONG Weigang, LUO Jiaojiang. The 19th century "maritime silk road" from the perspective of big data: centering on the cultural influence of silk, porcelain and tea[J]. Academic Forum, 2015, 38(12): 82-91.
[9]陶晨, 鲁佳亮, 苏淼, 等. 新时期丝绸文化演变的大数据解读[J]. 丝绸, 2020, 57(12): 74-79.
TAO Chen, LU Jialiang, SU Miao, et al. Interpreting silk culture evolution in the new era with big data[J]. Journal of Silk, 2020, 57(12): 74-79.
[10]CORREIA R A, JEPSON P, MALLHADO A C M, et al. Internet scientific name frequency as an indicator of cultural salience of biodiversity[J]. Ecological Indicators, 2017(78): 549-555.
[11]KOZLOWSKI A C, TADDY M, EVANS J A. The geometry of culture: analyzing the meanings of class through word embeddings[J]. American Sociological Review, 2019, 84(5): 905-949.
[12]于娟, 劉强. 主题网络爬虫研究综述[J]. 计算机工程与科学, 2015, 37(2): 231-237.
YU Juan, LIU Qiang. An overview of thematic web crawler[J]. Computer Engineering and Science, 2015, 37(2): 231-237.
[13]苗夺谦, 卫志华, 张志飞. 中文信息处理原理及应用[M]. 北京: 清华大学出版社, 2015.
MIAO Duoqian, WEI Zhihua, ZHANG Zhifei. The Theory and Applications of Chinese Information Processing[M]. Beijing: Tsinghua University Press, 2015.
[14]钱穆. 文化学大义[M]. 北京: 九州出版社, 2011.
QIAN Mu. The Basics of Culture[M]. Beijing: Jiuzhou Press, 2011.