现代化书院未来发展策略研究

2023-08-05 23:23钱姊怡张金玉韩秀
国际公关 2023年12期

钱姊怡 张金玉 韩秀

摘要:书院在千余年的发展过程中凝结和创造了辉煌的书院文化,成为推动中国传统文化普及、创新和发展的重要力量。本文以徐州书院为例,基于文本挖掘法,建立了LDA模型,对书院游客网络评价进行情感主题分类,研究游客对于书院文化旅游的看法和评价,了解游客直观感受和潜在需求,提出书院发展策略。

关键词:书院文化;书院文旅IP;LDA模型

在文化旅游方面,书院具有极大的开发价值。我国历史上的书院多建立在依山傍水之地,虽然大多建筑在历史中损坏严重,但仍遗留大量古碑、古树等。现今留存的书院经过一系列的修缮和恢复,也能成为陶冶情操的旅游胜地。而书院文化对当今社会仍有极大的学习价值,书院文化的内在精神对当今社会的人极具文化熏陶作用。[1]

一、基于LDA模型对游客评价分类

(一)模型介绍

LDA是一种文档主题生成模型,是通过 “以一定概率选择某个主题,并从这个主题中以一定的概率选择某个词语”这样的一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。它采用了词袋的方法,每一篇文档包含词、主题和文档三层结构。[2]所谓生成模型是指,认为一篇文章的每个词文档视为一个词频向量,从而将文本信息转化为易于建模的数字信息。

(二)模型构建

1.Step1:评论数据预处理

(1)数据获取

本文采用网页爬取软件GooSeeker(集搜客)对当下比较受欢迎的网络平台的游客评论文本数据进行爬取,具体的游客网络评论的数据构成详见表1。

数据获取首先要选择定义爬虫类,包括根据目标爬虫各自合适的应用场景去选择爬虫种类,设置一个初始url,并生成一个能够请求的 “解析”方法,最后在item类里得到了爬取的3 230条信息和15个相关主题帖子。

(2)数据预处理

本次预处理的主要工作是清除噪声序列和消费者随意发表的无意义数据,处理规则如下:

a.评论文本内容与用户名均相同的数据视为水军发表的,予以删除。

b.评论内容完全为英文字母、数字和标点符号的,视为随意发表的评论,予以删除。

c.评论内容中出现重复的词语需要进行压缩,避免影响词语频数统计。

通过数据预处理,将原始数据中存在的噪声去除,得到高质量、规范化以及可以进行后续分析的3 030条有效数据。

2.Step2:自动分词

为了判断句子中是否存在情感词典中相应的词语,需要把句子进行自动分词。我们对比了现有的分词工具,综合考虑了分词的准确性和在Python平台的易用性,最终选择了 “结巴中文分词”作为分词工具。

3.Step3:训练情感词典

训练感情词典是文本挖掘核心的部分,分为四个部分:积极情感词典、消极情感词典、否定词典以及程度副词词典。为了得到更加完整的情感词典,从网络上收集了若干个情感词典,并且对其进行整合去重,同时对部分词语进行了调整,以达到尽可能高的准确率。[3]除了对网络收集而来的词典进行整合,还有针对性和目的性地对词典进行了去杂、更新,加入了某些行业词汇,以增加分类中的命中率。由于某些评论中出现多个感情词时情感词典的文本情感分类规则会较为机械化,为了使分类结果更加精确,设置权重累加判断程序。在假设所有积极词语、消极词语的权重都是相等的、权值是线性可叠加的以及不区分感情词程度的情况下,将每个积极情感词语赋予权重1,将每个消极情感词语赋予权重-1,并且假设情感值满足线性叠加原理;接着将句子进行分词,若分词后的词语向量包含相应的词语,就加上向前的权值。其中,否定词和程度副词会有特殊的判别规则,否定词会导致权值为负,而程度副词则让权值加倍。最后,根据总权值的正负性来判断句子的情感。

(三)模型结果

1.书院旅游网络评论情感倾向

将数据分为积极和消极两个类别,依靠关键词限定,按照一定的规则进行聚类,再加以判别分析进行检验,得到整合结果详见表2。

利用Python进行信息爬虫,其中有效信息为65.3%。表中可以看出在积极方面,游客评论多为 “推荐”“不错”“赞”等,说明其游览满意度较高,对徐州的书院文化評价也较高;而观察消极方面,游客评论多为 “无趣”“无聊”等,说明书院现有文化活动不足以吸引游客,传统的开放方式对游客没有足够的吸引力,由此可见,书院文化内涵需要进一步丰富;而 “过时”“古板”则说明徐州部分书院的发展不符合现代化需求,需要创新思想。

2.基于口碑指数对网络评论分析

为了更科学地进行数据可视化分析,我们引入受到广泛认可且简单易行的口碑指数概念。[4]这是通过分析产品的评论综合计算得出的参考数值,这种方法与大数据技术获取网络舆情数据相结合,与当前实际情况有相当吻合度,在前期进行数据处理且分类严谨,可对徐州的书院文化旅游满意度进行粗略评估。其计算公式为:

×100

其中, ζ为口碑指数, Np和Nn分别为正面情感评论数和负面情感评论数。书院的口碑指数为78%,整体口碑情况较好,说明游客对于徐州书院的总体态度是比较满意的,但是仍然存在22%的评论属于负面评论。上述LDA模型对于书院游客的观感进行情感分类,此处口碑指数是对书院总体口碑情况进行综观,由此得到游客对于徐州书院文化旅游的情感倾向和整体评价情况。

3.基于词云分析对评价的数据统计

(1)方法介绍

词云分析是对文中出现频率较高的 “关键词”予以视觉化的展现,通过滤掉大量的低频低质的文本信息,呈现出直观的文本主旨结果。词云分析通常通过爬虫技术实现。[5]

徐州各大书院中,以云龙书院最为著名,为得到更为精准详尽的评论导向,本文爬取各大网络平台中以 “徐州书院”和 “云龙书院”为关键词的相关评论和相关文章进行文本挖掘。

(2)词频统计&词云绘制

在中文分词之后,本文对分词结果进行了进一步的处理,由于有些词语是一些没有意义但是使用频率又非常高的词语,本文将 “此外”“如今”“作者”“近年来”“然而”“图片”“另外”“然后”等词语删除,在词频统计的时候不会计入上述词语。在Python中,建立一个待删除的字典A,使用for循环将文本中的所有含字典A中内容的词语删除。待分词数据处理好之后,用Python的wordcloud包进行词频统计。

词频统计之后,就可以制作词云。用爬取的网络数据评价得到的结果并绘制词云图,详见图1。

通过词云绘制的结果,可以对徐州书院网络评价进行归纳总结:

a.徐州汉文化城市形象已经深入人心,在对书院的评价中 “汉文化”“古风”“书香气”等字眼层出不穷,由此可看出徐州城市文化底蕴深厚,为大力发展文化旅游产业提供发展契机。

b.书院讲学文化是一把双刃剑,一方面,书院讲学能够将国学文化进行传播和推广,对弘扬传统文化有一定的积极作用;另一方面,游客对于书院的刻板印象难以改变,多数游客对于书院仅仅停留在 “国学文化”“讲学”“古代”等印象中,现代书院的发展已经明显不同于传统讲学书院,该刻板印象对书院的现代化发展有着一定的阻碍作用。

c.从词云图中可以看出 “地标”“旅游”等词重复出现,这说明游客对于徐州书院的认识上升为 “城市地标”,这对打造书院文化旅游IP具有良好的促进作用。

二、书院发展策略

(一)政府支持和“书院造血”相结合

政府主要可以从两方面来支持未来书院的发展:一是提供资金支持,二是对书院发展进行指导,带领书院举办多元活动,以便书院的可持续发展。

由于书院活动大多为公益性活动,经费筹集较为困难,政府的资金支持能让书院有更多的经费举办活动,更好地推广书院文化。但以政府的资金支持维护书院运营并不是长久之计,这就需要书院利用自身文化优势开发相关产业,建设书院自身 “造血”系统。政府可以通过联合各地书院与当地书院举办多元活动,帮助书院突破活动的局限性。

(二)创新宣传方式

文旅市场需要进一步发展,需要改变传统的宣传方式,积极利用网络开展宣传,同时开展口碑宣传,通过游客口口相传,达到提高书院文化旅游影响力的目的,增加潜在游客对徐州书院文化旅游的了解。

未来书院的宣传方式需要创新性思维,改变书院宣传缺乏活力的现状,为书院发展提供更好的環境。未来书院的宣传方式可以从两方面进行:一是基于现有的宣传方式,对现有的宣传平台进行创新,推送更为新颖且有吸引力的宣传内容,突出书院文化的特点,找准书院文化吸引大众的创新点;二是创新宣传方式,很好地抓住对书院文化感兴趣的现有及潜在游客。

(三)打造品牌,开发产业链

书院产业链的延伸开发是书院未来发展的长久之计,能更好地推动书院文化的弘扬。开发产业链要从书院本身延伸出去,一是从各书院的自身特点出发,如书院建筑物特点等,将书院特点进行产业化,让其得到物化、产品化,更好地将书院特点宣传出去;二是从书院的内涵文化出发,将其文化内涵进行产业化,例如,可将书院人文故事动漫化,能够让大众更好地理解与接受,也起到了相应的宣传作用,从而更好地弘扬书院文化。发展书院文创产品,形成书院文化产业链。

三、结束语

本文建立了LDA模型,对书院的网络评价进行情感主题分类,对游客的评价及需求进行分析,并提出适合书院未来发展的策略。书院需创新宣传方式,打造书院品牌,开发产业链,运用适当的方法将其市场化,生产出相应的文化产品。发展书院文化产业,挖掘书院的文化旅游价值,既能对我国的书院文化进行传承,也能为书院创造相应的经济价值。

参考文献:

[1] 艾会雨.保定市旅游产业和文化产业耦合协调发展研究[D].保定:河北大学,2019.

[2] 张学民,赵明宇.基于LDA和情感分析的西塘古镇旅游形象研究[J].河北工业大学学报(社会科学版),2020,12(3):23-30.

[3] 曹青.基于LDA模型的湖南特色旅游线路设计[D].北京:北京工业大学,2019.

[4] 季鹏飞,王先超,张顺香.基于共现概率训练的情感词典的扩充[J].阜阳师范学院学报(自然科学版),2019,36(04):49-53.

[5] 李向宇.基于词云分析的近5年核心期刊幼儿体育文献研究现状[J].运动,2014(05):79-81.