谢红霞 陈创奇
摘 要: 抖音作为近年来新型短视频社交APP,因其代入感强、参与性高,正发展成为一种新的旅游营销传播工具。随着抖音日活用户人数不断地创出新高,平台上的数据也迅速、大量地沉淀积累。筛选抖音上有关“西湖十景”的视频和评论信息,通过数学建模创建景点的抖音热度指数,用百度指数模拟景点的实际客流量,研究抖音短视频对提升景点客流量的影响力。数据分析结果显示,各景点的表现不尽相同,希望以此为西湖旅游资源的开发和管理提供依据。
关键词: 数据分析; 抖音; 旅游; 西湖十景
Abstract: As a new short video social app in recent years, TikTok is developing into a new tourism marketing communication tool due to its strong sense of substitution and high participation. With the number of daily active user of TikTok constantly reaching a new high, the data on the platform also deposited and accumulated rapidly in large quantity. Sieving the video and comment information about "Ten sceneries of West Lake" on TikTok, creating the heat index of TikTok through the mathematical modeling, the actual tourist flow of the scenic spots is simulated with Baidu Index to study the influence of TikTok on the improvement to the tourist flow of the scenic spots. The results of data analysis show that the performance of each scenic spot is different, that is hoping to provide basis for the development and management of West Lake tourism resources.
Key words: data analysis; TikTok; tourism; Ten sceneries of West Lake
0 引言
近年来短视频平台如雨后春笋般兴起,因短视频短小精炼、传播速度快、制作门槛低、社交属性强,成为时下最流行的社交方式[1]。游客在旅游过程中随手拍摄的短视频经网络传播,为旅游景点形象的塑造带来新兴动力。从国外的YouTube到国内的抖音,短视频正在发展成为一种旅游营销传播工具[2]。
抖音平台在竞争中异军突起,在年轻人中迅速传播和流行,由此也在平台上积累了大量原始数据,利用大数据分析技术对平台上的视频及评论进行分析,可以帮助旅游行业更好地服务于游客,也为旅游主管部门提供决策依据[3]。
1 研究内容
“西湖十景”是杭州旅游的金名片,通过数据挖掘及数据分析的手段研究抖音短视频与“西湖十景”客流量的相关性,既从时间纬度上分析抖音短视频的热度与景点客流量的相关性,也从每个景点的抖音视频下的用户评论中进行情感分析和高频词统计,得出景点的游客认知意象,并通过数据可视化方法,更好地理解數据对象。研究的内容框架如图1所示。
具体研究内容如下。
⑴ “西湖”关键词下抖音短视频的用户群分析。包括:用户的年龄分布,用户的性别比率,视频发布的时间分布和评论的时间分布。
⑵ 基于文本语义分析方法,从视频的标题信息中提取各景点的高频词,从而获取“西湖十景”游客认知意象。
⑶ 基于百度AI平台的情感分析接口,要对“西湖十景”各个景点的评论分别进行情感值计算和分类,得到正面评价和负面评价的关键词。
⑷ 数学建模,创建抖音热度指数,根据每一条视频的点赞数、评论数、分享数、转发数得到该条视频的抖音热度指数,进而按景点分类汇总得到每个景点的抖音热度指数。
⑸ 绘制抖音热度指数随时间变化的趋势图,与百度指数趋势图进行对比,从而得出抖音热度对一个景点的客流量的相关性。
2 研究成果
2.1 用户群体分析
爬取抖音视频评论,截止时间2019年3月底,对获取到的用户信息用“西湖”关键词筛选,得到6649个评论用户,分析这些目标用户群的分布,分别按性别和年龄分类,如图2、图3所示,数据显示性别分布区别不大,年龄分布则以80、90后为主。
2.2 抖音视频发布时间与评论发布时间分析
爬取1124条西湖视频信息,数据显示在三个国家法定节假日,国庆、元旦以及春节视频数量明显增多,说明节假日为景区带来了流量。
数据分析进一步发现,评论发布的时间集中在12~14点和19~24点之间。如图4、图5所示。
2.3 “西湖十景”游客认知意象及情感分析
研究所爬取的1124条有关西湖的视频,对视频标题做高频词统计,结果显示除了“西湖”、“杭州”、“喜欢”、“美景”这些词外,“白娘子”、“许仙”、“济公”等词出现频率也很高,显示传统文化或神化传说赋予景点人文艺术价值会使游客印象更深。
继续爬取视频下的评论,共28474条,用TF-IDF[4]文本分析算法提取“西湖十景”关键词,并对这些关键词用情感字典分析,得到积极和消极两类关键词,分别制作词云[5]。挑选“湖滨晴雨”这个有代表性的景点进行正负面情感词云对照,如图6、图7所示。
“西湖十景”正面词中出现的高频词有“风景”、“美好”、“惬意”“偶遇”等描述景色的词。在“平湖秋月”、“龙井问茶”景点中出现了“妈妈”、“女儿”、“家人”这些高频词。在许多景点出现了高频词“去过”。
“西湖十景”中的负面词“小心”、“掉下去”、“危险”、“护栏”等出现频率较高。“收费”、“钱”、“贵”、“骗人”这些词在“断桥残雪”、“苏堤春晓”、“花港观鱼”、“龙井问茶”这些景点中出现。“游客”、“人人”、“挤”出现在“断桥残雪”、“灵隐禅踪”、“花港观鱼”这几个景点。
这些高频词概括了相应景点的特征和问题所在,有明显的区分度且和我们的认知基本符合。
2.4 抖音热度与景区流量的相关性分析
通过数学建模计算抖音热度指数。对所爬取的1124条视频,根据每条视频的点赞数、评论数、分享数、转发数这四个指标衡量该条视频的受欢迎程度。先对每个指标作归一化处理,再求算术平均得到该条视频的抖音热度指数。通过抖音热度指数可以看出有一些视频的热度指数特别高,可以称作爆款视频。图8显示“西湖十景”各景点的抖音热度按时间的分布图,其中每个点代表一条视频的热度指数。
从图8可看出:“斷桥残雪”爆款视频最多(第一排第四个),“平湖秋月”(第一排第五个)、“花港观鱼”(第二排第一个)爆款视频次之。从时间纬度上看,爆款视频大部分集中在国家法定节假日里。
有了每条视频的抖音热度指数,再按景点分类汇总得到每个景点的抖音热度指数。
图9所示,“三潭映月”、“平湖秋月”、“断桥残雪”排名靠前,而“龙井问茶”、“灵隐禅踪”、“湖滨晴雨”这几个景点的热度指数相对较低。
由于没有“西湖十景”的游客流量的官方数据,考虑用百度指数近似代替景点流量。通过观察百度指数的“西湖十景”图可以发现,除“断桥残雪”外,其他景点的百度指数保持一个平稳的波动,从2018年3月开始到10月为较高的阶段,而“断桥残雪”景点在2018年1月到2月间百度指数达到了10000,原因就是2018年的杭州第一场大雪降临,游客争相欣赏“断桥残雪”景观,断桥上尽是狂欢的人群。如图10、图11所示。
对比、观察图12和图13的抖音热度曲线可以发现,西湖十景的抖音热度主要出现在2018年底到2019年初,这和百度指数始终保持一个平稳的波动性不太一致,显示相关性比较弱。但是,“断桥残雪”在2018年1月到2月的抖音热度曲线图和百度指数图高度重叠,显示很强的相关性。究其原因:①用百度指数来模拟景点的客流量比较粗糙,需要用更精确的官方数据来印证。②抖音在杭州旅游方面的市场渗透率不够,这从2018年与2019年的环比数据可看到。③杭州西湖作为知名旅游目的地,拥有稳定的旅客流量,受互联网冲击的波动不大。④本研究所用数据截止时间到2019年3月底,而抖音日活人数和视频数量以每月甚至每周的频率更新,因此后续研究考虑用更多的数据做分析,相信会有更好的效果。
3 结束语
目前短视频正发展成为一种旅游营销传播工具,通过短视频社交平台拉动旅游已经成为一种新的城市景点宣传方式,西安和重庆这两座城市在这方面已经有了成功的尝试[6]。本文通过大数据分析的方法进行定量研究,希望从中挖掘抖音短视频和景点客流量的相关性,鉴于数据量不够多,时间跨度不够长,分析结果还比较粗糙,但给出了一种新的研究方法和思路,建议杭州旅游管理部门重视抖音短视频对城市文化旅游的影响,参考从抖音评论中所提炼的游客景点认知意向,挖掘景区内的特色与优势,利用多种渠道吸引游客。
参考文献(References):
[1] 千继贤.抖音带来的“旅游”[J].旅游纵览(下半月),2018.8:17,19
[2] Reino D, Hay B. The use of YouTube as a tourismmarketing tool[J].Travel and Tourism Research Association,2016.
[3] 欧阳效福.基于游客微博“大数据”分析的厦门旅游环境意象研究[D].厦门大学,2016.
[4] [美]麦金尼.利用Python进行数据分析[M].机械工业出版社,2014.
[5] 李湘东,高凡,丁丛.Lda模型下不同分词方法对文本分类性能的影响研究[J].计算机应用研究,2017.34(1):62-66
[6] 我是张小神:抖音APP竞品分析报告[EB/OL].https://www.jianshu.com/p/d7911958931f