李 勇,欧志梅,黄 格,郭尚窈,杨思敏
近年,数字文旅在新冠肺炎疫情的催化下进入发展快车道。2021年6月中国移动互联网用户规模达到11.64亿,在线旅游的消费需求持续攀升,月活跃用户达12,654万,同比增加25%[1]。与此同时,新一代信息技术在文化和旅游的应用愈发深入。而文化和旅游部也在2021年4月发布的《“十四五”文化和旅游科技创新规划》指出,要面向文化事业建设重大需求,面向人民群众美好生活新期待,以深化现代科技在文化和旅游领域的应用为主线,为建设文化强国与推动文化和旅游现代化做出积极贡献[2]。以云计算、虚拟现实为代表的信息技术为文旅产业提供了巨大的源动力,“数字故宫”“云游敦煌”“一部手机游云南”成为景区数字文旅技术应用的先驱案例。然而,数字文旅作为典型的交叉融合产业,涉及的关键技术及科技创新趋势并不清晰,不利于政府及企业后期的研发应用。为了解决这个问题,考虑到专利文献包含了世界科学技术信息的90%-95%[3]这一特点,本文通过挖掘数字文旅技术专利申请数据,从专利计量、技术热点、技术主题、技术关联4个角度切入,运用LDA主题模型对专利文本进行聚类,梳理数字文旅技术现状及发展趋势,为相关政策制定、政府及投资者配置资源提供参考。
在理论研究方面,学者从宏观层面阐述数字文旅技术对产业的影响。夏杰长等从文旅产业数字化的意义、影响、存在问题、对策建议4方面进行深入阐述,针对泛数字化倾向提出加快文旅产业的数字化基础设施建设、促进数字技术与文旅产业的融合等对策[4]。徐菲菲等指出当前数字经济在文旅产业占比较低,科技转化能力弱,应构建“技术-产品-市场-营销-管理”五位一体的数字文旅创新机制[5]。近年新冠肺炎疫情给旅游业带来重创,李凤亮等指出“文化+科技+旅游”模式有助于疫情下文化旅游业态创新,建议文旅企业成立专门部门将科技创新作为核心竞争力[6]。郑憩认为人工智能等数字技术处于概念导入阶段,共性技术瓶颈仍有待突破,需加快建立起覆盖全产业链的数字化支撑体系[7]。
在实践应用方面,部分学者侧重数字技术对用户体验的影响作用。比如,利用AR技术设计考古遗址互动体验[8],考察用户对城市遗址旅游AR技术接受度[9]、满意度模型[10];评估可穿戴设备虚拟现实技术对文旅景点的行为意向[11]、博物馆参观者的影响[12];应用3D技术开发互动式数字故事重建虚拟文化遗产[13];探讨个体从虚拟旅游环境的主题(氛围)等要素获得刺激并推动生成实地重游意愿或VR推荐意向[14];证明6-8分钟的虚拟旅游体验对居家人群压力和情绪有积极的影响[15]等。各地也借助智能科技促进当地数字文旅产业发展。例如,根据欧洲数字人文的AR应用,从文化信息、游览路线、实景互动对上海武康路提出AR开发策略[16];通过人工智能、5G、物联网、云计算、信息安全、区块链、全息投影、3D打印等技术构建贵州省数字文旅产业生态[17];利用虚拟现实或增强现实技术展示文化及古代村落[18]、打造超级链接博物馆[19]、实况直播开启线上“云”游[20];运用“5G+文旅”新模式打造成都“夜游锦江”传播巴蜀文化[21]。
专利挖掘技术最早出现于1946年,根里奇·阿奇舒勒等通过分析上百万份发明专利,提出发明问题解决理论[22]。学者结合语义网络及TF-IDF等方法,运用专利文本挖掘预测未来技术趋势,如通过构建专利车道,研究技术主题随时间推移发生的变化,分析碳纤维在自行车制作技术中的发展过程[23];结合技术的时间序列分析和创新周期,识别无线电能传输的新兴技术及空白技术领域[24];以3D打印为例,基于LDA主题模型的技术前沿跨时间动态特征分析[25]。专利挖掘也被应用于各领域前沿技术挖掘。比如,基于德温特专利数据及LDA主题模型,提取隐含技术主题,以新材料领域为例进行研究,从技术主题通用性、活跃度、效益性及关联性识别共性技术[26];利用欧洲专利局数据库,结合ISI技术分类体系识别感知人工智能领域以计算机技术为核心的技术[27];通过Innography专利分析平台检索数据,使用SAO链进行特征表示,结合专利地图,识别出工业机器人未来发展机遇[28]。当前利用专利挖掘发现行业技术趋势的主要有移动医疗[29]、煤气开采[30]、采矿业[31]、音乐[32]等产业。
可以看到,以“数字文旅技术”为主题的文献数量少。现有研究集中在数字文旅技术理论指引、实践应用方面,从宏观角度论述数字文旅技术的重要性,或从微观角度分析具体的一类信息技术运用,未将数字文旅相关技术作为整体对象进行研究。专利分析方法被广泛运用于产业技术要点识别,但基于专利挖掘的数字文旅产业的技术分析匮乏,鲜少涉及关键技术识别问题。本文在专利计量基础上通过词频统计按发展阶段分析技术热点,运用LDA主题模型挖掘数字文旅技术专利文本数据并进行主题聚类,将各类数字技术作为一个整体研究对象,补充数字文旅领域关键技术研究的不足,加入语义网络分析其中技术关联,丰富专利分析研究方法,为数字文旅产业技术应用提供借鉴。
本文以大为Innojoy专利数据库为来源,搜集数字文旅产业技术相关专利,通过研究申请时间、申请类型、申请机构、地理空间、申请生命周期等情况,掌握数字文旅产业技术发展现状;以生命周期为划分阶段,通过专利摘要词频统计分析技术热点演变;以LDA主题模型提取文本隐含的技术主题,区分数字文旅产业专利种类及属性,并对照生命周期技术热点演变发现各类主题出现先后顺序;以语义网络构建识别技术关联及技术主题的应用侧重点,发现上下游技术以便于应用。研究过程以定量分析为主,减少技术识别的主观性,更精准地识别数字文旅关键技术及趋势,详见图1。
图1 研究技术路线图
数字文旅是当代科技特别是互联网等数字技术促进文化和旅游融合的所有现象总和[33]。因此在本文检索式中,将文化或旅游中涉及的信息化技术视为数字文旅产业技术。结合专家意见,本文设定的检索式如表1所示,时间范围为2000-2020年,地理范围为中国,共导出数据1,555条。对数据重复项、无关项进行删除后,得到数据1,268条。
表1 专利文献检索式
(1)文本处理。专利摘要文献中存在一些数字和无意义的高频词汇,如“本公开发明”“本实用新型发明”。本文运用Python中的jieba分词包,在哈尔滨工业大学推出的停用词表基础上,人工添加本数据集中的无意义词语,构成较为全面的停用词表,对文本进行分词。此外,本文采用的文本向量化方法为TF-IDF,词语重要性与其出现的次数成正比,但随着它在其他语料库中频次的增加而降低[26],它最大限度地降低无效高频单词对技术主题提取的影响。计算公式为:
(2)主题提取。LDA主题模型最早由Blei等[34]提出,它可以通过反复迭代自主学习,识别大量文档中隐藏的主题信息,继而达到文档的高效聚类。LDA是一个3层的层次贝叶斯模型,建模过程见图2。
图2 LDA贝叶斯网络图
对于文档A,其技术主题b发生的概率θ服从Dirichlet(α)分布。
公式(2)中,α为狄利克雷先验分布的超参数;从多项式分布θA中抽样bi,得到主题概率P(bi|α)。从多项式分布Bi中抽样ωi,得到P(wi|bj,β),β表示主题个数b与主题特征词个数z的矩阵,它记录各主题特征词生成概率。通过设定专利文本主题数量可提高技术主题质量。Blei等提出使用困惑度方法选择主题数量,而困惑度常常被用于评价语言模型的好坏,困惑度较低的概率模型预测样本的效果更好,其计算公式为:
LDA主题模型中主题的提取对主题数量精度要求较高。为提高LDA主题模型准确度,本文采用困惑度求解模型,确定主题数量,当困惑度最低时,主题数量最优。
对文旅产业技术类专利按年进行统计,绘制出时序图,申请量整体可划分为3个阶段(见图3),目前我国数字文旅技术专利处于成熟初期阶段。第一阶段为2000-2008年,文化旅游产业相关专利开始出现,但专利申请增量较少,2005年达到小高峰;2006年由“低价游”和“零团费”导致的旅游投诉呈直线上升,技术研发热潮渐退,申请数量仅停留在个位数,该发展阶段为数字文旅技术领域的婴儿期。第二阶段为2009-2014年。2009年原文化部、原国家旅游局出台《关于促进文化与旅游结合发展的指导意见》,提出为满足人民群众日益增长的文化消费需求,文旅产业逐步结合,申请数量较前期增加较快,处于发展期。2014年出台的《国务院关于推进文化创意和设计服务与相关产业融合发展的若干意见》《关于促进旅游业改革发展的若干意见》为第三阶段的专利申请数量增长奠定了基础。第三阶段为2015年至今。随着网络科技发展,文旅产业得到进一步关注,专利申请数量快速增长。2018年原文化部和原国家旅游局合并为文化和旅游部,在政府主导及科技进步等因素的作用下,文化和旅游逐步走向融合,服务大众文化生活的同时促进旅游消费,各类文旅产品、融合技术如雨后春笋般涌现,专利申请数量迈上200的新台阶,该阶段处于成熟初期。
图3 2000-2020年申请专利数量时序分布图
(1)专利申请类型。专利申请类型中数量由高到低依次为发明847项、实用新型307项、外观设计114项。在数字文旅产业专利中,大多数专利侧重现有产品、技术方案的改进或新技术的研发,如VR眼镜在文旅场景的应用,因此发明类专利占比最多,而实用新型、外观设计则相对较少。将3种类型的IPC大类细分化得出专利技术分布概况:发明类专利技术主要集中在G06(计算、推算、计数)、H04(电通信技术);实用新型类专利技术主要分布在G07(核算装置)、G10(乐器、声学);而外观设计侧重14(记录、电信或数据处理设备)及16(照相设备、电影摄影设备和光学设备)两大类。综上,数字文旅产业专利主要集中在计算、通信、核算、乐器、光学设备上。
图4 专利申请类型及IPC大类分布图
图5 专利申请人分布时序图
图6 各省市申请专利数量分布图
(2)专利申请人。按类型对申请人进行统计,该领域专利申请主力军为企业,占比高达60%,而院校及个人申请占比分别为22%、18%,组织申请数量最少,参与度有待提高。从申请人类型时间维度上来看,自2000年起,出现了以个人形式申请文旅产业的专利,说明此时技术门槛较低,仅凭个人就可研发专利;2004年,开始出现以组织的形式申请专利,但增长十分缓慢,说明文旅产业未受到研发机构的重视;自2011年起企业申请数量开始增长,尤其是2014年以后,数量增加更快,该阶段文旅产业兴起,利润空间大,吸引众多企业增加投入,同年院校的专利申请也有了明显的增长。
(3)地理空间分布。沿海城市及中部人才资源丰富,研发实力雄厚,是专利申请人主要分布地。申请量排名前五省份依次为广东、北京、江苏、四川、浙江,而少数民族较多的东北、西南、西北地区则较少申请。例如,云南虽然拥有多元的民族文化和丰富的旅游资源,但在专利申请数量上仅排名17。
将专利技术按照生命周期划分并进行专利摘要高频词统计(见图7),“系统”“模块”“信息”等在词频位居前列。2008年前“编码”“地图”“视频”“数字化”为热点词,技术侧重文旅产业供应端的单边呈现,未能与市场需求结合,缺乏人机交互类专利,“领域”则表明各行业技术交叉应用较多;2009-2014年,“物联网”“智能”“三维”“虚拟现实”“全球定位系统”等词语占比大,文旅产业逐步突破传统产业,与人工智能等数字化信息技术融合,并出现了人机交互的相关专利,强化用户体验,高频词“终端”也体现技术研发更注重服务的智能化;2015年后随着技术的成熟及对用户使用感的重视,专利热点凸显“图形用户界面”“状态图”“大数据”等词语,“虚拟现实”较发展期占比增大,此时文旅产业更侧重于满足用户需求,在“数据”分析基础上让数字文旅技术由智能化走向智慧化。
图7 各阶段技术热点演变
在运行LDA主题模型前需设定主题数量,主题数量的设定与主题提取结果相关。本文首先运用困惑度模型寻求困惑度最低的最优主题数。肘部方法将方差解释的百分比作为聚类数量的函数对待,通过选择一定数量的聚类,新增加一个聚类数量也不会给数据带来更好的建模效果。将聚类所解释的方差的百分比与聚类的数量绘制成图,第一批聚类会增加很多信息,但在某一时刻,边际收益会急剧下降,并在图中给出一个角度。若M点为最优主题数,该点的困惑度与前一个点的困惑度差值极大,与后一个点的困惑度差值极小,则M点被称为“肘形”[35]。通过运行Python困惑度模型得出,当主题数为5时,模型困惑度最低,见图8。
图8 不同主题数的困惑度
通过对文档进行聚类分析得到5类主题,提取概率排名前8的高频词(如表2所示)。本文以特征词为切入点,结合技术主题相对应的专利确定各类主题的名称,将5类数字文旅主题命名为:1-交互式人工智能技术、2-电子导航技术、3-智能传感技术、4-3D建模技术、5-虚拟现实技术。主题1、3、4体现了以技术为核心的文旅智慧化,通过图形用户界面、传感器、建模等侧重数字文旅产业中数据存储、智能读取等技术的应用。主题2、5则更注重人们在旅游过程中的体验。
表2 数字文旅技术主题识别
(1)交互式人工智能技术。人工智能可以让机器自动完成语音识别、自然语言和图片处理,在大量数据信息的深度学习基础上,通过编写相关代码将字符界面转换成图形交互界面,进而实现人与操作系统或软件之间的信息交互,为人们提供旅途中的优化决策等。例如,移动端App、智能机器人、触控平板可作为线上引导游客的首要服务窗口,只有具备友好操作界面、语音讲解等互动智能功能,才能更好地展示地域特色风貌及文化。
(2)电子导航技术。越来越多的人选择自驾游或者自由行,这对电子导航技术也提出了更高要求。它不仅需向游客提供不同的出行路线选择,减少拥堵节省时间,还需具备智能推荐功能,能避开景点人流拥堵地区,或提供未来人流畅通时间段。通过数据库信息向游客推荐景点导航、美食导航、酒店导航、识别地点等,提高人们衣食住行一站式信息服务的便捷性和响应速度。
(3)智能传感技术。其特点是功耗低、数据传输距离远,具备采集、处理、交换信息的能力,包含传感器、处理单元和无线通信模块等。将采集数据优化后经无线通信传输给信息处理中心,其中无线数据传输技术采用Zigbee、Wi-Fi、5G等,这类技术可用于物联网、人工智能/机器人技术,应用于智慧景区、智慧城市等领域。在万物互联的背景下,数据的快速传输、可视化便于景区实现更好的管理,如智慧安防、客流监测、智能门禁等。此外,智能传感技术还可用于智能系统及时识别游客所处场景及需求并提供相应服务。
(4)3D建模技术。随着人们对旅游个性化服务需求的多样化发展,在地图上运用3D建模技术辅之语音讲解,可以更全面、直观地了解周边景点,方便游客根据需求变化动态调整行程。另外,疫情常态化防控的形势也催生各旅游地提供线上体验,借助3D建模技术可形象地还原景点原貌。对于政府或景区而言,还可以将3D建模技术用于区域旅游规划,优化附近交通等系列公共设施和景区布局。
(5)虚拟现实技术。虚拟现实、增强现实等技术应用是线上文旅的动力源。后疫情时代,人们外出旅游的机会减少,利用虚拟现实技术,足不出户便可体验千里之外的风光,还可结合自身需求选择景点详解,穿越时空感受人文风俗,通过感官模拟让人仿若身临其境,更具真实感。同时,虚拟现实技术能帮助老年人等出行不便的群体共享数字文旅生活。该类技术与3D建模技术相结合,可广泛应用于古建筑遗址等物质文化遗产的修复,在不破坏现状的基础上向大众展示遗址原貌。
结合技术生命周期及热点演变分析,电子导航技术最先出现在数字文旅技术的婴儿期,随后交互式人工智能技术、3D建模技术、虚拟现实技术及智能传感技术在发展期逐步增多,而进入成熟初期,交互式人工智能技术、虚拟现实技术依旧是研究热点。
本文使用ROSTCM6软件,以“K核分析”为标准,按类别对专利摘要词语进行语义网络主题聚类,按照主题的中心度构建6类语义网络,如图9所示。数字文旅产业通过虚拟现实、大数据、物联网、人机交互等技术实现智慧服务,并呈现从中间核心圈层向周围圈层辐射的形状。
图9 数字文旅技术语义关联
第一圈层主要以“系统”“技术”“智能”“数据”“模块”“虚拟现实”等词语为核心,数字文旅技术以数据贯穿始终,各类系统、模块、技术智能化是产业基础,并以服务为应用目的覆盖数字文旅产业的各个领域,同时突出了虚拟现实主题类技术的重要性。第二圈层以“大数据”连接“应用”,涵盖“终端”,为促进供需平衡,通过大数据的分析、转化,数字文旅产业能更科学地适应市场,满足游客需求。第三圈层则是以“服务器”“存储”组成的云计算体系,反映信息资源存储、处理及提取技术是数字文旅产业的支撑,为文旅资源数字化奠定基础。第四圈层由“物联网”“数据库”“主视图”等词语构成,通过系统设计图形打造智慧友好的交互图形用户界面,加之物联网技术及数据库信息,更好地为游客提供精准服务,涉及交互式人工智能、电子导航技术的实施环节。第五圈层以“虚拟”“智慧”“实时”“环境”为核心,侧重快速发现游客需求,提供智慧服务,以沉浸式虚拟现实类技术提升游客体验感。第六圈层以“人机交互”“语音”“场景”等词语为核心,通过无线传输、数字化识别游客所处场景,运用3D建模技术、智能传感技术、交互式人工智能技术强化人们与文旅场景的互动。
第一圈层与其他5个圈层均有关联,数据、系统、技术是数字文旅产业的基本要素,且处于核心地位,因此辐射范围覆盖各圈层。第二圈层通过“终端”与第三圈层“服务器”相连,两者共同架起数据的存储与应用桥梁,终端是数据的生产端与服务端,而服务器则是数据存储仓库。第三圈层云计算体系为第二圈层大数据的分析应用提供保障。第四圈层通过“图形”与第六圈层的“人机交互”相连,反映出两者之间的上下连接关系,图形是生成视图的组成元素,继而成为交互式人工智能技术理解与表达的关键一环。
(1)5G信息技术潜力大。专利主题提取结果发现,大数据、虚拟现实、增强现实、3D、数字化是当前数字文旅融合技术的主要方向,而在《“十四五”文化产业发展规划》中提及的物联网、沉浸式体验、5G、全息投影等领域仍处于起步阶段,可挖掘的潜在空间巨大。5G应用成功地解决了VR/AR画面延迟、网络不稳定等问题,以VR/AR为代表的沉浸式视频将成为行业主流,而基于5G底层技术而诞生的各类沉浸式体验则是未来主流的娱乐方式之一,将会对数字文旅消费带来颠覆性影响[36]。中国联通与腾讯自2019年以来连续3年共同发布《中国智慧文旅5G应用白皮书》,彰显了5G在文旅产业的重要性,5G与各类信息技术的融合应用将极大地促进数字文旅产业的变革。
(2)注重以人为本。无论是技术主题中的“图形用户界面”还是技术关联中的“主视图”和“图形”,都体现了各类专利对游客自主原则界面的设计感,以大众需求为导向,促进消费结构转型升级,人机交互、智慧技术相关专利日趋增多,说明随着时间的推移文旅产业愈加重视消费者的体验感,并随着网络科技的发展迭代更新,交互愈加智能化。尤其在后疫情时代,对于无法外出旅游却向往大自然的人们来说,采取线上、高科技等方式体验美景和人文风俗将成为满足大众需求的最佳途径。因此,交互式人工智能、虚拟现实、增强现实等技术的广泛应用也将成为重点。
(3)突破信息壁垒。在数字文旅的技术主题中,基于大数据对游客兴趣爱好进行挖掘并精准营销推送,更好地满足人们精神需求是数字文旅发展方向。目前数字文旅技术主要是以旅游景点应用为主,通过虚拟现实等技术为人们提供展示、体验智慧服务,但与文化相关的元素融合较少。后续在数字文旅技术的探索中,首先,除了考虑更便捷地向人们呈现景区特色,更应融合当地文化特色,让游客不仅在视觉上有所收获,同时也提高其精神内涵,并创造更加丰富的文化和旅游消费场景。其次,现有的线上App应用地域局限性较强,还需整合信息资源展示全国范围内的景点,更好地为游客提供一站式浏览,继而促使用户高频使用App,扩大景点及地域文化的影响力。最后,数据作为数字文旅产业的关键生产要素,打破各类部门信息壁垒,在保障用户隐私的基础上实现多源异构数据的合理利用也是今后的重点发展方向之一。
本文以数字文旅专利数据为基础,通过专利计量、TF-IDF算法、LDA聚类分析、语义网络等方法工具,研究数字文旅技术的当前现状、技术热点、技术主题、技术关联及发展趋势,得出如下结论:一是当前我国数字文旅技术处于成熟初期,专利申请人类型主要以企业及院校为主,而组织参与较少,在地域上呈现东部沿海城市、中部城市申请数量多,而我国少数民族较多的东北、西南、西北地区则较少;二是通过运用困惑度及LDA主题模型得出数字文旅技术主题可分为交互式人工智能技术、电子导航技术、智能传感技术、3D建模技术、虚拟现实技术5大类;三是数字文旅技术随着时间的推移,由单一的展示旅游景点逐渐走向智慧化,更好地满足人们的需求,“数字化”“虚拟现实”成为热点;四是数字文旅技术将以5G融合应用为基础,运用交互式人工智能、虚拟现实等技术优化游客体验,并突破信息壁垒,实现多领域融合发展。
本文运用LDA主题模型提取数字文旅技术主题,为促进数字文旅产业融合发展具有重要参考意义。但本文也存在不足之处,数据来源局限于大为Innojoy专利数据库,样本采集仅局限于国内,未包含论文数据。在后续研究中将从全球视角出发,技术主题研究范围涵盖论文、报告等相关数据,以便更准确地识别数字文旅产业技术。