程圩 隋丽娜 程默
摘要:采用文本挖掘法分析蚂蜂窝中关于丝绸之路(中国段)的440篇游记,研究表明:游客所选择的游线集中于西安至敦煌段,尤为关注敦煌,游踪集中于甘肃和青海境内,而洛阳至西安及敦煌至新疆段受关注程度略低;游客对丝绸之路旅游资源认知形象较为综合,既有洞窟壁画、遗址遗迹等人文景观,又涵盖大漠孤烟、长河落日等自然景观,情感倾向积极且一致;当地生活体验成为旅游活动的重要组成,司机具有重要的导游作用。由于丝绸之路沿线各区旅游业发展条件和态势不均,应分别采取不同的形象建设策略;丝绸之路主题形象塑造要遵循“和而不同”的理念;各地政府应加强公共文化空间和公共文化设施建设,并加强对旅游汽车司机的引导、监管和培训。
关键词:网络文本;旅游形象;旅游认知形象;旅游情感形象;情感倾向;内容挖掘;丝绸之路(中国段);敦煌;旅游线路
中图分类号:F590.1;F127;G206.2文献标志码:A文章编号:16748131(2014)05010108
一、引言
丝绸之路是人类文明发展形成的独特文化区域“丝绸之路”由普鲁士地理学家费迪南·冯·李希霍芬(Ferdinand Freiherr von Richthofen)于19世纪70年代在其巨著《中国――亲身旅行和据此所作研究的成果》中首次提出,随后在世界范围内逐渐传开。经过百余年系统性的研究,如今学术界认为丝绸之路不单纯是地理学上的交通路线,而是一直发挥着“中西文化交流的大动脉”“人类文明运河”作用的、历史时期一个独特人文区域的“文化系统”(李明伟,2005)。 ,也是中西文化、政治和思想史上最重要、最受关注的领域之一。进入21世纪,随着世界经济全球化、信息技术迅猛发展,丝绸之路的重要性日益凸显。2014年6月,中国与哈萨克斯坦、吉尔吉斯斯坦三国联合提交的“丝绸之路:起始段和天山廊道的路网”项目正式列入世界遗产名录。2013年9月,中国国家主席习近平倡议用创新的合作模式共同建设“丝绸之路经济带”后,这一跨国线路更是受到前所未有的重视。但当前丝绸之路开发过程中存在的最突出的问题是各地多以行政区域范围为界而各自为营,资源优势难以充分发挥。丝绸之路中国段的旅游业发展状况也不容乐观,沿线各省区的客源流失比例高达40%~70%,而真正最后完成全线丝路产品的购买者不足总数的20%(林红 等,2005)。沿线各省区在资源互补的背景下缺少深层次的相互合作,游客所购买的产品是松散性的景点组合,而不是有机结合为整体的丝绸之路旅游线路产品。因此,对丝绸之路旅游发展进行深入研究具有重要的实践和理论价值。
目前,国内学者分别对丝绸之路青海段(李巧玲,2011)、甘肃段(李巧玲 等,2010a)、宁夏固原段(李巧玲 等,2010b)、陕西段西安旅游区(李巧玲,2012)、河南段洛阳旅游区(李巧玲 等,2011)等的旅游形象进行了分析和定位,阐述其形象推广策略。总体上看,目前国内学者更多地从供给方角度来研究丝绸之路的旅游形象,而从需求方视角来研究的较少;从资源赋存、单个城市或景区层面来研究丝绸之路旅游形象的较多,而对丝绸之路整体层面的研究较少;在研究方法上,多针对游客旅游过程进行问卷调查,缺乏对游客游前和游后心理感知以及对丝绸之路旅游形象综合评价的研究。
近年来,互联网成为旅游业重要的宣传手段。“旅游博客”由于其表现性、创造性和虚拟性而使之获得了建构性的特征,进而影响着旅游者对旅游目的地及相应旅游体验的建构性理解(李淼 等,2012);同时也作为一种网络口碑影响着游客的决策(Chen et al,2014)。旅游博客信息监测,作为一种经济而有效的方法,可以帮助旅游目的地评估服务质量并改善游客体验(Pan et al,2007)。对网络文本内容(如博客网络日志、游记以及在线评论等)进行分析也成为国内外研究旅游目的地形象的新方向(宗圆圆,2012)。在研究方法方面,主要通过网站搜集渠道进行信息获取,应用内容分析法和叙事分析法进行信息分析(陈静 等,2013)。此外,有学者还釆用图片关联(Picture Association)、语言关联(Word Association)、自由关联(Free Association)、抽象拼贴画技术(Collage as a Technique)等方法(Nina,2007)。目前学界通过网络信息内容对旅游目的地形象的研究主要集中在形象维度构成、形象传播机制、形象感知差异等方面,如通过旅游博客对俄罗斯(Nina,2007)、伯利恒(Stepchenkova et al,2006)、澳门(Choi et al,2012)、中国台湾(Soojin et al,2007;肖亮 等,2009)、北京(冯捷蕴,2011)、西安(赵振斌 等,2012)、西藏(杨昆 等,2013)等旅游目的地形象和华山(张高军 等,2011)、太白山(赵振斌 等,2011)、鼓浪屿(付业勤 等,2012)等景区形象进行研究,还有的对网络旅游形象主题词的构成特征(胡幸福,2006)和旅游目的地形象的网络传播模式(王劲松,2008)进行了研究。程圩,隋丽娜,程默:基于网络文本的丝绸之路旅游形象感知研究
基于网络文本的旅游形象分析是一种全新的研究方式,能够较为综合、全面地探究游客真实的形象感知。因此,本文将以丝绸之路中国段为研究对象,通过网络文本分析了解当前游客对丝绸之路旅游形象的感知状况和情感倾向,以期为丝绸之路中国段整体旅游形象的塑造以及各地段旅游品牌的建设提供参考和借鉴。
二、研究设计
1.研究对象
根据目前的研究,中国境内的丝绸之路主要有三条路线:一是绿洲道路,丝绸之路的主干道,形成于公元前后中国的两汉时期,由西汉的都城长安(西安)和东汉的洛阳经河西走廊至西域(今新疆),新疆段从楼兰开始分为南北两道;二是草原道路,即北部草原丝绸之路;三是海洋道路,即东南沿海的海上丝绸之路。本文的“丝绸之路中国段”为大众一般意义理解的“绿洲道路中国段”。按《中国丝绸之路旅游区总体规划(2008—2020年)》的界定,丝绸之路中国段的地域范围涉及河南、陕西、甘肃、宁夏、青海、新疆6省区和新疆生产建设兵团。
2.数据来源
“蚂蜂窝”为中国最大的旅行分享网站,提供全球旅游攻略、旅行点评等综合服务,近年在中国在线旅游企业流量排名中名列前茅。“蚂蜂窝”从2006年开始运营到现在积累了庞大的用户资源库,截至目前拥有超过4 000万的注册会员,该网站文本具有真实、客观、信息量大、资料集中等特点。本文以“丝绸之路”为关键词,对“蚂蜂窝”上的原创网络游记文章加以检索(数据采集时间为2014年2月22日—3月7日),并运用“火车头采集器V8.0”软件采集文本内容,通过筛选(删除海上丝绸之路及丝绸之路国外段的游记、剔除未完成的游记),获得样本游记文章440篇,游记涵盖的时间段为2010年1月1日至2014年2月8日。
3.分析方法
本文利用ROST Content Mining软件对游记文本进行内容分析(Content Analysis,CA)和语义网络分析(Semantic Network Analysis,SNA)。词频分析时剔除冗乱词条,如“大”“的”“公里”“行程”等无明显指代或意义广泛的词。为增加中文分词的准确性当前中文分析技术中“歧义识别”和“新词识别”两个技术难点仍尚未完全突破,故本研究在分词处理上一方面依据前人对旅游形象的研究而建立了常见旅游形象关键词的保留词表,保留词表所列词条主要包括丝绸之路沿线地名、旅游景点名等;另一方面对分词统计后出现的某些不完整词条通过Word替换功能进行统计,如“鸣沙”(实际为“鸣沙山”)、月牙(实际为“月牙泉”);而对统计中出现的简化词组或同义词组进行归并处理,如“南疆”和“北疆”归并为“新疆”、“愉快”和“愉悦”归并为“愉悦”。 ,笔者构建了旅游形象保留词表和归并词表,随后提取文本的高频特征词,并按形象维度进行分类排序;通过软件的可视化功能建立直观且形象的高频特征词“标签云”,并利用共现分析方法,根据高频词中的词语与其他词语同时出现的频率,进行语义网络分析,从而得到旅游形象主题内容的语义网络图,进而挖掘旅游者对丝绸之路形象感知的关键词。
三、研究结果
在所有旅游形象词条统计中,位居前十位的依次为“敦煌”“吃”“兰州”“莫高窟”“西安”“沙漠”“张掖”“嘉峪关”“师傅”“美”(见图1)。国内外研究学者关于旅游形象测量主要是基于认知形象与情感形象的视角而开展的,本研究也将从认知、情感和综合形象几个方面进行分析。
2.数据来源
“蚂蜂窝”为中国最大的旅行分享网站,提供全球旅游攻略、旅行点评等综合服务,近年在中国在线旅游企业流量排名中名列前茅。“蚂蜂窝”从2006年开始运营到现在积累了庞大的用户资源库,截至目前拥有超过4 000万的注册会员,该网站文本具有真实、客观、信息量大、资料集中等特点。本文以“丝绸之路”为关键词,对“蚂蜂窝”上的原创网络游记文章加以检索(数据采集时间为2014年2月22日—3月7日),并运用“火车头采集器V8.0”软件采集文本内容,通过筛选(删除海上丝绸之路及丝绸之路国外段的游记、剔除未完成的游记),获得样本游记文章440篇,游记涵盖的时间段为2010年1月1日至2014年2月8日。
3.分析方法
本文利用ROST Content Mining软件对游记文本进行内容分析(Content Analysis,CA)和语义网络分析(Semantic Network Analysis,SNA)。词频分析时剔除冗乱词条,如“大”“的”“公里”“行程”等无明显指代或意义广泛的词。为增加中文分词的准确性当前中文分析技术中“歧义识别”和“新词识别”两个技术难点仍尚未完全突破,故本研究在分词处理上一方面依据前人对旅游形象的研究而建立了常见旅游形象关键词的保留词表,保留词表所列词条主要包括丝绸之路沿线地名、旅游景点名等;另一方面对分词统计后出现的某些不完整词条通过Word替换功能进行统计,如“鸣沙”(实际为“鸣沙山”)、月牙(实际为“月牙泉”);而对统计中出现的简化词组或同义词组进行归并处理,如“南疆”和“北疆”归并为“新疆”、“愉快”和“愉悦”归并为“愉悦”。 ,笔者构建了旅游形象保留词表和归并词表,随后提取文本的高频特征词,并按形象维度进行分类排序;通过软件的可视化功能建立直观且形象的高频特征词“标签云”,并利用共现分析方法,根据高频词中的词语与其他词语同时出现的频率,进行语义网络分析,从而得到旅游形象主题内容的语义网络图,进而挖掘旅游者对丝绸之路形象感知的关键词。
三、研究结果
在所有旅游形象词条统计中,位居前十位的依次为“敦煌”“吃”“兰州”“莫高窟”“西安”“沙漠”“张掖”“嘉峪关”“师傅”“美”(见图1)。国内外研究学者关于旅游形象测量主要是基于认知形象与情感形象的视角而开展的,本研究也将从认知、情感和综合形象几个方面进行分析。
2.数据来源
“蚂蜂窝”为中国最大的旅行分享网站,提供全球旅游攻略、旅行点评等综合服务,近年在中国在线旅游企业流量排名中名列前茅。“蚂蜂窝”从2006年开始运营到现在积累了庞大的用户资源库,截至目前拥有超过4 000万的注册会员,该网站文本具有真实、客观、信息量大、资料集中等特点。本文以“丝绸之路”为关键词,对“蚂蜂窝”上的原创网络游记文章加以检索(数据采集时间为2014年2月22日—3月7日),并运用“火车头采集器V8.0”软件采集文本内容,通过筛选(删除海上丝绸之路及丝绸之路国外段的游记、剔除未完成的游记),获得样本游记文章440篇,游记涵盖的时间段为2010年1月1日至2014年2月8日。
3.分析方法
本文利用ROST Content Mining软件对游记文本进行内容分析(Content Analysis,CA)和语义网络分析(Semantic Network Analysis,SNA)。词频分析时剔除冗乱词条,如“大”“的”“公里”“行程”等无明显指代或意义广泛的词。为增加中文分词的准确性当前中文分析技术中“歧义识别”和“新词识别”两个技术难点仍尚未完全突破,故本研究在分词处理上一方面依据前人对旅游形象的研究而建立了常见旅游形象关键词的保留词表,保留词表所列词条主要包括丝绸之路沿线地名、旅游景点名等;另一方面对分词统计后出现的某些不完整词条通过Word替换功能进行统计,如“鸣沙”(实际为“鸣沙山”)、月牙(实际为“月牙泉”);而对统计中出现的简化词组或同义词组进行归并处理,如“南疆”和“北疆”归并为“新疆”、“愉快”和“愉悦”归并为“愉悦”。 ,笔者构建了旅游形象保留词表和归并词表,随后提取文本的高频特征词,并按形象维度进行分类排序;通过软件的可视化功能建立直观且形象的高频特征词“标签云”,并利用共现分析方法,根据高频词中的词语与其他词语同时出现的频率,进行语义网络分析,从而得到旅游形象主题内容的语义网络图,进而挖掘旅游者对丝绸之路形象感知的关键词。
三、研究结果
在所有旅游形象词条统计中,位居前十位的依次为“敦煌”“吃”“兰州”“莫高窟”“西安”“沙漠”“张掖”“嘉峪关”“师傅”“美”(见图1)。国内外研究学者关于旅游形象测量主要是基于认知形象与情感形象的视角而开展的,本研究也将从认知、情感和综合形象几个方面进行分析。