王娜 董焕晴
关键词:用户;在线旅游;网站信息;本体构建;马蜂窝
随着经济以及旅游业的发展,旅游资源越来越丰富,外出旅游也成为人们的日常休闲活动。网络信息技术的不断进步和发展.让在线旅游获得了极大的进展.在线旅游网站也因此层出不穷,如人们常用的有马蜂窝旅游网、携程旅行网、途牛旅游网、去哪儿旅行网等。面对旅游网站中大量的旅游景区、美食、住宿等信息,人们通常是通过基于关键词的查询方式获取信息,然后再筛选出真正满足自身需求的信息加以利用。在互联网+旅游的模式下,人们获取旅游信息资源的渠道增加,获取的网络信息数量也随之增加.使其更易受到信息迷航或信息过载的困扰。因此,如何将大量的信息进行合理组织以便更贴近于用户的需求.使得用户在大量嘈杂的数据中可以简便清晰地获取有价值的信息是一个亟需解决的问题。
互联网的快速发展使得更多的用户从信息的使用者渐渐转变为主动的内容生产者.这既使得网络信息数量激增,又由于一手信息的丰富增强了信息的时效性。因此,笔者认为為了使得获取的信息更符合用户的需求,优化用户的检索效果,可利用用户参与行为产生的信息来构建旅游信息本体,在本体的基础上对旅游网站信息进行重新组织。该方法的优势在于:首先,以用户发布的信息作为数据源构建本体.一方面可以使获取的信息更贴合用户的需求:另一方面可以使本体的进化变得更为自动化,不用过多地依赖领域专家参与,只需每隔一段时间爬取用户发布的信息即可完成更新。其次本体主要定义了事物的概念、属性以及概念之间的关系,能够体现出信息之间的关联性。将本体技术应用于在线旅游网站的信息组织,能够将各个旅游信息类之间的关系体现出来,在语义和知识层次上表示复杂的知识,比如当用户搜索某一景区时,网站会将与景区相关联的美食、酒店、交通等信息以及其自身的属性都反馈给用户,为用户提供更精确、有价值、有关联的旅游信息。
1国内外研究现状综述
1.1国内外旅游本体构建相关研究综述
旅游本体是将本体技术应用于旅游领域,通过对相关旅游概念的描述,构建概念间的逻辑关系,国内外的学者在旅游本体构建方面也进行了大量的研究。如闫晓鹏通过在旅游信息检索系统中引入本体技术,以山东省为例,利用七步法构建了山东旅游信息本体模型。封珏以扬州风景区为例研究了其中的类结构,最后使用OWL本体描述语言定义本体类、类之间的属性关系、属性的约束以及实例的创建,构建了扬州领域旅游信息本体。戚利娜为了提升旅游信息资源的检索效果,以张家界为例,利用六步法研究了类的层次结构,最后使用Protege工具构建了张家界旅游信息本体。李艳等以商洛地区为例,提出了基于本体的全域旅游信息平台建设模式.并通过使用Protege工具构建了商洛地区的全域旅游信息本体。李庆赛在比较大众分类法与本体的异同上,采用七步法对旅游领域本体建模,并在此基础上使用本体构建工具Protege详细介绍了旅游本体的构建过程。Chan.trapornchai c等以泰国健康旅游为例,通过信息收集、语料库研究、本体的构建和发布评价以及应用构建等过程,构建了泰国第一个健康旅游本体。Xavier C C等提出了利用半自动化的抽取方法提取维基百科数据库的类别.其主要过程为逐步抽取旅游分类结构、类别的层级结构、概念关系、子类和实例,进而以此为基础最终构建旅游信息本体。Mili H等结合本体构建工具Protege和OWL本体语言构建了一个法语旅游本体,为构建的电子旅游平台系统提供了基础框架。Daramola J O等在构建尼日利亚旅游业的旅游推荐服务框架时.利用本体构建工具Protege和OWL语言构建了目的地环境本体和住宿本体。
1.2简要述评
综上所述.国内外对于旅游信息本体构建研究已有一定的成果.目前的研究大多集中在通过使用某一地区的旅游信息进行本体的构建。但尚未有从用户的角度出发,利用在线旅游网站中用户发布的信息进行本体构建的研究。将用户在在线旅游网站发布的信息重新组织应用,能够在较大程度上满足用户自身的需求,并更好地体现出信息的时效性价值,而本体作为一种有效的知识组织方式,能够帮助用户在大量的信息之间简便快速地获取有价值的关联信息。因此,本文在借鉴现有旅游信息本体构建研究相关成果的基础上,以在线旅游网站中用户发布的信息为切入点,从用户的角度出发构建在线旅游网站信息本体。
2用户参与的在线旅游网站信息本体设计
2.1用户对旅游信息组织的需求分析
在线旅游网站是用户通过互联网进行互通和分享旅游信息的网络平台。随着旅游活动的日常化,在出行前,越来越多的用户习惯于从在线旅游网站中获取相关的景区、美食、住宿以及交通等信息。因此,为了了解用户使用在线旅游网站的现状,本文调研了马蜂窝旅游网、携程旅行网、途牛旅游网等相关在线旅游网站的产品体验分析报告,以此为基础分析了目前用户对于在线旅游网站的需求,在分析过程中发现有4个方面容易影响到用户满意度:第一.虽然网络技术的普及让人们获取信息变得容易,但网络信息的增长量超出了用户的认知能力,造成了信息过载等诸多问题。而目前在线旅游网站只提供了简单的关键词查询、分类搜索等检索方法,展示的游记、攻略和旅游产品信息过多,导致页面之间的交互复杂需要跳转多个界面进行查询,已无法使用户快速获取有价值的旅游信息;第二,旅游领域中信息的复杂性强,涉及游、购、娱、食、住、行等多方面,再加上各个在线旅游网站面向的用户群体阶层也有所不同,如马蜂窝旅游网的用户大多为25~35岁的年轻女性,而携程旅行网、途牛旅游网的用户则较多为35岁左右的商务男性。因此,不同的用户在查询信息时,需要查询多次或者尝试多个在线旅游网站才能够获取全面的信息,单个的网站难以满足用户全面的信息需求;第三,用户在通过查看相关游记获取旅游信息时,因为大部分游记是由图文以及视频组成,在获取相关信息时,一般都要看完视频或者阅读完整篇内容才能获取其中的零星信息.所得到的信息也较为分散、关联性弱,并且需要花费较多时间浏览和阅读;第四,从互联网技术方面来说,在线旅游网站提供的搜索引擎对语义的理解和表达有限,往往会造成信息的检准率低和信息之间语义关联性差的问题。
基于以上分析,为了提高用户对于获取的信息的满意程度,笔者认为可采用用户参与构建在线旅游网站信息本体的方法,从用户的角度出发,以用户发布的信息为基础使用本体方式对在线旅游网站中的信息进行组织,构建一个可重用、可发展的在线旅游网站信息本体,提供更有关联的、更满足用户需求的信息。
2.2用户参与的在线旅游网站信息本体设计机理
通过上文的分析可知,随着在线旅游网站的发展,大量繁杂的网络信息不仅没有很好地满足用户的需求,反而降低了用户获取有价值旅游信息的效果。针对此问题,本文提出一种以用户发布的旅游信息为基础,通过用户参与构建在线旅游网站信息本体的方法,以期通过基于本体的查询来优化用户检索信息的效果,使得检索的结果更加满足用户需求。在本研究中用户参与的方式主要是在在线旅游网站中的信息发布行为,发布的信息包括游记、攻略、评论等多种内容,也即在本体构建过程中用户的参与是一种隐式的参与,该种方式可减轻用户的负担。用户参与的在线旅游网站信息本体设计机理具体如图1所示.其整个流程主要包括用戶数据的生成、用户数据的获取、在线旅游网站信息本体构建、旅游信息检索4个模块。
1)用户数据的生成。该部分是指用户通过在线旅游网站发布旅游游记、攻略、评论等信息,组成了网站中有关于用户的大量旅游信息文本集,对这些信息中的相关内容进行挖掘可用于后续的本体构建,这一部分是整个用户参与的在线旅游网站信息本体构建的数据基础。
2)用户数据的获取。第一步是利用数据采集工具爬取在线旅游网站中用户发布的文本信息,然后进行文本信息的筛选,筛选标准是剔除爬取到的重复、乱码以及含有错误的文本。第二步是将经过预处理的文本信息利用分词系统进行分词以及关键词的提取。第三步是将提取出的关键词依据词语的词性以及词频进行筛选.主要是过滤没有意义的虚词和实词,选取词性为名词且出现频次相对较高的关键词,然后将内容或意义相同但名称不同的词汇进行归类或合并,最后以词频进行排序形成在线旅游网站用户旅游信息数据集。
3)在线旅游网站信息本体构建。综合相关研究得出,目前常用的本体构建方法主要包括IDEF5法、TOVE法、METHONLOGY法、骨架法和七步法。它们的成熟度依次为七步法>METHONLOGY法>IDEF5法>TOVE法>骨架法。其中IDEF5法、TOVE法和骨架法主要用于构建企业领域本体,METHONLOGY法通常用于创建化学领域本体,七步法是基于本体开发工具Protege构建领域本体,是目前一种较为实用也较为成熟的本体构建方法。因此,本文认为可采用七步法构建用户参与的在线旅游网站信息本体,以获取的在线旅游网站用户旅游信息数据集作为主要数据源,并以在线旅游网站分类类目信息、中国旅游资源分类表为参考,对提取的旅游信息的相关概念以及概念间的关系进行分析,确定旅游领域的核心术语、定义类和类之间的等级体系、定义类的属性、创建本体实例,最后形成在线旅游网站信息本体库。
4)旅游信息检索。该部分是指用户使用构建的在线旅游网站信息本体库进行旅游信息的检索,本体库将一系列具有语义关联的旅游信息返回给用户。
3用户参与的在线旅游网站信息本体构建
3.1用户参与的在线旅游网站信息本体基础模型设计
在旅行中旅游者的实际旅游需求包含吃、住、行、游、购、娱6大方面,考虑到构建在线旅游网站信息本体的实用意义.本文借鉴了旅游体验的6大要素吃、住、行、游、购、娱,并在分析了国内各大优秀旅游网站的主题导航信息的基础上,提炼出在线旅游网站信息本体的6大核心类:景区、美食、住宿、交通、娱乐、购物,其中每一个核心类中又包含诸多的子类,可以逐步细化到每一个具体的实例。因此,本文以此为基础构建了在线旅游网站信息本体的基础模型,如图2所示。
3.2用户参与的在线旅游网站信息本体构建流程
构建在线旅游网站信息本体是为了实现知识的共享与重用,但信息是在不断改变和增长的,因而本体也是不断进化、逐步完善的。所以本体构建的流程要有一定的可复用性,鉴于此,本文在七步法和在线旅游网站信息本体基础模型的基础上,提出了用户参与的在线旅游网站信息本体的具体构建流程。具体构建流程如下所示:
3.2.1确定领域本体的范围
在构建本体时首先要明确的是本体覆盖的专业领域,本文以旅游领域作为特定的研究领域.从用户角度出发,挖掘在线旅游网站中用户发布的相关旅游信息,并以此为基础构建在线旅游网站信息本体。
3.2.2考察复用现有本体的可能性
根据对现有相关本体的研究,发现目前国内外学者的研究大多是针对某一地区或者某一旅游要素构建本体,与本文的研究目标有所不同,所以不考虑复用现有的本体。
3.2.3选取旅游信息概念术语
本文将会以获取的在线旅游网站用户旅游信息数据集作为构建旅游信息本体的主要数据源.然后参考在线旅游网站中有关的旅游实例信息以及中国旅游资源分类表信息,确定选取的旅游信息概念术语。
3.2.4定义类和类的等级体系
本文采用自顶向下法来构建本体,以前文构建的6大顶层核心类为基础,在参考在线旅游网站分类类目信息与中国旅游资源分类表的基础上,划分各大核心类子类。考虑到类的通用性与科学性,定义类的层级结构,具体如图3所示。
3.2.5定义类的属性及关系
此部分是描述类的内在结构的过程.属性的建立通常是以学科知识和应用目的为基础,其包括对象属性和数据属性。类的对象属性主要表示旅游信息本体中类之间的关系,类的数据属性表示的是类实例对象所具有的特征,比如住宿具有价格、星级等属性。
1)定义类的关系,其主要表示旅游信息本体中类与类之间、类与实例之间、实例与实例之间的关系,本文定义的关系主要包括part-of、kind-of、instance-of和attribute-of 4种。本文主要参考在线旅游网站分类类目信息与中国旅游资源分类表,定义类之间的关系。比如景区、美食、住宿、交通、娱乐、购物6个大类是总的旅游信息类的一部分,可用part-of表示;景区与人文景区、自然景区则是父类与子类的关系,可用kind-of表示;某具体的人文景区与人文景区之间则是类与实例的关系,可用instance-of表示。
2)定义类的对象属性,其主要是对领域内各种类的关系进行描述,比如景区类与美食类之间可用have_food的对象属性进行关联,表示的是景区周边存在的美食信息。本文通过各旅游网站对旅游领域内相关景区、美食、住宿、交通、娱乐、购物信息的分析归纳,定义了旅游信息本体中类的对象属性,如表1所示。
3)定义类的数据属性,其表示的是一个类的特征,用于对类的实例属性进行赋值。为了能够准确和详细地描述类,在构建数据属性的时候,应该重点关注属性的作用,考虑属性的科学性与适用性,非关键的属性可以省略,例如在对景区、美食等描述时,用户的关注点通常会在地址、价格上,而对于景区、美食的创始人姓名关注较少。通过调研分析在线旅游网站的分类类目的具体信息以及互联网上对景区、美食、住宿、交通、娱乐、购物6个大类实例的具体描述.本文定义了6大分类中较为通用的数据属性。定义的详细数据属性如下所示:景区(营业时间、地址、联系电话、景点级别、价格、简介),美食(营业时间、地址、联系电话、人均消费、简介),住宿(营业时间、地址、联系电话、房价、房型),交通(运营时间、联系电话、费用信息),娱乐(营业时间、地址、联系电话、内容介绍、费用信息),购物(营业时间、地址、联系电话)。对于类的数据属性的取值,考虑到爬取的用户发布的数据可能存在不准确和不完整的情况,因此,本文在定义各个实例的属性的取值时,将会以定义的实例为关键词重新搜索实例的相关信息,然后将获取到的属性值根据定义的数据属性进行赋值。
3.2.6定义属性的分面
一个属性的分面就是指属性取值的特征,如取值的类型、个数和容许的取值等。一个属性可能由多个分面组成,它们共同构成属性的内在结构。比如景区具有地址、联系电话、价格等属性,通常设置“地址”属性取值类型为文本型、“联系电话”取值类型为数字型,针对不同的旅游对象群体,景区“价格”属性通常会设置1~3个价格数值。
3.2.7创建实例
实例是领域本体中最小的概念.比如从在线旅游网站用户发布的信息中抓取的关键词就是一个个的实例。在创建实例时,可选取在线旅游网站中某一具体目的地,根据6大顶层核心类构建各个类的具体实例。
3.2.8本体形式化
目前,国内外开发构建本体的工具有很多,比较成熟的有Prot6g6系列、OntoEdit、WebODE等,这些工具都是基于Web的本体描述语言,具有良好的可扩展性,可以处理多种建立于Web之上的本体描述语言格式。其中Protege系列是美国斯坦福大学医学院生物信息研究中心基于Java语言开发的本体构建工具,主要用于语义网中本体的构建。它提供了本体概念类、关系、属性和实例的构建.用户使用时只需在概念层次上进行领域本体模型的构建,而不需要关心具体的本体描述语言。由于其具有开源、支持中文编辑、简单易懂以及良好的可扩展性等优势,因此本文将使用Protege工具实现在线旅游网站信息本体的形式化。
3.2.9本体知识库的存储
本体构建完成后,可以根据Protege工具提供的RDF/XML Syntax、OWIZXML Syntax、Turtle Syn-tax等保存方式進行本体文件的保存,用户可以在保存后的本体内查询与维护此本体。
4实证研究
4.1在线旅游网站信息本体的概念及体系结构设计
本文以马蜂窝在线旅游网站为例,以洛阳为关键词,使用后羿采集器数据采集工具爬取在线旅游网站中用户发布的有关洛阳的游记信息,收集的信息内容主要包括用户关于洛阳景区、美食、住宿、交通、娱乐、购物等的描述信息。对爬取到的游记文本内容处理的详细过程如下:
1)对爬取的文本信息进行筛选,剔除爬取到的重复、乱码以及含有错误的文本,共计得到的洛阳游记文本信息857条,部分详细文本信息如图4所示。然后将筛选过的文本信息集使用NLPIR-IC.TCLAS汉语分词系统的关键词提取功能进行分词以及词频统计,部分结果如图5所示。
2)处理关键词分词结果,过滤没有意义的虚词和实词等,如“虽然”“可以”“一个”“开始”“建筑”等.然后保留词性为名词且出现频次相对较高的关键词。其次是将内容或意义相同但名称不同的词汇进行归类或合并.如“天子驾六”与“天子驾六博物馆”“古墓博物馆”与“洛阳古代艺术博物馆”等。
3)将其按词频进行降序排序得到关键词词频统计结果,部分结果如图6所示。
4)根据得到的关键词词频统计结果,本文参考中国旅游资源分类表,以其分类信息为标准,对得到的关键词结果进行分类、归纳以及词频排序,得到的部分景区类的关键词词频统计图与归纳的各分类部分实例表,如图7与表2所示。
5)定义类的属性及关系
①类的对象属性及关系的构建:类的关系的创建主要以中国旅游资源分类信息为基准,类的对象属性的创建主要根据前文3.3.5中对类的对象属性的定义,其对象属性值的填充则是通过归纳汇总在线旅游网站对各旅游实例的具体描述。以景区实例为例,对其添加对象属性及关系.得到的实例信息如表3和表4所示。
②类的数据属性与属性值的获取:依据上文定义的数据属性,以洛阳旅游分类实例表中的各种实例为关键词展开搜索,用搜索获取的具体信息填充其属性值。本文以景区实例为例,进行实例数据的添加,部分实例具体数据如表5所示。
4.2基于Protege的在线旅游网站信息本体构建
依照上文中定义的本体构建流程,选用上文中定义的类、类的属性与属性值,使用Protege进行本体的创建。
1)定义类:根据上文定义的类目在Class界面添加其顶层类及二级类.并构建它们之间的层次结构,得到的本体类目层次结构图如图8所示。
2)定义属性:根据上文定义的对象属性与数据属性,分别通过Obiect Pmperty与Data Pmperty界面添加定义类的对象屙l生与数据属性.如图9和图10所示。
3)添加洛阳旅游信息本体实例:在使用Protege为在线旅游网站信息本体添加实例时,本文以洛阳旅游信息为例,以上文爬取整理后的实例及实例数据填充本体。首先是为建立的类目下添加相应的实例,其次是为实例添加对应的对象属性值与数据属性值。具体如图11所示。
4)本体可视化:本文使用Pmtege的OntoGraf功能,实现构建的本体的可视化。如图12和图13所示,其中虚线表示的是各类目之间、各实例之间的语义联系,其中图13表示的是展开的龙门石窟实例的相关信息。
4.3用户参与的在线旅游网站信息本体评估
4.3.1实验过程
为了对用户参与的在线旅游网站信息本体进行评估测试.本文采用用户参与的方式进行实验,具体的实施步骤为:
1)选取10位用户作为实验用户,然后依据已构建完成的本体,让用户从中选择感兴趣的景点。
2)将从实验用户处搜集到的景点作为第一次检索的关键词,然后使用其分别在在线旅游网站信息本体和在线旅游网站中进行检索.并分别将本体检索结果集和网站检索结果集汇总。
3)将本体检索结果集和网站检索结果集分别以推送的方式返回给用户,并请用户选择结果集中感兴趣的信息作为第二次检索的检索词,然后使用其分别在在线旅游网站信息本体和在线旅游网站中进行检索,最后分别将两次检索的本体检索结果信息和网站检索结果信息汇总。
4)将汇总后的本体检索结果集和网站检索结果集以推送的方式重新返回给用户,并请用户依据满意度评估量表对检索结果集进行评价。
5)统计10位用户的评估结果.对评估结果进行均值化处理,最后以此为基准来评估用户参与的在线旅游网站信息本体的效果。
4.3.2评估量表设计
在设计用户满意程度评估五级李克特量表时,本文以莫祖英等提出的信息资源质量维度划分中的检索结果的检全率和检准率两个指标,查先进等。提出的信息资源质量评估指标体系中的易用性、可获取性和准确性3个指标以及0nt0QA量化指标评估框架中的模式指标组的关系丰富度、属性丰富度两个评估指标作为参考。综合对以上3类指标分析.得出本文适用的具体评估指标为信息的全面性、信息的精确性、有效信息的易获取性、信息的关联性、信息的准确性。其中信息的全面性是指检索结果集所反映的信息是否全面;信息的精确性是指检索结果集反映的信息是否精确,是否为应该检索出的信息;有效信息的易获取性是指返回的检索结果集能否帮助用户更快更简易地获取有效信息;信息的关联性是指检索结果集中除了返回检索词本身的具体信息.是否返回与其相关的其他旅游信息以及其具体内容;信息的准确性是指检索结果集的质量,比如信息的来源是否可靠、返回的信息是否有錯误等。在对量表题目选项进行赋值时,设置非常不同意为1分、比较不同意为2分、一般为3分、比较同意为4分、非常同意为5分,具体的用户满意程度评估量表题目设置如表6所示。
4.3.3实验结果分析
对统计结果进行分析,经过处理后的检索结果满意度分值如表7所示。当平均值结果为3~4分,代表用户对本体检索结果集中反映的信息比较满意;当平均值结果为4~5分,代表用户对本体检索结果集中反映的信息非常满意。
从上述满意度反馈数据可以发现,与通过网站检索获取的检索结果集相比,用户对于使用本体检索出的检索结果集满意程度更好。如数据显示,在检索的信息的全面性、信息的精确性、有效信息的易获取性、信息的关联性、信息的准确性5个方面,与在线旅游网站对比,用户对于利用在线旅游网站信息本体检索出来的信息较为满意。尤其是在信息的全面性和信息的关联性这两个方面用户的满意程度更高,其次是有效信息的易获取性方面。经过上述分析可知,本文采用用户参与构建在线旅游网站信息本体的方式对信息进行重新组织,在一定程度上使得用户获取的信息更加全面以及获取的信息之间的语义关系更丰富。因此,本文认为基于用户参与的在线旅游网站信息本体可为用户提供更有关联、更满足用户需求的信息。
5结语
随着人们生活水平的不断提高,旅游逐渐成为其休闲娱乐的方式,而人们获取相关旅游攻略信息,往往要浏览在线旅游网站上大量的旅游景区、美食、住宿等信息,然后再进行筛选和归纳,利用信息的效率还有待提高。针对该问题,本文从用户的角度出发,提出用户参与的在线旅游网站信息本体的构建方法,并利用马蜂窝中用户发布的关于洛阳的旅游信息进行了实证分析,实验结果说明当用户使用此种方式进行旅游信息查询时,获得的检索结果更加全面以及获取的结果之间的语义关系更丰富,因而使其获得了更有价值的旅游攻略信息,优化了用户的检索效果。但是由于时间等诸多原因,本文的研究尚存在以下不足:一方面是在实证过程中,本文仅爬取了马蜂窝在线旅游网站的数据,数据量较小,因而得到的相关旅游信息还存在偏差;另一方面是本文的研究内容尚处于基础性的阶段,总体框架比较简单,仍需进一步完善。因为非旅游相关专业,对于数据内容的处理容易出现偏差,一定程度上影响了构建的本体的准确性,所构建的本体库尚不完善,因而在构建本体的过程中需要相关旅游专业的人员指导。这两点也是后续研究中需进一步完善的地方。