基于深度学习的旅游领域知识抽取

2024-06-26 07:52王泽辉徐万通郑艺苇林嘉仪周伏倪李世中
电脑知识与技术 2024年13期
关键词:文本分类

王泽辉 徐万通 郑艺苇 林嘉仪 周伏倪 李世中

摘要:旅游业是许多国家和地区的重要支柱产业之一,对促进经济增长和就业起到关键作用。其次,旅游是人们之间交流和相互了解的重要途径,有助于促进不同地域、民族和文化之间的交流与融合。因此,文章采用BERT-BiGRU-CRF命名实体识别模型和BERT-TextCNN文本分类模型,对旅游领域文本数据进行了知识抽取。其中,BERT-BiGRU-CRF在旅游实体数据集上的F1值达到了90.69%,BERT-TextCNN在旅游分类数据集上的F1值达到了92.51%,实验效果良好。文章提出的知识抽取方案为旅游领域的知识抽取提供了新方向,同时为基于该领域知识图谱的知识问答、知识检索等应用提供了帮助。

关键词:旅游领域;知识抽取;命名实体识别;文本分类

中图分类号:TP81 文献标识码:A

文章编号:1009-3044(2024)13-0042-03 开放科学(资源服务)标识码(OSID) :

0 引言

旅游业是国家和地区的产业,能够创造就业机会、促进货物和服务的流通、推动地方经济的发展[1]。还能够促进文化传承和保护,许多旅游目的地拥有丰富的历史文化遗产,通过旅游活动,可以促进这些文化资源的传承和保护,提高人们对文化遗产的认识和重视。

知识图谱是一种用于表示知识的图形化结构[2],它以实体和实体之间的关系为基础,将现实世界中的信息进行抽象和组织,形成一种图形化的知识表达方式。知识图谱的核心思想是将知识以图的形式进行建模,从而帮助计算机系统理解和处理复杂的语义关系。一个知识图谱通常由节点和边组成。节点代表现实世界中的实体,边则表示节点之间的关系。知识图谱的构建通常依赖于多种信息源,包括结构化数据、非结构化文本等[3]。构建知识图谱的过程包括数据抽取、实体识别、关系抽取、知识表示等多个步骤。

构建旅游旅游知识图谱,可以将丰富多彩的旅游资源进行整合和展示,包括景点名称、地理位置、特色景观、历史文化等,其次有助于传承和宣传历史文化和民族风情,促进地方经济发展、文化传承和社会进步。

1 相关理论与技术

1.1 BERT-BiGRU-CRF 模型

构建知识图谱需要对非结构化文本数据进行实体抽取,本文选择了BERT-BiGRU-CRF模型,如图1 所示:

首先,BERT作为底层模型,负责学习句子中每个词的上下文语义表示。然后,BiGRU模型用于进一步处理词语序列,通过双向循环神经网络的结构,能够有效地捕捉序列数据的上下文信息。BiGRU模型从两个方向(左到右和右到左)扫描输入序列,然后将两个方向的隐藏状态进行拼接,提供更全面的信息。最后,CRF模型用于对BiGRU输出的特征序列进行标签预测,利用标签之间的转移概率建模序列标注任务中的约束关系,从而得到最终的命名实体识别结果。

1) BERT模型。BERT[4]是由Google于2018年提出的一种基于Transformer架构的预训练语言模型。相较于之前的语言模型,BERT的主要创新在于引入了双向性,即同时考虑了上下文左右两侧的信息。BERT模型的预训练过程包括两个任务[5]:Masked Language Model(MLM) 和Next Sentence Prediction(NSP) 。在MLM任务中,输入序列中的一部分词会被随机地mask掉,模型需要预测这些被mask的词。而在NSP任务中,模型需要判断两个句子是否相邻。这样的预训练任务设计使得BERT能够学习到更丰富的句子表示,从而在各种自然语言处理任务中取得了非常好的效果。

2) BiGRU模型。GRU是一种循环神经网络的变体[6],具有门控机制,有助于克服传统RNN中的梯度消失问题。GRU包含更新门和重置门,它们决定了当前时间步的输入是否被更新到隐藏状态中,从而控制了信息的流动。相比于传统的RNN结构,GRU更容易训练,参数数量也更少。更新门和重置门的计算公式如下:

zt=σ(Wz?[ht?1,xt]+bz )

rt=σ(Wr?[ht?1,xt]+br )

更新后的候选隐藏状态的计算公式如下:

H=tanh(W?[rt×ht?1,xt]+b)

BiGRU是一种双向门控循环神经网络结构,由两个方向的GRU组成,分别从左到右和从右到左地扫描输入序列,然后将两个方向的隐藏状态进行拼接或合并,以捕获序列数据中的上下文信息。BiGRU结构通过同时考虑序列数据的前后信息,能够更好地捕获序列数据中的依赖关系和语义信息。它不仅能够利用当前时间步之前的信息,还能够利用当前时间步之后的信息,从而提供更全面的上下文信息。

3) CRF。CRF[7]是一种概率图模型,常用于序列标注任务,如命名实体识别、词性标注等。在CRF中,假设给定输入序列和输出序列,CRF通过定义一组特征函数来建模输入序列和标签序列之间的关系。这些特征函数衡量了输入序列和标签序列之间的对应关系以及相邻标签之间的转移概率。CRF模型的核心是学习条件概率分布,即给定输入序列,预测输出序列的概率分布。模型参数通过最大化对数似然函数进行学习,通常采用随机梯度下降等优化算法进行参数估计。CRF模型能够有效地捕捉序列数据中的依赖关系,提高模型在序列标注任务中的性能。CRF模型的条件概率分布可以通过以下公式表示:

1.2 BERT-TextCNN 模型

对文本数据识别出实体信息后,还需确定两个实体之间的关系,才能转换为三元组数据进行存储。本文选择了BERT-TextCNN模型来实现实体间的关系分类,如图2所示。

首先,BERT用于学习文本中每个词的上下文语义表示。接下来,TextCNN 用于进一步处理文本特征,通过卷积和池化操作对文本进行特征提取和压缩。TextCNN利用卷积神经网络的局部感知能力,能够有效地捕捉文本中的局部特征。最后,将输出向量传入全连接层进行分类预测。

1) TextCNN。TextCNN[8]是一种用于文本分类任务的深度学习模型。与传统的循环神经网络或者长短期记忆网络相比[9],TextCNN能够更好地捕捉文本中的局部特征,从而在文本分类任务中取得了良好的性能。TextCNN的核心思想是将文本表示为固定长度的向量,并通过卷积和池化操作对文本进行特征提取和压缩。卷积层通过多个卷积核对词向量序列进行卷积操作,以捕捉不同长度的局部特征。每个卷积核对输入进行一维卷积操作,产生一个特征图。池化层对每个特征图进行池化操作,通常采用最大池化操作来压缩特征图的维度,保留最显著的特征。

2) 全连接层。全连接层[10],也称为密集连接层或者仿射层,是深度学习神经网络中常见的一种层类型。在全连接层中,每个神经元都与上一层的所有神经元相连,每个连接都有一个权重参数。因此,全连接层中的每个神经元都接收上一层所有神经元的输入,并输出给下一层所有神经元。全连接层通常用于网络的最后几层,用于将前面层提取的特征进行组合和整合,从而得到最终的输出。在分类任务中,全连接层的最后一层通常使用softmax激活函数,将模型的输出转换为类别的概率分布。全连接层的输出计算可以用以下数学公式表示:

z=Wx+b

式中,x 为输入向量,W 为权重矩阵,b 为偏置向量,z 为全连接层的输出。

3) Softmax层。Softmax函数是一种常用的激活函数,主要用于多分类问题中的输出层。它将输入的原始分数转换成每个类别的概率值。Softmax函数对每个原始分数进行指数化,并将结果归一化,使得输出的概率之和等于1。这样的输出可以被解释为每个类别的置信度或概率。Softmax计算公式如下:

2 实验设置

2.1 实验参数设置

本文的实验基于TensorFlow平台搭建,实验环境配置如表1所示:

BERT-BiGRU-CRF命名实体识别模型参数设置如下:batch_size 设置为32,gru_units 设置为128,drop_rate设置为0.5,learn_rate设置为0.0001,共训练20个epoch。

Bert-TextCNN文本分类模型参数设置如下:优化器选择Adam,卷积核设置为(3,4,5) ,drop_rate设置为0.5,共训练20个epoch。

2.2 实验结果分析

为了比较各模型在旅游领域命名实体识别和文本分类上的表现,本文使用准确率、召回率和F1值衡量不同模型的性能,实验结果如表2和表3所示:

从表2可以看出,BERT-BiGRU-CRF模型相较于传统的BiGRU-CRF和BERT-CRF模型,在F1值上取得了3.61% 和2.11% 的提升,说明结合了BERT预训练的语义表示和BiGRU-CRF模型的序列标注能力,在命名实体识别任务中取得了显著的性能提升。BERT 模型能够学习到丰富的语义信息,通过预训练的方式在大规模文本语料上学习词语之间的语义关系,能够更好地捕捉词语的上下文信息。而BiGRU-CRF模型则能够有效地捕捉序列数据中的依赖关系,并通过条件随机场模型进行序列标注,具有良好的序列标注能力。结合BERT的语义表示和BiGRU-CRF模型的序列标注能力,BERT-BiGRU-CRF 模型能够更全面地利用文本中的语义和序列信息,从而取得了较大的性能提升。

从表3可以看出,BERT-TextCNN模型相较于传统的TextCNN和BERT模型,在F1值上取得了4.71%和3.12% 的提升,说明结合了BERT 的语义表示和TextCNN模型的特征提取能力,能够在文本分类任务中取得显著的性能提升。BERT模型能够学习到丰富的文本语义信息,而TextCNN模型则通过卷积和池化操作对文本进行特征提取和压缩,能够有效地捕捉文本的局部特征。结合BERT的语义表示和TextCNN模型的特征提取能力,BERT-TextCNN模型能够更全面地利用文本中的语义和局部特征信息,在文本分类任务中更准确地判断文本的类别。

3 结束语

在基于深度学习的旅游领域知识抽取研究中,通过本文所提出的BERT-BiGRU-CRF命名实体识别模型、BERT-TextCNN文本分类模型,我们成功地实现了对旅游领域相关知识的自动化抽取。通过深度学习技术,我们能够更准确、更高效地从海量的旅游文本数据中提取出有用的信息,为旅游业的发展和决策提供了有力支持。未来会进一步改进模型的性能和泛化能力,提高知识抽取的准确度和效率,同时结合领域知识和人类专家经验,进一步优化模型的设计和训练过程,探索多模态数据融合的方法,提升知识抽取的综合能力和应用效果。

参考文献:

[1]林婷,孙妍,易敏,等.“互联网+”时代智慧旅游发展及盈利模式探索[J]. 商展经济,2024(5):31-34.

[2] 赵卓,田侃,张殊,等. 面向智慧文博的知识图谱构建综述[J].软件导刊,2022,21(5):1-8.

[3] 张吉祥,张祥森,武长旭,等. 知识图谱构建技术综述[J]. 计算机工程,2022,48(3):23-37.

[4] DEVLIN J,CHANG M W,LEE K,et al. BERT:pre-training of deep bidirectional transformers for language understanding[EB/OL]. arXiv preprint arXiv:1810. 04805, 2018.

[5] 宋璐璐. 基于知识图谱的水稻病虫害问答系统的设计与实现[D]. 雅安:四川农业大学,2023.

[6] 翟文鹏,宋一峤,张兆宁. 基于Transformer-GRU网络的4D航迹预测[J/OL]. 重庆交通大学学报(自然科学版),1-7[2024-03-27].

[7] LAFFERTY J D,MCCALLUM A,PEREIRA F C N. Conditional random fields:probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the Eighteenth International Conference on Machine Learning. ACM,2001:282–289.

[8] 邹旺,张吴波. 基于BERT-TextCNN 的汽车评论情感分析[J]. 天津理工大学学报,2024,40(1):101-108.

[9] SUNDERMEYER M,SCHL?TER R,NEY H. LSTM neural net?works for language modeling[C]//Interspeech 2012. ISCA:ISCA,2012:194-197.

[10] 张静,高子信,丁伟杰.基于BERT-DPCNN的警情文本分类研究[J/OL].数据分析与知识发现,1-15[2024-03-27].

【通联编辑:唐一东】

基金项目:大学生创新创业训练计划项目:高原地区车内智能化检测供氧换气装置 (S202310694017) ;大学生创新创业训练计划项目“: 主动式”道路智能交互系统的研发(2024XCX015)

猜你喜欢
文本分类
基于朴素贝叶斯的Web文本分类及其应用
基于组合分类算法的源代码注释质量评估方法
基于贝叶斯分类器的中文文本分类
基于蚁群智能算法的研究文本分类
基于朴素贝叶斯分类的Java课程网络答疑反馈系统
基于K—means算法的文本分类技术研究
文本分类算法在山东女子学院档案管理的应用
不同情境下中文文本分类模型的表现及选择
基于内容的英语录音教材标注研究与应用
多核SVM文本分类研究