
2023-04-29
摘要: 为提高短文本语义相似性度量准确性, 设计一种基于混合机器学习模型的短文本语义相似性度量算法. 先对短文本实施预处理, 基于混合机器学习模型构建短文本的字词向量模型, 对短文本进行特征扩展; 然后组合短文本的多样度量特征, 对多样度量特征进行维度规约; 最后通过构建一个集成学习模型, 计算语义相似性结果, 实现语义相似性的度量. 使用“Quora Question Pairs”比赛数据集测试该方法的性能, 测试结果表明, 该方法的准确性较高, 对数损失和度量均方差均较低, 说明该方法的相似性度量准确性较高.

关键词: 混合机器学习模型; 短文本; 文本分词; 语义相似性; 卡方检验; 相似性度量

Short Text Semantic Similarity Measurement Algorithm Based on Hybrid Machine Learning Model

HAN Kaixu1, YUAN Shufang2

(1. College of Electronics and Information Engineering, Beibu Gulf University,

Qinzhou 535011, Guangxi Zhuang Autonomous Region, China;

2. College of Sciences, Beibu Gulf University, Qinzhou 535011, Guangxi Zhuang Autonomous Region, China)

Abstract: In order to improve the accuracy of short text semantic similarity measurement, we designed a short text semantic similarity measurement algorithm based on a hybrid machine learning model. Firstly, we preprocessed the short text, constructed a word vector model of the short text based on the hybrid machine learning model, and extended the  features of the short text. Secondly, we  combined the various metric features of the short text, implemented dimensional reduction on the various metric features. Finally, we constructed an ensemble learning  model to calculate the semantic similarity results and achieve the  semantic similarity measurement. We tested the performance of the method by using the “Quora Question Pairs” competition dataset, the test results show that the accuracy of the  method is high, the logarithmic loss, and the measurement mean square error are both low, indicating that the similarity measurement accuracy of the method is high.

Keywords: hybrid machine learning model; short text; text segmentation; semantic similarity; Chi-square test; similarity measurement

短文本虽然文本较短, 但其内容能容纳很微妙的语言表达, 在很多实际应用中, 都需要批量处理短文本数据[1]. 但对于大规模数据, 通常难以分辨短文本的语义相似性, 基于该背景对短文本语义相似性度量问题进行研究.

在自然语言处理技术中, 文本相似性度量一直是研究重点. 文本相似性度量的传统算法更适合在长文本上应用, 对于短文本常无法取得满意的效果, 因此需要对短文本相似性度量进行专门研究. 目前, 关于该问题的研究已有许多成果. 石彩霞等[2]提出了一种准确率较高的短文本语义相似性度量算法, 从短文本的稀疏特性出发, 通过多重检验加权融合实现相似性度量, 并取得了合理准确的计算结果. 本文应用混合机器学习模型对该问题进行研究, 设计一种基于混合机器学习模型的短文本语义相似性度量算法, 以实现更准确的相似性度量.

1 算法设计

1.1 短文本预处理

2.3 实验结果与分析

首先将数据集中的数据平均分成5份, 在每份数据中随机划分出80%作為训练集, 剩下的数据作为测试集. 在不同的提取特征数量下分别对训练集和测试集的Accuracy数值进行测试, 测试结果如图4所示. 由图4可见, 在不同的提取特征数下, 本文方法的Accuracy数值都较高, 说明该方法的短文本语义相似性度量准确率较高. 在提取特征数为3时, 训练集和测试集的Accuracy数值最高.

其次分别对训练集和测试集的Log loss数值进行测试, 测试结果如图5所示. 由图5可见, 本文方法训练集和测试集的Log loss数值均较低, 说明该方法在语义相似性度量中的对数损失较低, 度量性能较好.

最后对设计方法的度量均方差进行测试, 测试结果列于表2. 由表2可见, 通过该方法进行短文本语义相似性度量后, 训练集和测试集的度量均方差都较低, 表明本文方法的度量准确率较高.

综上所述, 本文在对短文本语义相似性度量问题进行研究的过程中, 应用了混合卷积神经网络学习模型和全连接神经网络学习模型的混合机器学习模型, 设计了一种基于混合机器学习模型的短文本语义相似性度量算法, 经过测试其在Accuracy,Log loss和度量均方差3個指标上均较优, 提高了短文本相似性度量准确率, 有一定的应用价值.


收稿日期: 2022-04-15.

第一作者简介: 韩开旭(1984—), 男, 汉族, 博士, 讲师, 从事机器学习和自然语言处理的研究, E-mail: frog0696@163.com. 通信作者简介: 袁淑芳(1988—), 女, 汉族, 硕士, 助理研究员, 从事机器学习的研究, E-mail: ysf20210605@126.com.

基金项目: 国家自然科学基金面上项目(批准号: 61374127)和广西高校中青年教师科研基础能力提升项目(批准号: 2021KY0434; 2020KY10019).