基于双通道卷积模型对人群的分类

2020-12-23 03:17胡慧莹张帆
汽车实用技术 2020年23期
关键词:双通道分词卷积

胡慧莹,张帆

(中国汽车技术研究中心有限公司,天津 300300)

前言

近年来中国新能源汽车市场飞速发展,无论是从企业推出的车型数量还是保有用户的数量都在持续上涨。根据中国汽车技术研究中心有限公司CATARC调研2020年对中国新能源汽车用户地调研,不同用户的社会特征和购车特征差异很大。在用户特征具有较大差异的背景下,如果将市场上的所有用户作为一个整理来研究,用户的特征和需求会非常分散,不仅不能挖掘出用户的共性,而且会忽略具有不同特性的用户。因此进行新能源汽车用户的人群分类,将具有类似特征的用户化为一个群体进行研究是非常重要的[1-4]。

目前新能源领域人群分类的方法主要是基于 kmeans聚类,该方法可以很好地对数值型数据进行分类,但是对文本型数据的分类效果不明显,准确率不高。因此,本文提出一种“基于双通道卷积模型”对人群的分类,该方法是以新能源汽车调研问卷为数据源,利用双通道卷积模型对问卷的文本数据进行人群分类[5-7],该方法可以提高自然语言文本的分类效果,非常有利于对问卷的答案进行有效地分析。

1 实证研究

1.1 数据准备

数据是本文的基础,本数据来自CATARC新能源汽车调研问卷,通过近几年的积累,积累了将近10000份样本问卷,样本问卷有关人群的问题及答案如下表1所示,由于篇幅原因,在这里只给出3个示例。

表1 样本问卷有关人群的问题及答案

1.2 样本分句

因为每个样本的答案语句字数长度以及维度不一致,在这里利用正则表达式把每个样本答案按照“,”,“。”等标点符号分隔开,目的是“大化小、长化短”,以便于后期计算方便,加快求解速度以及提高模型准确率,分割后的样本数据如下表2所示。

表2 分割后的样本数据

1.3 语句分词

接下来对样本答案进行分词,采用的方法是基于python语言和维特比算法来进行分词,下面介绍一下词图、节点间的距离计算以及维特比算法。

1.3.1 词图

对要分词的语句利用有向无环图进行分词,每一条分支都是可以分词路径,比如对第一个样本答案“表示我已经取得成功”这句话进行分词,那么这句话可以形成的词图可以用下面的图1表示。

图1 样本数据的词图

由图1可知,每一个分支都是从开始到结束形成一个有向无环图,每个有向无环图[8]。

1.3.2 计算节点之间的距离

在这里以图 1词图中每条边以二元语法的概率作为距离,那么中文分词任务转换为有向无环图上的最长路径问题[9]。为了使理论更加贴近实际工程在文本中分词使用公式1,将浮点数概率值连续相乘转化为负对数之间的加法。

图1词图多个有向无环图计算节点之间距离,添加计算节点之间距离的词图如下图2所示。

图2 计算节点间距离后的示意图

1.3.3 词图的维特比算法

因为二元语法可以看作隐马尔科夫模型的特例,只需要将此网中的词语看作显状态,只不过是隐状态到显状态的发射概率为1。表1的样本数据经过维特比分词得到的结果如表3所示。

1.4 语句词语打标签

对表3样本中的数据给出分类标签以及相对应分词结果的标签,在本文中分为6类人群,维特比分词后加标签后的数据如下表3所示,由于篇幅原因,在这里只列举出部分示例。

表3 维特比分词后加标签后的数据

1.5 模型介绍及参数确定

1.5.1 模型介绍

双通道中的一个通道指的是语句的输入及相对应的CNN模块对句子进行卷积、另一个通道是指分词短语的输入及相对应的 CNN模块对分词短语进行卷积,然后对二者的结果统一进行 softmax多分类操作[10-13],因此而形成双通道卷积模型。

双通道卷积模型是一种涉及 CNN的神经网络的模型,因此研究的内容会包括卷积层、池化层和 softmax层等网络结构,每个CNN模块由以下五部分组成。

分句后的新句子包括标点符号最长有m个字数,大约有m//2+1个词语。

(1)原始数据:因为新句子最长有m//2+1个词语m个字数,所以词向量维度为m//2+1,字向量为m,那么整个句子矩阵大小为(m-1)×(m-1)(因为标点符号不参与计算);

(2)第一步:卷积核的区域大小可以取(m1,m2,,m3)3种(如图8,每相似颜色的为一种),每种又有两个不同的取值(因为是双通道模型,每个通道对应一个取值),所以一共是有6个取值,即6个不同的卷积模板;

(3)第二步:特征模板制作,即数学中的积计算;即(m+2-mk(k=1,2,3)),计算出来是特征模板的大小,一共有3类(因为是双通道,所以每类两个)共有6个;

(4)第三、四步:因为用不同大小的卷积核获取到的特征模板大小也不一样,为了解决这个问题,添加一层最大池化层,即选取一个最大值,然后相同大小的组合在一起形成特征向量;

(5)第五步:基于特征向量利用逻辑回归的多分类模型softmax进行分类。

注意:m的取值由分割后的语句决定,不需要利用模型来求出。

1.5.2 确定最佳参数

前文介绍模型以及模型的相关参数,本小结来确定m1、m2、m3的参数,在这里使用800样本作为训练集,目的是训练出模型地最佳参数;使用200样本作为测试集,目的是测试模型的可靠性。利用控制变量法和损失函数在确定最佳参数,模型经过控制变量法训练之后,经过10次迭代后确定最佳参数:m1取值2、m2取值3、m3取值4。

1.6 预测新数据

经过前文确定了模型及模型地最佳参数,可以通过此模型对新的数据实现自动化分类,总体的正确率达到了80%左右,因为篇幅原因,下表4只给出了部分数据的预测结果。

表4 部分数据的预测结果

2 分析与结论

本模型正确率达到80%左右,基本可以达到企业的要求和目的,为了精益求精,文本后期可以增加多个卷积层来优化此模型,或者增加多个样本量加大模型训练基数,以此来提高模型的精度。

猜你喜欢
双通道分词卷积
基于全卷积神经网络的猪背膘厚快速准确测定
基于图像处理与卷积神经网络的零件识别
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
福建省医保局率先上线省级“双通道”电子处方流转服务
分词在英语教学中的妙用
结巴分词在词云中的应用
结巴分词在词云中的应用
智典DDR2 800 2GB/4GB
双通道平行采集1H/19F二维相干核磁共振波谱新方法