基于协同训练的意图分类优化方法

2019-05-07 07:50邱云飞刘聪
现代情报 2019年5期

邱云飞 刘聪

摘 要:[目的/意义]针对单纯使用统计自然语言处理技术对社交网络上产生的短文本数据进行意向分类时存在的特征稀疏、语义模糊和标记数据不足等问题,提出了一种融合心理语言学信息的Co-training意图分类方法。[方法/过程]首先,为丰富语义信息,在提取文本特征的同时融合带有情感倾向的心理语言学线索对特征维度进行扩展。其次,针对标记数据有限的问题,在模型训练阶段使用半监督集成法对两种机器学习分类方法(基于事件内容表达分类器与情感事件表达分类器)进行协同训练(Co-training)。最后,采用置信度乘积的投票制进行分类。[结论/结果]实验结果表明融入心理语言学信息的语料再经过协同训练的分类效果更优。

关键词:社交网络;意圖分类;心理语言学;协同训练(Co-training)

DOI:10.3969/j.issn.1008-0821.2019.05.008

〔中图分类号〕TP391 〔文献标识码〕A 〔文章编号〕1008-0821(2019)05-0057-07

Abstract:[Purpose/Significance]Aiming at the problems of feature sparseness,semantic ambiguity and mark data insufficiency caused by using single statistical natural language processing technology for intention classification of short text data generated on social networks,a psycholinguistic information based Co-training intention classification method was proposed.[Method/Process]Firstly,in order to enrich the semantic information,the feature dimension was extended by extracting the features of the text while synthesizing the psycholinguistic clues with emotional tendencies.Secondly,aiming at the insufficiency of mark data,two machine learning classification methods(based on the event content expression classifier and the emotional event expression classifier)were used cooperatively for training the model. Finally,the classification was performed by using a voting system of confidence products.[Conclusion/Results]The experimental results show that,by adding psycholinguistic information into the corpus,the cooperative training could provide better classification results.

Key words:social network;intention classification;psycholinguistic;Co-training

随着互联网的飞速发展,人们的生活、交流方式早已和社交网络平台紧紧联系在一起。在日常生活中,用户通过微博平台发布简短信息(例如,Twitter)来表达他们的需求和愿望[1],这会促使网络平台产生大量的用户数据。从这些数据中挖掘用户信息和潜在行为,将使公司企业或政府部门对用户进行更准确的定位[2]。因此,正确识别用户意图并进行精准分类作为挖掘用户潜在行为信息的子项目,具有重要意义。

由于微博平台对所发布信息的字数限制,以及用户在表述时常使用不标准的习惯用语,使得微博信息常具有碎片化特征[3]。而这些碎片化的短文本数据往往不能获得完整的上下文信息,导致提取出的特征稀疏,从而影响分类效果。同时,由于微博信息即时更新的特性[4],很难在一定时间内获取大量标记数据,这使得完全依赖于人工标记数据的监督学习没有足够的覆盖范围,无法取得良好的分类效果。鉴于以上两点问题,如何利用有限的标记数据对这些碎片化信息进行高效地意图分类是这项工作的主要挑战。

Hollerit B等人曾指出推文被认为是挖掘用户意图的重要来源[5]。因此,本文的研究将针对推文数据,结合社会心理学信息进行特征维度扩展,并采用半监督集成方法对少量标记数据和大量未标记数据进行协同训练,最终使用置信度乘积的投票制进行分类,以达到更优的分类效果。

目前,尚无研究试图建立意图推文的类别。为了建立意图推文的分类,调研了大量的推文,并研究了京东、亚马逊等网络购物商城的分类模块。这里提到购物商城分类的原因是:1)微博用户在推文中表达的意图通常与日常生活有关,其中包含大量的生活用品信息;2)购物商城涵盖广泛的日常生活用品的优惠活动。最后,通过整合两大网络商城的分类模块,将意图推文分为以下5类:

购物(Goods):这个类别主要指商品、时尚和购物分享。它们结合在一起是因为它们都与商业意图和服务相关。

餐饮(Food):这个类别主要与食物、餐厅相关。通常用户会在这一类中表示自己的饥饿程度或饮食需求。

社交通信(Social):这一类别包括聊天、打电话以及发表个人情绪。这项意图类别的研究可以了解用户的心理情绪波动。

智能互娱(Entertainment):包括娱乐、音乐、游戏等类别。由于它们同属生活中的娱乐项目被统称为智能互娱。

户外运动(Outside):主要指旅行、运动、看电影等外出行为。

本文结构安排如下:第一节指出意图分类的研究现状及相关工作;第二节介绍使用的关键技术;第三节给出实验过程及分析;第四节给出总结,并对下一步工作进行展望。

1 相关工作

1.1 国内外研究现状

用户意图分类属自然语言处理范畴,是情感分析与短文本分类下的交叉模块。现階段国内外对意图分类的改进研究大致分为以下3种方式:

一是改进分词技术。国内的葛达明使用表情符号、新词与网络流行词语扩充了情感词典,以达到更优的分词效果[6]。储涛涛通过降低公有特征词集的权重消除多义词的影响,从而进行更精准的分词[7]。

二是改进模型训练中特征向量。对于特征项的改进又可进行如下细分。1)挖掘文本中潜在的表达情绪并结合语义、语境进行特征维度扩展。国内的何炎祥等人将深度学习模型MCNN与基于表情符号的情感空间映射相结合,提高了分类能力[8]。Haibo Ding等人结合多种外部字典对词语进行分类标注,基于人类需求类别对人类情感进行分类[9]。2)针对文本自身语法规则和特殊字符的维度扩展。国内的赵文清等人提出了一种基于语义规则的方法,考虑程度副词、否定词和表情符号的褒贬分类对文本情感倾向的影响[10]。国外的Sudha Subramani等人使用具有卡方度量的TF-IDF方法作为特征选择参数,以提高分类精度[11]。3)结合外部社会行为信息进行的特征维度扩展。国内的Wayne Xin Zhao等人从微博中抽取用户的人口统计信息特征,并结合lexical-POS的文本特征进行意图分类[12]。付博等人实现了跨社交平台的信息关系连接,提高了意图识别的效果[13]。国外的Hemant Purohit等人研究危机领域的意图分类。他使用不同知识来源派生的模式集(类似于规则前项),来获得在本地上下文之外的语义,以改善意图分类的信息语境[14]。

三是改进分类算法。国内的江伟等人将提取的N-gram短语加入到循环神经网络词嵌入层,再用带注意机制的双向循环神经网络进行学习分类[15]。Jinpeng Wang等人提出基于图传播的半监督意图分类,通过关键字与意图推文间的正则化关系建立意向图进行自学习(Self-training)[16]。

以上研究从不同角度对意图分类进行改进,为本文提供了重要的理论基础。

1.2 相关概念

意图推文:最早来自于Chen等人在论坛上关于意图帖子定义的讨论[17],以及Hollerit等人关于商业意图推文的定义[5]。如果一个句子满足以下3个条件,就称这条推文为意图推文:

1)至少包含一个动词;

2)明确描述用户执行活动的意图;

3)以一种可以识别的方式。(Hollerit在研究商业意图推文中表明,“可识别”在人工智能和模式识别领域意义为:能够在一定时间内做出决定[5])。

短文本分类:短文本通常被定义为长度不超过160个字符的文本形式,如微博信息、手机短信、观点评论等比较短的文本。自动化的短文本分类是一项具有挑战性的任务[18-19],目的是自动对用户输入的短文本按照给定的分类体系进行分类输出。短文本通常存在特征稀疏、不遵循语法规则以及规模巨大等问题[20],一般在文本预处理、模型的训练等环节中进行优化和改进,以提高分类效果。意图分类的核心问题就是如何对短文本进行高精度的自动分类。

如图1所示,短文本分类包括文本预处理、特征抽取、模型训练、分类预测等几个主要环节。

半监督学习:半监督学习是指不依赖外界交互的学习器,能够自动地利用未标记数据和已标记数据来提升学习性能的学习方式[21]。在机器学习领域中,半监督学习作为监督学习和无监督学习的结合产物,在只有少量标记数据集的问题上,对于减少数据标注代价、提高学习性能有重大意义。近年来,半监督学习在分类方法上的研究越来越多。

Co-training:它是目前分类任务中最常见的半监督集成学习方法,又称协同训练方法。在半监督学习研究的早期,Blum等人提出两个相互独立且充分冗余的视图通过协同训练方法可以提高分类性能[22]。它用已标记数据分别在两个视图上进行训练学习,再利用训练好的学习器对未标记数据进行分类预测,选取置信度较高的类别进行标记,然后将这些伪标记数据加入已有的标记数据集,重新对分类器进行训练,反复迭代至两个学习器都不再更新为止。该方法为半监督学习开辟了新的分支[23]。

2 关键技术

2.1 数据预处理

对于有效分析,数据预处理是最重要的步骤,因为它消除了降低分类性能的噪声。通过结合数据清洗、分词、去停用词以及词语标准化(词干、词形还原等技术)对数据进行预处理来获得高质量的信息。

1)数据清洗:用户在发布的推文中常会加入一些特殊字符,如“Emoji、@、*、&”等,推文中还会加入一些URL链接以及数字。在对数据进行分词前,要将这些无用的噪声数据剔除。

2)分词、去停用词、标准化:首先,根据语法习惯,将文本内容分成若干单词。其次,删除介词、连词、代词等停用词。例如:一个、他的、然而和因此。接下来,是词语标准化(即词形还原)。将单词形式转换为更有限的规范形式可以减少词形对特征提取的影响,从而减少数据特征稀疏。

2.2 特征提取

特征提取阶段是数据挖掘和知识发现的最重要的步骤之一。为提高分类准确度,需提取出更有价值的特征。为解决推文数据文本内容有限所导致的特征稀疏问题,需对文本数据进行特征维度扩展。在以下部分,分别讨论了这项工作中使用的两种不同提取技术。

2.2.1 基于事件内容的特征提取

2.3 模型训练

为解决标记数据集不足所导致的分类精度低的问题,提出使用两种不同的分类器(事件内容表达分类器和情感事件表达分类器)分别对已标记数据集进行学习训练的方法,再将两种分类器进行协同训练,以获得最终的分类模型。

本文研究的意图分类问题属多元分类问题。在机器学习算法中,通常使用MNB(Multinomial Naive Bayes)、LinearSVC(Linear Support Vector Classifier)、KNN(K-Nearest Neighbour)等算法进行多元分类。因此,在分类模型选取上对比使用了以上多种多元分类算法。最终,在实验验证的基础上,得出在事件内容表达分类器的分类问题上使用LinearSVC分类器效果可以达到最优,在情感事件表达分类器上使用MNB算法效果最优。

2.3.1 事件内容表达分类器

在事件内容表达分类器中,单独考虑文本内容自身所具有的特征,即使用基于文本内容所提取的特征项进行训练。将经过数据预处理后的已标记数据集传入事件内容表达分类器进行模型训练,训练过程中使用LinearSVC分类算法。

2.3.2 情感事件表达分类器

在情感事件表达分类器中,融合了社会心理语言学知识,即使用基于心理语言学所提取的特征项进行模型训练。训练过程中使用MNB分类算法。

2.3.3 Co-training

由于无监督学习常用的方法是借助领域词典进行分类,而领域词典的构建需要巨大的开销,且适用领域范围小,因此无监督学习在文本分类问题上还没有得到很显著的成功。又因社交网络数据的实时流动性,想要借助监督学习获取全部的标记数据进行分类,难度系数很大,且分类效果不佳。因此,本文选取了适合处理社交短文本数据的半监督学习。近年来,半监督的分类方法受到了越来越多的重视[23]。

上文提出的两类分类器,单独使用时都只能表现出较弱的“学习能力”。因此,为使分类模型具有较高的泛化能力,并进一步提高分类的精度,本文提出使用半监督学习与集成学习相融合的Co-training算法对上文提出的两种分类方案进行结合。Co-training算法是最早出现的半监督集成学习方法[22]。一般而言,通过集成学习,分类器的性能往往比只使用一个分类器要好[21]。下文对比实验验证,将两类分类器进行协同训练可以得到更优分类结果。本文采用的Co-training方法具体流程如图2所示。

2.3.4 置信度相乘的投票制

在最终的分类决策上采用基于置信度相乘的投票方法。在使用两种分类器预测得到相应类别的置信度后,筛选满足置信度阈值(≥0.5)的项,再将两类分类器预测出的相同类别的置信结果做乘积运算,最终选取置信度乘积分数最高的类别作为分类的标签。

3 實验设置

3.1 实验数据

对于当前的研究,使用从推特社交平台提取的推文数据。在意图推文的识别和检索问题上,采用了Riloff E等人提出的Bootstrapping方法[26]。实验中共使用了两类数据集确保实验结果的真实有效性。第一类是2009下半年的推文数据,从Jinpeng Wang论文中获取的已标注的实验数据集[15],该类数据集被有经验的标注者进行分类标注,共1 599条,将该类意图推文数据作为已标注数据(EL,Labled Data)。第二类是通过网络爬虫技术爬取的用户于2018年4月10号23时到24时发布的推文数据,共23 601条,该类数据作为未标记数据(EU,Unlabeled Data)。

3.2 实验环境

本实验使用Python3.5版本,在Pycharm2018平台进行算法实现。基于事件内容表达分类器使用Spacy自然语言处理工具包对数据进行分词、标准化等处理,通过调用Sklearn包中的机器学习算法SVC进行分类。SVC算法采用线性核函数,通过对比最终的F1-score选取出参数C(C=1,2,5,10,20,100)的最优取值。为确保两种分类器的充分独立性基于情感事件表达分类器使用NLTK自然语言处理工具包进行分词、去停用词以及标准化等工作,并将LIWC字典提取的特征项融入到文本特征项中,最后通过调用MNB算法进行分类。

3.3 实验步骤

具体流程:

1)将已标注数据EL采用3倍交叉验证划分成训练集和测试集,并将训练集作为两种分类器的输入,分别训练两类分类器;

2)将未标记数据EU分别放入两类初步训练的分类器中,通过分类预测得出属于不同类别的置信分数,过滤掉不满足置信度阈值的结果;

3)在满足置信度阈值的结果中,挑选两种分类器预测的表示同一类别的置信分数进行乘积运算,最终采用得分最高的类别标记EU;

4)将新标记的伪标记数据加入EL;

5)使用最新的EL重新训练两类分类器;

6)如此迭代,直至达到最大迭代次数(I=30),生成最终分类器;

7)读取测试集,分别放入两类分类器,对测试集进行分类预测,与真实值进行对比,进而求出分类器性能参数。

通过实验结果可以看出,已有的经典算法在长数据集上分类表现较好,但在具有严重稀疏性的推文数据上表现不佳。表4结果进一步论证了本文算法在处理推文数据分类问题上的有效性。

另外,图4展示了本文算法在不同迭代次数下的表现能力。如图4所示,经过30次迭代后,F1-score达到0.84,此时Co-training算法表现最佳。此外,可以看到,迭代次数小于30时,分类情况并没有单独使用事件内容表达分类器或情感事件表达分类器的效果好。这是因为实验标记数据集很小、未标记数据集巨大,所以我们没有足够的数据来微调参数。但在实验中我们可以找到一个最佳的停止标准,通过设定合理的迭代次数来进一步提高性能。

4 结束语

本文针对社交网络所产生的短文本数据进行意图分类的问题,提出了一种基于协同训练的意图分类优化方法。该方法将基于事件内容表达分类器和基于情感事件表达分类器进行协同训练,并在情感事件表达分类器中融入社会心理学知识,结合LIWC字典进行特征维度的扩展,以解决数据稀疏性所造成的分类精度低的问题。通过实验验证,融入了心理语言学信息的特征项对模型训练有积极作用。在实验中,我们分别评估了两种分类器的独自的分类性能,又分析了两种分类器协同工作的效果,发现在只有少量标记数据集的情况下经过Co-training学习后的分类器提高了单一分类器的分类能力。

在今后的研究中,将从以下3个方面入手。一是尝试在基于事件内容表达分类器上融合从文本内容中提取出的更多有用的特征项(如词性、表情符号等),以使模型的训练效果更优。二是尝试找到一个更优的调节迭代次数的方法,让分类器可以自动适应并设置迭代次数。三是针对细粒度分类问题的研究,即结合应用领域知识研究特定领域的分类问题,使该研究课题更具有商业价值。

参考文献

[1]薛春香,张玉芳.面向新闻领域的中文文本分类研究综述[J].图书情报工作,2013,57(14):134-139.

[2]曹玖新,吴江林,石伟,等.新浪微博网信息传播分析与预测[J].计算机学报,2014,37(4):779-790.

[3]李伶俐.微博热的冷思考——兼论微博碎片化的特征及影响[J].新闻爱好者,2011,(9):82-83.

[4]杨亮,林原,林鸿飞.基于情感分布的微博热点事件发现[J].中文信息学报,2012,26(1):84-90,109.

[5]Hollerit B,Krll M,Strohmaier M.Towards Linking Buyers and Sellers:Detecting Commercial Intent on Twitter.In WWW,2013:629-632.

[6]葛达明.基于微博平台的中文情感分析技术的研究[D].沈阳:沈阳工业大学,2017.

[7]储涛涛.微博用户的兴趣发现与意图识别的研究与实现[D].北京:北京邮电大学,2017.

[8]何炎祥,孙松涛,牛菲菲,等.用于微博情感分析的一种情感语义增强的深度学习模型[J].计算机学报,2017,40(4):773-790.

[9]Haibo Ding,Ellen Riloff.Human Needs Categorization of Affective Events Using Labeled and Unlabeled Data[C]//Proceedings of Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies(NAACL HLT),2018.

[10]赵文清,侯小可,沙海虹.语义规则在微博热点话题情感分析中的应用[J].智能系统学报,2014,9(1):121-125.

[11]Subramani Sudha,Vu Huy Quan,Wang Hua.Intent Classification Using Feature Sets for Domestic Violence Discourse on Social Media.In Preprint arXiv,2018:1804.03497.

[12]Zhao X.W,Guo Y,He Y.We Know What You Want to Buy:A Demographic-based System for Product Recommendation on Microblogs.In KDD,2014:1935-1944.

[13]付博,劉挺.社会媒体中用户的隐式消费意图识别[J].软件学报,2016,27(11):2843-2854.

[14]Hemant Purohit,Guozhu Dong,Valerie Shalin,et al.Intent Classification of Short-Text on Social Media.In IEEE,2015.

[15]江伟,金忠.基于短语注意机制的文本分类[J].中文信息学报,2018,32(2):102-109,119.

[16]Jinpeng Wang,Gao Cong,Wayne Xin Zhao,et al.Mining User Intents in Twitter:A Semi-Supervised Approach to Inferring Intent Categories for Tweets.In AAAI,2015.

[17]Chen Z,Liu B,Hsu M.Identifying Intention Posts in Discussion Forums[C]//Proceedings of Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies(NAACL HLT),2013:1041-1050.

[18]王仲远,程健鹏,王海勋,等.短文本理解研究[J].计算机研究与发展,2016,53(2):262-269.

[19]张群,王红军,王伦文.词向量与LDA相融合的短文本分类方法[J].现代图书情报技术,2016,(12):27-35.

[20]张倩,刘怀亮.一种基于半监督学习的短文本分类方法[J].现代图书情报技术,2013,(2):30-35.

[21]周志华.机器学习[M].北京:清华大学出版社,2016.

[22]Blum A,Mitchell T.Combining Labeled and Unlabeled Data with Co-training[C]//Proceedings of the 7th Conference on Computational Learning Theory(COLT),2000:92-100.

[23]蔡毅,朱秀芳,孙章丽,等.半监督集成学习综述[J].计算机科学,2017,44(S1):7-13.

[24]J W Pennebaker,R L Boyd,K Jordan.The Development and Psychometric Properties of Liwc2015,Tech.Rep.,2015.

[25]James W Pennebaker,Roger J Booth,and Martha E Francis.Linguistic Inquiry and Word Count:LIWC2007.Austin,TX:Liwc.net,2007.

[26]Riloff E,Wiebe J,Wilson T.Learning Subjective Nouns Using Extraction Pattern Bootstrapping[C]//Proceedings of Conference on Computational Natural Language Learning(CoNLL),2003:25-32.

[27]徐禹洪,黄沛杰.基于优化样本分布抽样集成学习的半监督文本分类方法研究[J].中文信息学报,2017,31(6):180-189.

(责任编辑:陈 媛)