面向社会媒体的消费意图识别:任务、挑战与机遇

2015-05-30 10:48付博刘挺
智能计算机与应用 2015年4期

付博 刘挺

摘 要:社会媒体是一个基于用户关系的信息分享、、传播以及获取平台,并实现即时分享。在社会媒体上产生了大量的用户发布的,对于诸如产品购买、喜好等有价值的消费需求信息。这些关于产品需求的信息表达了人们的各种消费意愿和消费需求。例如,“请推荐一款2,000块钱左右的诺基亚手机”即为用户的一种消费需求。类似这样的信息为公司或企业提供了有价值的信息。本文以此介绍了面向社会媒体的消费意图识别这一任务的诞生背景、要解决的主要问题、面临的主要挑战、相关工作以及未来的研究方向。

关键词:消费意图识别;查询商业意图识别;消费意图模板;社会媒体

中图分类号:TP391.41 文献标识号:A 文章编号:2095-2163(2015)04-

Consumption Intent Recognition for Social Media: Task, Challenge and Opportunity

FU Bo, LIU Ting

(Research Center for Social Computing and Information Retrieval, Harbin Institute of Technology, Harbin 150001,China)

Abstract: Social media is the platform where people freely share with each other information such as comments, experiences, and an opinion. Among the large amount of posts, some may reveal the users' underlying commercial intention (CI). The consumption intent is a desire or hope for something to purchase. For instance, a post like “Please recommend for me a Nokia mobile phone about 2,000 RMB” may indicate an immediate or future purchase. Such information is valuable for better advertisement services. The paper introduces the problems this task try to resolve, the main challenges of this task, representative emerging work related to this task. After that, the paper proposes several directions that are worth exploring in future.

Keywords: Consumption Intent; Query Commercial Intent; Consumption Intent Pattern; Social Media

0 研究背景

近年来,网络数据资源呈现几何式、爆炸式增长,巨量的网络数据中蕴含着大量的用户发布的,对诸如产品购买等有价值的行为信息及个性化需求信息,这些关于产品类的信息需求表达了人们的各种消费意愿和消费需求。例如,Google、Baidu等搜索引擎查询日志记录了人们从互联网搜索所需产品的信息;Twitter、新浪微博等社会化媒体平台的时尚性、广泛性和互动性能帮助人们即时发布所需产品的信息;京东商城、淘宝网等电商网站记录了用户浏览和购买行为。只有充分了解利用用户的信息和需求,才能做到有的放矢。互联网各种不同的媒体上存储了大量用户资料、用户之间的社交关系以及用户的行为数据,如表1所示。

可以看出,各种不同媒体中所积累的海量用户信息为构建新的社会化应用,以及理解人们当前和潜在的消费需求带来了前所未有的新机遇。在如此庞大用户基数的支撑下,互联网的巨大潜力正日益体现,与现实社会的互动渗透更加紧密深入。互联网上出现的不同媒体在商业、生活、政治等各方面,也正发挥着源自其强大信息传播的重要作用。截至2014年12月底,我国网络购物用户规模达到3.61亿,较2013年底增加5 953万人,增长率为19.7%;我国网民使用网络购物的比例从48.9%提升至55.7%。根据艾瑞咨询预测,2017年的网络购物交易规模将达到56 340亿元,占社会消费品零售总额的比例为15.7%,较2010年提升12.8个百分点。特别是在商业营销上,约有51%的消费者在成为企业品牌的粉丝后,购买该品牌商品的意愿也会相应提高5个百分点。可以说,互联网上用户对产品的需求与日俱增,并且形式多种多样。在经济全球化和信息网络化的今天,主动掌握个体兴趣偏好和群体消费趋势等用户消费需求信息,就可以在市场营销、产品计划等实现智能精准决策,在此背景下,消费意图(Consumption Intent)识别的相关技术应运而生。

表1 互联网不同媒体数据和对应的国内外流行站点

Tab.1 Examples of different media and the corresponding domestic and foreign websites

1 任务

消费意图,是指用户表达出的对购买产品服务等一些商业消费需求的意愿[1]。消费意图识别技术是对带有消费需求色彩的互联网用户生成的文本或用户本身行为数据进行的分析和整理,通过网络的方式挖掘出用户当前或潜在的消费需求。

面向社会媒体的消费意图识别的任务可以分为基于内容的消费意图识别和基于用户的消费意图识别。其中,基于内容的消费意图研究包括消费模板的抽取、消费意图识别以及消费意图中的消费对象抽取等。具体地,基于内容的消费意图是指导用户通过互联网发布与购买需求相关的信息,如:“我想买一部手机,谁能给推荐一下吗”,即是一个显式消费意图内容,这里的“手机”即为消费对象;而基于用户的消费意图则是指一条信息没有明确的表达购买产品或服务的意图,但通过推理可发现用户潜在的商业需求,间接地表明用户将来会购买与母婴用品相关的产品或服务。然而到目前为止,关于消费意图并没一个标准的定义及分类体系。通过大量的调研,即可发现基于内容的消费意图文本中有意义的信息主要有触发词语(如“想买”)、消费对象等,而基于用户的消费意图也会包含有一些用户历史行为。下面本文将逐一介绍目前显式消费意图识别研究中的主要任务和主要实现技术。

最初的消费意图识别任务源自前人对带有消费意图的词语或模板的分析,如“想买”即是带有消费意图的模板。随着互联网上大量的带有消费意图的文本出现,研究者们逐渐从简单的消费意愿的模板的分析研究过渡到更为复杂的用户当前需求以及潜在需求的研究。基于此,按照处理角度的不同,可分为基于文本内容的消费意图识别和基于用户的消费意图识别。其中,前者处理的文本内容包括互联网上用户在搜索引擎输入的单个查询、单条微博文本等用户发布的内容,如微博消费意图文本“想给儿子买个电动挖掘机”,表明了用户的消费意愿是想为受众目标“儿子”购买一台“电动挖掘机”的消费对象;后者处理的对象主要是以用户为中心,如一个用户一直对母婴用品有消费意图。按时消费意图的时效不同,可分为现实需求和潜在需求。现实需求是指已经存在用户当前的需求。潜在需求是指消费者虽然有明确意识的欲望,但由于种种原因还没有明确的显示出来的需求。

2 挑战

互联网用户的消费意图识别存在着各种各样的挑战。具体地,可将其划分为三种。现给出如下论述:

2.1 网络数据采集的挑战

互联网数据形式多样化,不同媒体平台的用户和内容具有异构性,因而针对网络数据的采集需要就不同类型的内容分别进行处理,提取有价值的内容信息和用户行为信息。例如,在线社区中的用户信息大部分以超文本标记语言(HTML)的网页方式展现,挖掘基于社区中的用户消费意图文本,需要针对HTML这种非结构化的数据精准地抽取出用户名、用户发贴内容等元数据信息。而社交媒体网站的数据挖掘则需要通过采集记录内部系统日志来实现,如Facebook的Scribe。因而,在进行消费意图研究的相关工作中,都首先需要挖掘出不同媒体中的含有消费意图的内容或具体行为。

2.2 数据稀疏的挑战

互联网上存在着大量的垃圾信息。例如社会媒体用户中有33%左右的用户微博发布的是自己的状态信息,诸如“好无聊怎么办”,而仅有8.7%的微博内容传达了有价值的信息。由于微博上用户可以借助个人习惯的方式表达自己的感受,因而在这些有价值的信息中,微博内容信息通常是随意、零散和有噪声的。

2.3 跨社区的挑战

互联网上社会媒体、论坛、电商网站等迅速发展,积累了大量的用户信息,为社会计算的相关研究提供了前所未有的海量数据。例如,Ding等人[2]基于微博用户的消费意图研究电影票房预测问题。也有学者分别研究了用户评价[3]和在线论坛中的用户[4]消费意图识别问题。但是这些相关工作都只关注面向单个社区或社交媒体的消费意图识别问题,这是因为不同媒体的用户之间往往没有显式的链接,就使得一个媒体中的用户与其他媒体的用户之间是无法进行关联的。此外,虽然每个用户在不同媒体平台上拥有不同的用户信息,但是这些用户信息在不同的平台之间是非共享的。可以观察到,由于不同媒体平台在主题以及功能上的不同,用户的信息碎片化地分布在不同类型的媒体平台中。

3 相关工作

3.1 消费意图模板的抽取

模板(pattern)是自然语言领域中的常见概念,是指从自然语言实例(如短语、句子等)中泛化而来的抽象表达。正因为模板较之实例有着更好的概括和泛化能力,因此被广泛使用于信息抽取、机器翻译、自然语言生成等研究中。一个模板通常包含两部分,即模板词(patternwords)和模板槽(pattern slots),其中前者可看作模板的常量部分,后者则是模板的变量部分。例如,对于模板“想给[x]买个[y]”,“想给”和“买个”是模板词,而“[x]”是模板槽。在模板匹配过程中,模板词必须严格匹配,而模板槽可匹配任意内容。这里,通过在模板槽中填充具体内容从而生成模板实例的过程称作模板的实例化(instantiation)。例如,在模板“想买[x]买个[y]”的前后两个槽中分别填充“儿子”和“iPhone6”,便将上述模板实例化为“想给儿子买个iPhone6”。显然,一个模板可以实例化为多种不同的实例。

模板在信息抽取以及自动问答中已然获得十分广泛的应用,因此这两个研究方向的许多学者都曾提出过模板的抽取方法。与这些方向的研究类似,在消费意图类模板抽取的研究中,一部分学者使用基于规则的方法抽取模板。规则的制定通常要基于一系列的语言分析与预处理,如词性标注、命名实体识别和句法分析等。相应地,制定的复述规则也包括词序列规则、词性规则以及句法规则等形式。有学者[3,5]基于规则和基于图的方法分别获取意图模板。在基于图的方法中,通过将意图模板抽取看作为图上随机游走过程,而且定义的图节点将分别为模板节点和原始内容节点,其基本想法是,若模板节点+原始内容节点仍能出现在原始语料中,则该模板为候选模板,进而通过图迭代的方法获取最终模板。依据这一方法抽取得到的愿望模板可如下所示:

可以看到,基于规则的方法其缺点在于规则的可扩展性差,人工编写规则的工作量大,成本较高。具体来讲,由于人们在语言表述上具有复杂性和灵活性,规则的制定过程费时费力且难以覆盖所有的语言现象。规则往往依赖于具体语言、领域和文本风格,可移植性不好。同时基于规则的方法代价昂贵,且迁移性差,因此越来越多的研究者开始利用基于统计的方法来识别消费意图。

有研究者基于种子实例从产品评价中抽取产品受众者,即上述模板中的“[x]”。例如,Wang等人[6]将抽取产品受众者的模板用于产品推荐系统的目标人物抽取环节。研究中首先为其产品推荐系统设计了一个受众人分类体系,然后针对该体系人工编写少量“种子”实例。比如,对于“I bought my son this phone.”类型的产品评论,其编写的种子实例为“buy somebody something”。该方法利用种子实例作为输入,并使用基于boostrapping的方法从产品评论中匹配该种子实例的字符串,进而生成模板。依据此方法抽取得到的受众者模板如下所示:

3.2基于内容的消费意图识别

Goldberg等[3]首次提出了“buy wish”的概念(即本文定义的显式消费意图,如:想买一部手机)。研究是从用户在互联网上发布的愿望清单和产品评论中的内容来识别其中的消费意图。过程中,即事先人工给定了一些通用的消费意图规则模板,比如“I wish for”,而后再利用规则模板去匹配具有消费意图的句子。这种方法较为简单,但基于人工制定模板的匹配方法效果不甚理想,特别是系统的召回率很低。进而,作者提出了基于二元图方法自动抽取消费意图模板,如此生成的消费意图模板表达能力更强,使得系统识别的效果的性能也相对提高,特别是召回率有了显著的提升。在此基础上,作者加入了文本中词汇作为消费意图识别的特征。尽管采用词特征比较简单,但是通过实验结果发现文本中的词特征对于消费意图识别是非常有效的。

Chen和Hsu[4]也提出过相似的概念“Intention Posts”。研究者基于不同领域间消费意图表达方式相近的假设,即用于学习的训练样本与新的测试样本近似地满足独立同分布的条件。利用这种迁移学习(Transfer learning)的思想只需要在一个领域标注数据,并将其应用于一个新的没有任何标注的目标域数据。面对着消费意图文本中表达意图的内容通常只有一个或几个关键字,同时数据不平衡的问题,作者提出了Co-Class算法 。 首先,利用已有领域的标注数据构建一个分类器,然后将分类器应用到目标域的无标注数据中。这样,在目标数据中便可以重新形成特征选择,进而构建新的分类器。这两个分类器将共同对目标实施数据分类。这一迭代过程运行即直至类别标签对目标数据标注不再改变为止。作者分别在四个领域的语料上进行了迁移学习的实验,而通过实验则证明了提出的Co-class算法对跨领域迁移学习的消费意图识别任务是有效的。

Wang等[7]在不同领域的消费意图识别任务上展开了相关研究。研究提出了基于图的方法来识别Twitter中表达用户意图的内容。具体来说,该方法将要分类的Twitter内容和意图关键词(如:对句子“I want to buy an xbox”中“buy an xbox”即为文中定义的意图关键词)作为图上的节点,利用意图关键词和Twitter句子之间的关系形成边和边权重来构建图,继而使用图传播算法来完成在不同领域类别上的消费意图分类。此外,Ding等人[2]提出了基于领域自适应卷积神经网络的微博文本消费意图识别方法,并将此方法应用到了电影票房预测的任务上,研究证明,消费意图特征有助于预测电影票房,其原因在于用户对电影的消费意愿能直接反映出用户购票的活跃度。

3.3基于内容的消费对象识别

相比而言,已有研究主要针对基于内容的消费意图进行识别,很少研究消费意图句中的消费对象识别。本文定义消费对象是指消费者提出所需要购买的对象,即某段文本内容中所论述的对象。由于广告商所关注的正是用户针对某一消费对象的消费意图,而也就是这一存在使得消费意图研究更加突显其现实重要意义。但目前针对消费意图对象的相关研究较少。Wang等人[6]提出了从微博中挖掘趋势相关产品的问题。相应地即将“趋势”定义为在微博上被用户热烈讨论的话题。例如,如果有人在微博上说“最近北京空气很差”,那么就希望从空气很差这一趋势中,挖掘出空气净化器,口罩等与之相关的产品。

一般而言,现有的研究是从文本内容中挖掘产品命名实体[8-10]或是评价对象[11-14]。这里期望能从产品命名实体和评价对象抽取的研究中借鉴一些有价值的和方法,从而对消费对象抽取研究有所启发和促进。一方面,事实上产品命名实体抽取的研究属于命名实体识别的研究范畴。命名实体(Named Entity:NE)挖掘,主要是指从文本中挖掘出人名、地名、机构名等。早期命名实体的研究方法是基于人工规则的算法。近年来,一些机器学习的方法被应用到命名实体的研究之中。一部分学者采用基于分布假设计算词义相似度,其基本思想是那些倾向于出现在相似的上下文中的词意思相近,通过人工给定一组实体作为种子,其上下文作为模板并使用迭代的方法获取了给定目标类别下的新实体。以往的产品命名实体识别的研究主要是基于有指导的方法,然而这类方法需要标注大规模的训练语料,由于产品命名实体中词汇量比较大,新词频繁出现,经常出现缩略语,构建足够训练规模的产品命名实体训练集是比较困难的。这个问题对于消费对象识别来说同样存在,由于社会媒体中用户发布的内容随意,导致消费对象的成分多不完整,通常由缩略语等代替,故而诸如产品型号类:5s(指iPhone手机的型号5s)这种产品型号边界未必能够被识别出来。

在情感分析中有研究从评论中挖掘用户的评价对象。一般而言,现有的方法将评价对象的范围限定在名词或名词短语的范畴内,当然并非所有的名词或名词短语都是评价对象,因而需要对其进行识别。有研究者基于经验性的规则[12]或关联规则的方法找出频繁出现的评价对象[13-14],然后基于经验性的剪枝方法从中过滤错误的评价对象实例。还有学者将评价对象与产品属性之间关联起来,即认为产品属性可以作为评价对象的一种表达方式,如对一个手机来讲,“手机的像素”是手机的一个属性,而“触屏手机”是手机的部件之一。首先,该方法获取大量的名词短语作为候选评价对象;继而采用了某些关系指示短语(比如“属性-从性”关系指示词:attribute-of)来获取评价对象,最后利用候选评价对象和关系指示短语之间的共现关系,得出该候选评价对象是否是真正的评价对象。

4 未来的研究方向

消费意图识别作为产品推荐和自然语言处理领域的一个重要方向,还有许多有意义的问题值得研究,其中热点的研究方向和问题主要包括:

(1)虽然研究者们已经提出了多种方法用于消费意图句的识别、消费意图模板和消费对象识别等方法。然而总的来看识别出的准确率较低,仍有许多噪声数据无法过滤,特别是隐性消费意图识别鲜有研究。因此接下来的一个主要目标就是如何找到一种有效的方法对不同平台中的消费意图句进行准确识别。同时,迫切需要其后的研究者把消费意图识别的各项任务做细、做深。尤其是希望能找到一种对于各个平台或各个不同领域都适用的识别方法。

(2)目前来看,消费意图识别的大部分工作都集中在显式消费意图识别的研究任务中。然而与显式消费意图识别任务不同,隐式消费意图识别的研究任务也是比较有意义的问题。即在一个用户表达的文本中,挖掘出潜在的购买目标。这方面的研究工作还比较少且仍未臻深入。此外,相对于消费意图句的识别而言,基于用户消费意图的研究也还未展开,尤其是在跨平台上的研究远达到充分和全面。然而总的看来,基于隐式消费意图的研究和基于用户的消费意图研究方面还有许多的问题有待解决。

(3)消费意图研究中的评测问题一直是困扰研究者的一个主要问题。因此希望广大研究者们能够共同努力,推出一套大家都能认可和接受的评测体系和数据,这样定会极大的促进本研究的发展。本文基于内容的消费意图识别中各类实验大都采用人工评测的方法,基于用户的消费意图识别评价中采用了自动评价的方法。由于人工评测主观性强且费时费力,因此找到一种消费意图研究的自动评测方法还是非常有必要的。

(4)消费意图识别研究在众多相关研究中都有很大的应用潜力,如有研究是基于消费意图的电影票房预测取得了不错的性能。但这方面具体应用的例子仍不多。所以在今后的研究中,应该积极探索消费意图识别在各种实际任务中的作用,这样才能更好地推动此项研究深入开展。

6 结束语

社会媒体是一个基于用户关系的信息分享、传播以及获取平台,并实现即时分享。这即使得微博成为一个崭新的信息传播和用户交互的方式:一方面,人们通过微博发布各种消费需求信息,向家人、朋友、同事等寻求帮助,期望从朋友中获得产品的信息;另一方面,越来越多的用户也乐于在微博上发布分享各种感兴趣的话题和爱好进行即时分享。因而,迫切需要了解用户的消费意图或兴趣。消费意图识别作为产品推荐和自然语言处理领域的一个重要方向,目前的研究还远未足够。因此就需要在已有工作的基础上进一步钻研,针对尚且存在的问题展开攻关。另外,随着消费意图识别方法和技术的逐渐成熟,相应研究成果也将更为广泛地投入到实际应用中去,以促进诸如产品推荐、信息抽取、在线广告以及市场营销等相关研究的发展。

参考文献:

[1] B. Fu, T. LIU. Weakly-supervised Consumption Intent Detection in Microblogs [J]. Journal of Computational Information Systems, 2013, 6(9):2423–2431.

[2] X. Ding, T. Liu, J. Duan, et al. Mining User Consumption Intention from Social Media Using Domain Adaptive Convolutional Neural Network [C]// Proceedings of AAAI 2015, Austin, Texas,USA:AAAI,2015: 2389-2395.

[3] J. Ramanand, K. Bhavsar, N. Pedanekar. Wishful Thinking: Finding Suggestions and ‘buy Wishes from Product Reviews. [C]// Proceedings of NAACL HLT 2010 Workshop on Computational Approaches to Analysis and Generation of Emotion in Text, Los Angeles, California:ACL, 2010:54–61.

[4] A. Goldberg, N. Fillmore, D. Andrzejewski, et al. May all Your Wishes Come True: A Study of Wishes and How to Recognize Them. [C]// Proceedings of NAACL HLT 2009, Boulder, Colorado:ACL, 2009:263–271.

[5] J. Wang, W. X. Zhao, H. Wei, et al. Mining New Business Opportunities: Identifying Trend Related Products by Leveraging Commercial Intents from Microblogs [C]// Proceedings of EMNLP 2013, Seattle, USA:ACL, 2013:1337–1347.

[6] Z. Chen, B. Liu, M. Hsu, et al. Identifying Intention Posts in Discussion Forums [C]// Proceedings of HLT- NAACL2013, Atlanda, GA, USA:ACL, 2013:1041–1050.

[7] J. Wang, G. Cong, X. W. Zhao, et al. Mining User Intents in Twitter: A Semi-supervised Approach to Inferring Intent Categories for Tweets [C]// Proceedings of AAAI 2015, Austin, Texas, USA:AAAI, 2015: 318-324.

[8] 刘非凡, 赵军, 吕碧波等. 面向商务信息抽取的产品命名实体识别研究[J].中文信息学报, 2006, 20(1):7–13.

[9] F. Luo, Q. Qiu, Q. Xiong. Introduction to the Product-entity Recognition Task [C]// Proceedings of Web Society (SWS), 2011 3rd Symposium on, Port Elizabeth, South Africa: Web Society,2011:122–126.

[10] F. Luo, H. Xiao, W. Chang. Product Named Entity Recognition Using Conditional Random Fields [C]// Proceedings of Business Intelligence and Financial Engineering (BIFE) 2011, Wuhan,China:[s.n.],2011:86–89.

[11] Y. Zhao, B. Qin, S. Hu, et al. Generalizing Syntactic Structures for Product Attribute Candidate Extraction [C]// Proceedings of NAACL 2010, Los Angeles, CA:ACL, 2010:377–380.

[12] J. Yi, T. Nasukawa, R. Bunescu, et al. Sentiment Analyzer: Extracting Sentiments about a Given Topic Using Natural Language Processing Techniques [C]// Proceedings of ICDM 2003, Melbourne, Florida, USA:ICDM, 2003:427–434.

[13] Hu M, Liu B. Mining opinion features in customer reviews. [C]// Proceedings of the AAAI 2004. Menlo Park: AAAI Press,2004. 755?760.

[14] 刘鸿宇,赵妍妍,秦兵,刘挺.评价对象抽取及其倾向性分析.中文信息学报,2010,24(1):84?88.