肖锐,刘明义,涂志莹,王忠杰
基于社交媒体文本挖掘的个人事件检测方法
肖锐,刘明义,涂志莹,王忠杰*
(哈尔滨工业大学 计算学部,哈尔滨 150001)(∗通信作者电子邮箱rainy@hit.edu.cn)
用户的社交媒体中蕴含着他们过去的个人经历和潜在的生活规律,研究其规律对预测用户未来的行为以及对用户进行个性化推荐有很大的价值。通过收集微博数据,定义了11种类型的事件,并提出了一个三阶段的Pipeline的系统,利用BERT预训练模型,分别在三个阶段使用BERT+BiLSTM+Attention、BERT+FullConnect、BERT+BiLSTM+CRF方法进行个人事件检测。从微博文本中抽取出该文本是否包含定义的事件、包含的事件类型、每种事件包含的元素等信息,具体元素为Subject(事件主语)、Object(事件元素)、Time(事件发-生时间)、Place(事件发生的地点)和Tense(事件发生的时态),从而探究用户个人时间轴上的事件变化规律来预测个人事件。在收集的真实用户微博数据集上进行实验,并与逻辑回归、朴素贝叶斯、随机森林、决策树等分类算法进行对比分析。实验结果表明,三个阶段中的BERT+BiLSTM+Attention、BERT+FullConnect和BERT+BiLSTM+CRF方法均取得了最高的F1值,验证了所提方法的有效性。最后根据所提方法抽取出的事件和其中的时间信息可视化地构建了用户的个人事件时间轴。
社交媒体;个人事件;事件检测;BERT模型;个人事件时间轴
随着移动互联网的迅速发展,越来越多的人使用一些社交媒体平台例如微信朋友圈、微博等分享生活日志,他们发布的博文中可能包含了该人物发生的事件以及时间和位置等信息,而通过研究个人的历史数据可以针对个人进行未来事件预测以及服务推荐。这些社交媒体提供了大量的生活事件数据,这些数据中包含了吃过喝过的东西、看过的电影等平常的事件,还包含诸如结婚、毕业等重大事件,本文将这些都称为个人事件。通过研究个人的历史数据,可以针对个人去预测其未来可能发生的事件;还可以根据预测到的用户事件对个人进行服务推荐。这样,就可以从个人用户自身经历的事件变化,有针对性地给予用户匹配个性化的服务需求。
本文主要研究用户在较长一段时间线上的事件变化,因此,收集了微博用户从2011年到2020年期间发布的个人微博数据,定义了11种生活事件类型,并对数据进行了人工标注,标注内容是微博文本是否包含定义的这11种生活事件,包含的事件类型有哪些以及事件包含的元素;然后使用Pipeline系统抽取事件,从中抽取出事件类型和事件具体的元素后,构建用户的生活事件时间轴。如图1所示的一个例子,它表示用户到广州游玩和观看表演的一条生活事件时间线,里面包含了事件发生的时间和地点信息。通过分析用户在较长时间线上的事件变化,可以从中获取某些事件之间的相关性,然后根据用户在时间轴上的事件之间的相关性预测用户未来可能发生的事件,从而针对用户自身的变化选择外部的海量服务进行推荐,例如打车服务和饮食服务的推荐。
表1表示从用户微博抽取的事件结果,这些微博可能包含或不包含本文定义的事件:如果不包含,则不对其进行事件抽取;如果判断出包含事件,则判断文本所包含的事件有哪些,它可能有一种或多种事件。如表1的第二条微博,表示用户看电影这一事件,抽取出(audiovisual)‒(User,盲山,昨天,‒,过去)的结构出来,这是一个视听(audiovisual)的事件类型,主体是用户,看的内容是“盲山”,然后观看时间是昨天,时态是过去时态。还有可能有多种事件,如表1的第三条微博,其中包含了两个事件,分别是birth和eat,然后分别对应不同的事件抽取出了(birth)‒(老爸,生日,‒,‒,现在)和(eat)‒(我们,羊肚菌、黑松露,今天,‒,现在)两种事件和对应的事件元素.它们分别表示了“老爸生日”和“今天我们吃羊肚菌、黑松露”两个事件。
图1 个人事件时间线以及预测推荐示例
表1 微博文本抽取结果示例
本文提出了一个Pipeline系统检测微博文本里面包含的事件,此系统分为三个阶段。对于一个给定的用户文本,第一个阶段判断是文本是否包含所定义的事件,把这个阶段作为一个短文本的二分类;第二个阶段是判断包含事件的微博里的事件类型有哪些,把这个阶段作为一个短文本的多标签分类;第三个阶段是根据第二个阶段得到的事件类型,从文本中抽取每个事件类型的元素Subject(事件主语)、Object(事件元素)、Time(事件发生时间)和Place(事件发生的地点),并使用匹配的方法判断时态,从而将文本中的信息抽象表示为事件类型加事件元素的形式。
本文工作的主要挑战在于用户发布的微博内容通常是简短的,并且经常使用非正式的文本,如果使用基于句子成分的语法分析的方法进行抽取,会导致词语之间的依赖关系出错,抽取效果差。因此,本文对其进行前期的数据清洗,然后通过深度学习模型将事件类型和事件元素抽取出来,从而刻画事件的主体内容,避免其他文本内容的干扰,提高抽取结果的准确率。
在事件检测的相关工作中,常用词袋模型来描述文本特征,di Eugenio等[1]和Dickinso等[2]发现使用‑gram模型构建的特征对于文本分类任务有较好的作用,但是‑gram模型非常容易引起维度灾难,因为维度可能上升到很大,导致很多的‑gram不会出现在训练集中。Choudhury等[3-4]通过研究推特上用户的数据去提取生活事件,他们都是使用unigram和词袋的模型,然后使用传统的机器学习方法,例如支持向量机(Support Vector Machine, SVM)、随机森林等对文本分类从而判断事件类别。Khodabakhsh等[5]使用了skip‑gram的模型,其中实验所用的事件类型有6个,他们将6种类别的距离度量作为该条推文的特征去使用机器学习模型训练分类模型。这些传统的机器学习方法主要针对的是事件类别的分类,无法提取文本中具体的实体属性,而且还需要繁琐的特征提取、文本处理获取文本的关键内容、构建特征向量等处理,工作量大且无法像本文方法那样获取结构化的事件信息。
Li等[6]使用了Pipeline的方法来抽取生活事件,他们定义了42种事件类型,经过三个阶段来对文本中的事件及事件元素进行提取。其中使用了潜在狄利克雷分配(Latent Dirichlet Allocation, LDA)[7]模型,通过文本聚类的方法进行事件分类,然后使用句子依赖分析和命名实体识别抽取事件的具体成分。该方法使用句子依赖分析对文本中的具体属性关系做标注,针对正式文本会很有用,但人们日常生活中的口语化文本则不适用于句子依赖分析,因此其提取出的结果会不够准确。Choudhury等[8]分别使用activity和attention作为特征对人生中的11种重大事件类型作了分类。Li等[9]提出一个无监督的框架来抽取文本中的个人生活事件,其中涉及的是一些重大的个人事件,例如毕业、就业等。这个方法仅针对比较重大的事件分类,没有涉及日常化的事件及其具体属性的提取。
同时,在文本挖掘中,长短期记忆(Long Short⁃Term Memory, LSTM)[10]被广泛应用于序列数据任务。为了提高LSTM的性能,Schuster等[11]提出了双向LSTM(Bi⁃directional LSTM, BiLSTM)网络,Zhou等[12]提出了卷积加LSTM神经网络(CNNLSTM)。单纯地使用LSTM网络虽然能够获取文本的上下文信息,但是它在分类时会干扰关键词和信息,从而导致性能较差。Yen等[13]使用多任务的LSTM网络对文本的单词和词性的特征进行结合,同时使用多任务学习的方法判断推文的类型和推文包含的内容。Yen等[14-15]从推特的文本加图片中去抽取事件及事件元素,他们通过多模态的联合学习方法抽取文本中的表征事件的触发词,使用预训练模型BERT(Bidirectional Encoder Representations from Transformers)抽取事件类型的触发词和事件类型的具体元素。但是该方法抽取的事件结构过多地提取了实体属性,导致抽取时效果变差,其实只需要将事件属性作为类别进行事件分类即可描述事件信息,同时提升抽取效果。
如图2所示,本文的研究主要分为三个阶段:第一个阶段是检测微博中是否包含个人生活事件,然后把检测出来的包含事件的文本送到第二个阶段;在第二个阶段中,判断文本所包含的事件类型有哪些,它将输出文本包含的所有事件类型;在第三个阶段,将输入的文本和第二阶段的事件类型多标签分类结果输入进去,得到每一种事件类型的元素Subject、Object、Time、Place,最后通过匹配的方法判断事件的时态Tense。本文使用BERT[16]预训练语言模型对文本进行词嵌入,同时还使用了BiLSTM+Attention(注意力机制)[17]和条件随机场(Conditional Random Field, CRF)[18]等网络作为BERT词嵌入后的网络层进行模型的训练。
图2 个人事件抽取模型框架
如图3所示,使用BERT+BiLSTM+Attention方法进行文本分类。先使用BERT对输出的文本进行词嵌入的过程,然后经过BiLSTM网络输出到Attention层得到类别的打分值,最后通过softmax函数输出预测的结果。BERT是一种预训练模型,它将输入的文本词序列进行词嵌入后变为输入词向量表征,在经过多层Transformer结构的堆叠后,会在最后一个Transformer输出它提取的文本上下文信息,可以使用该输出进行下游的其他任务,例如序列标注、问答任务和情感分类任务。
BiLSTM的作用是它可以更好地捕捉到较长距离的依赖关系,同时,双向的网络可以更好地捕捉双向的语义依赖。Attention层可以对信息进行权重的分配,最后进行带权求和,这相当于对文本中的重要信息进行突出,因此它对分类任务更加有效。
图3 BERT+BiLSTM+Attention分类模型
如图4所示,使用BERT+FullConnect的方法进行文本多标签分类。在经过BERT词嵌入之后,将BERT的最后一层连接到一个全连接层上,然后使用一个sigmoid函数输出概率大小,该输出是一个11维大小的数组,之后再通过设置阈值来判断是否包含该类事件。同样的,本文先用BERT预训练模型获取句子表征的词向量,将其输出到全连接层网络中进行多标签分类,该全连接层的作用是拟合非线性多标签分类器的参数,最后使用Focal loss函数作为损失函数去训练参数,以解决在多标签分类中正负样本比例失衡的问题。
图4 BERT+FullConnect 分类模型
如图5所示,使用BERT+BiLSTM+CRF的结构进行序列标注任务。将BERT的输出后面接一个BiLSTM网络,之后将前向和后向的LSTM求和送到CRF层中进行概率计算得到预测的实体标签类型。
BERT+BiLSTM+CRF模型的前两层的网络结构是BERT+BiLSTM模型,也是为了将输入的文本序列进行词嵌入后变为输入词向量,然后通过BiLSTM网络获取上下文语义依赖关系。如果直接将BiLSTM网络输出的结果取值概率最大进行分类的话,分类结果不会很好,因为它没有考虑到相邻句子之间的关系;而使用CRF层之后,可以通过转移矩阵获取相邻句子之间的信息,从而获得全局的最优序列解。
图5 BERT+BiLSTM+CRF分类模型
本文使用匹配的方法来对抽出来的事件进行时态判断,通过选取实体附近的词和列表进行匹配。可以从两个方面来对事件的时态进行判断:
首先,在阶段3中可以获得事件的时间实体,通过将时间实体与我们构建的时间时态词列表去匹配,从而判断事件是过去、现在还是未来的时态。对于未来时态,构建未来时态词列表如[“明”,“后”,“下周”,…]和过去的时态词列表[“昨天”,“去年”,“前天”,…]等,如果匹配上就为该时态,否则为现在时态。
然后通过一些时态关键词进行判断,对于将来的时态构建词列表[“将”,“要”,…],对于过去的时态,构建[“曾经”,“已经”,…]列表,跟哪个列表匹配上就为哪个时态,否则为现在时态。
本文选取了5位微博用户从2011年到2020年之间发布的微博内容,一共8 180条数据,对其进行人工的标注,标注了包含11种事件类型的微博数量为3 202条,而另外的有4 978条是没有定义的11种生活事件类型的数据。定义的11种事件类型分别是eat、audiovisual、motion、ill、sport、wedding、work、birth、buy、graduate、study。在8 180条微博数据中划分训练集、验证集和测试集为8∶1∶1的比例来对微博做是否包含定义事件类型的二分类.同样,在包含定义事件类型的3 202条数据中按照8∶1∶1来划分训练集、验证集和测试集,做微博文本的多标签分类和事件元素的提取。
图6 数据集中部分数据的示例
如图6所示,它是本文使用的部分数据的展示,使用json格式存储标注好的数据,其中:text表示微博文本,label表示文本是否包含事件,event_list表示标注的事件类型和其中的实体,这是一个包含字典类型的列表,每一个字典表示对应的一个事件,labelc表示事件类型,label_p表示事件动作在原文的起止位置,labels表示事件元素在原文的起止位置,例如“清汤豌杂面”在原文下标2至7的位置。time和place分别表示发博的事件和地点,user_id则表示用户的ID。
实验中使用的训练环境是GPU:2*TITAN V,Python 3.7.10,Tensorflow 1.13.1。
本节主要评估Pipeline系统的第一个阶段,即判断微博文本是否包含生活事件。以传统的机器学习算法朴素贝叶斯和逻辑回归作为baseline,然后使用BERT预训练模型实现了三种方法:BERT+FullConnect、BERT+BiLSTM和BERT+BiLSTM+Attention的方法。
表2 个人事件检测结果 单位: %
表3 个人事件多标签分类结果 单位: %
在前面两个阶段抽取出文本包含的事件类型之后,本节主要介绍从微博中抽取事件元素Subject、Object、Time、Place的效果。本节使用CRF和BiLSTM+CRF作为baseline,比较它们与使用预训练模型BERT之间的性能。
表4 个人事件元素抽取的词级别结果 单位: %
表5 个人事件元素抽取的实体级别结果 单位: %
综上所述,可以看出本文使用的BERT+BiLSTM+Attention、BERT++FullConnect和BERT+BiLSTM+CRF在每个阶段都会得到相比其他方法的最好结果。
表6 整个Pipeline系统的抽取结果 单位: %
本章使用前端页面的方式展现用户发生的事件在时间轴上的展示效果。如图7所示,一共有5个用户,分别是P0、P1、P2、P3、P4和P5,每人都有一条事件时间线,他们所对应的时间线颜色不同,可以从括号中看到每个用户发生的事件的总数,上面的刻度是年份的时间线,下面部分则是在可视时间范围内的事件数量。
同时还可以放大或者缩小刻度线来细致地观察事件,图中展示的是将事件放大后的结果。每一个事件用一个原点的形式表示,不同用户的事件用不同的颜色表示,还可以拖动鼠标来移动时间轴,查看不同的时间区间内的事件信息展示。点击表示每一个事件的小圆点,就可以展开该点表示的事件信息,如图中所示该点发生的事件类型为“eat”,也就是“吃”类型的事件。里面包含了“吃”这一事件发生的具体位置为“成都大象花园泰式海鲜料理航空路店”,以及吃的具体内容“冬阴功”,事件发生的时间为“2020.12.13 22:39”。
图7 事件时间轴展示
未来将研究时间轴上用户所发生事件之间的相关性,通过事件相关性之间的规律预测用户未来可能发生的事件,并基于结果给用户推荐个性化的服务。目前初步的探索构建用户事件图谱的方式,将每一个事件作为一个点,通过图谱的演化来建立事件之间的联系。本文的研究不仅适用于微博这样的数据集,还可以用到诸如朋友圈这样的社交媒体文本上。
社交媒体上个人事件的挖掘与识别对于针对用户的个性化服务推荐有着重大的作用,本文实现了一个Pipeline的事件抽取系统,根据事件的特点,使用事件类型加事件元素的方法来刻画一个事件,使后续的抽取目标落到事件类型的分类和事件元素的分类中去,不仅使实验结果更直观,也可以使用结构化的方式刻画出事件并存储起来。
近年来,针对个人的服务推荐,一些人使用外部存在的服务,使用诸如协同过滤的方法对同类型用户或者同兴趣的用户进行推荐,但是这仅仅从多用户共性的层面对个人做出了推荐,没有考虑到用户自身的行为习惯规律,导致用户可能不喜欢推荐的服务。本文从用户自身出发,通过用户自身的事件变化信息,抽取出用户的事件信息结合其时间刻度构建出一条用户的个人事件时间轴,从这个新的角度对个人服务推荐进行了探究,后续通过探究用户个人时间轴上的时间变化规律,可以对用户未来可能发生的事件进行预测,从而为个性化的服务推荐提供新思路。
[1] DI EUGENIO B, GREEN N, SUBBA R. Detecting life events in feeds from Twitter[C]// Proceedings of the IEEE 7th International Conference on Semantic Computing. Piscataway: IEEE, 2013: 274-277.
[2] DICKINSON T, FERNÁNDEZ M, THOMAS L A, et al. Identifying prominent life events on Twitter[C]// Proceedings of the 8th International Conference on Knowledge Capture. New York: ACM, 2015: No.4.
[3] CHOUDHURY S, ALANI H. Personal life event detection from social media[C]// Late‑breaking Results, Doctoral Consortium and Workshop Proceedings of the 25th ACM Hypertext and Social Media Conference. Aachen: CEUR‑WS.org, 2014: No.SP2014_04.
[4] DHILLON P S, FOSTER D, UNGAR L. Multi‑view learning of word embeddings via CCA[C]// Proceedings of the 24th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2011: 199-207.
[5] KHODABAKHSH M, KAHANI M, BAGHERI E, et al. Detecting life events from twitter based on temporal semantic features[J]. Knowledge‑Based Systems, 2018, 148: 1-16.
[6] LI J W, RITTER A, CARDIE C, et al. Major life event extraction from twitter based on congratulations/condolences speech acts[C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2014: 1997-2007.
[7] BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022.
[8] CHOUDHURY S, ALANI H. Detecting presence of personal events in Twitter streams[C]// Proceedings of the 2014 International Conference on Social Informatics, LNCS 8852. Cham: Springer, 2015: 157-166.
[9] LI J W, CARDIE C. Timeline generation: tracking individuals on twitter[C]// Proceedings of the 23rd International Conference on World Wide Web. New York: ACM, 2014: 643-652.
[10] HOCHREITER S, SCHMIDHUBER J. Long short‑term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.
[11] SCHUSTER M, PALIWAL K K. Bidirectional recurrent neural networks[J]. IEEE Transactions on Signal Processing, 1997, 45(11): 2673-2681.
[12] ZHOU C T, SUN C L, LIU Z Y, et al. A C‑LSTM neural network for text classification[EB/OL]. (2015-11-30)[2021-09-10].https://arxiv.org/pdf/1511.08630.pdf.
[13] YEN A‑Z, HUANG H‑H, CHEN H‑H. Detecting personal life events from Twitter by multi‑task LSTM[C]// Proceedings of the 2018 Web Conference Companion. Republic and Canton of Geneva, Switzerland: International World Wide Web Conferences Steering Committee, 2018: 21-22.
[14] YEN A Z, HUANG H H, CHEN H H. Personal knowledge base construction from text‑based lifelogs[C]// Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2019: 185-194.
[15] YEN A Z, HUANG H H, CHEN H H. Multimodal joint learning for personal knowledge base construction from Twitter‑based lifelogs[J]. Information Processing and Management, 2020, 57(6): No.102148.
[16] DEVLIN J, CHANG M W, LEE K, et al. BERT: pre‑training of deep bidirectional transformers for language understanding[C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). Stroudsburg, PA: ACL, 2019: 4171-4186.
[17] ZHOU P, SHI W, TIAN J, et al. Attention‑based bidirectional long short‑term memory networks for relation classification[C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). Stroudsburg, PA: ACL, 2016: 207-212.
[18] LAFFERTY J D, McCALLUM A, PEREIRA F C N. Conditional random fields: probabilistic models for segmenting and labeling sequence data[C]// Proceedings of the 18th International Conference on Machine Learning. San Francisco: Morgan Kaufmann Publishers Inc., 2001: 282-289.
Personal event detection method based on text mining in social media
XIAO Rui, LIU Mingyi, TU Zhiying, WANG Zhongjie*
(,,150001,)
Users’ social media contains their past personal experiences and potential life patterns, and the study of their patterns is of great value for predicting users’ future behaviors and performing personalized recommendations for users. By collecting Weibo data, 11 types of events were defined, and a three‑stage Pipeline system was proposed to detect personal events by using BERT (Bidirectional Encoder Representations from Transformers) pre‑trained models in three stages respectively, including BERT+BiLSTM+Attention, BERT+FullConnect and BERT+BiLSTM+CRF. The information of whether the text contained defined events, the event types of events contained, and the elements contained in each event were extracted from the Weibo, and the specific elements are Subject (subject of the event), Object (event element), Time (event occurrence time), Place (place where the event occurred) and Tense (tense of the event), thereby exploring the change law of user’s personal event timeline to predict personal events. Comparative experiments and analysis were conducted with classification algorithms such as logistic regression, naive Bayes, random forest and decision tree on a collected real user Weibo dataset. Experimental results show that the BERT+BiLSTM+Attention, BERT+FullConnect, BERT+BiLSTM+CRF methods used in three stages achieve the highest F1‑score, verifying the effectiveness of the proposed methods. Finally, the personal event timeline was visually built according to the extracted events with time information.
social media; personal event; event detection; BERT (Bidirectional Encoder Representations from Transformers) model; personal event timeline
This work is partially supported by National Natural Science Foundation of China (61772155).
XIAO Rui, born in 1997, M. S. candidate. His research interests include service computing.
LIU Mingyi, born in 1995, Ph. D. His research interests include service computing.
TU Zhiying, born in 1983, Ph. D., associate professor. His research interests include software engineering, service computing, knowledge engineering, enterprise business modeling.
WANG Zhongjie, born in 1978, Ph. D., professor. His research interests include service computing, software engineering.
TP391.1
A
1001-9081(2022)11-3513-07
10.11772/j.issn.1001-9081.2022010106
2022⁃01⁃27;
2022⁃03⁃20;
2022⁃04⁃02。
国家自然科学基金资助项目(61772155)。
肖锐(1997—),男,重庆人,硕士研究生,主要研究方向:服务计算;刘明义(1995—),男,安徽宣城人,博士,CCF会员,主要研究方向:服务计算;涂志莹(1983—),男,福建龙岩人,副教授,博士,CCF会员,主要研究方向:软件工程、服务计算、知识工程、企业业务建模;王忠杰(1978—),男,山东龙口人,教授,博士,CCF高级会员,主要研究方向:服务计算、软件工程。