法陈雪 胡晓峰 徐浩
摘 要:针对当前短文本的突发事件分析不能较为简易且准确地描述事件发展过程的问题,提出一种新的基于短文本的突发事件发展过程表示方法。首先,提出一种事件状态值,它被用于描述事件在各个时间点的状态,以便于用户分析事件的发展过程;其次,根据短文本的结构化信息,将事件状态值从文本信息和用户信息两个方面考虑;然后,考虑文本信息的影响因子,构造相关公式计算文本信息权重;再次,考虑用户信息的影响因子,提出一种改造的PageRank算法和用户分层思想,构造相关公式计算用户信息权重;最后,根据文本信息权重和用户信息权重计算事件状态值。实验结果表明依次考虑用户信息、采用改造的PageRank算法以及采用分层思想均能修正1~2个描述点,提高事件发展过程表示的准确度。
关键词:事件分析;PageRank;分层;短文本;状态值
中图分类号:TP391 文献标志码:A英文标题