肖 尚, 房至一, 董洪良, 赵 帅, 王涵瑜
(1. 天池传媒股份有限公司 产品创新中心, 北京 100020; 2. 吉林大学 计算机科学与技术学院, 长春 130012;3. 吉林省竹玖信息技术有限公司 数据与信息实验室, 长春 130012; 4. 东北师范大学 信息科学与技术学院, 长春 130017)
随着信息科技的飞速进步和互联网技术的日益普及, Web新闻、 网络博客、 微信公众号文章等线上资源已成为人们获取信息和关注时政的主要途径之一[1]。各家网络媒体需要形成自身独有的风格, 不同受众的需求不同, 修改标题便成为一种低成本且高效率的润色手段[2]。所谓“标题党”, 在通常情况下, 是指通过博客, 公众号等方式的发帖者为了吸引人气, 吸引大量网络流量的一群人[3]。他们发布的新闻, 称为“标题党”新闻。这群人利用五花八门的方法对标题进行“加工”, 希望达到增加点击率目的[4]。
“标题党”新闻的危害非常大[5]。首先“标题党”新闻让人们获取新闻内容的效率大幅度下降; 其次, 因长期受到“标题党”新闻的影响和错误的指引会让受众产生不耐烦的心态, 可能对网络新闻失望。最后, 有关暴力、 色情的元素经常被用到“标题党”新闻中, 公众敏感的神经就会被这样的新闻所触动, 长期以往社会矛盾会越来越深。新闻报道的初衷是让人们能了解到真正的事实, 这样的新闻一味追求点击率和曝光率, 使用让人引起注意的标题吸引网民的眼球[6]。
针对“标题党”新闻的危害, 必须要有应对措施, “标题党”新闻是不具备任何价值的, 故“标题党”新闻现象急需得到整顿和遏制[7]。
笔者给出了《知网》(HowNet)文本相似度计算方法, 并且提出了一种改进型的VSM结合余弦相似度方法计算文本之间的相似度, 同时给出了基于改进型的VSM结合余弦相似度方法和《知网》(HowNet)文本相似度计算方法相结合的改进型VSM-HowNet融合相似度算法计算文本之间的相似度。并将提出的新方法应用到王氏“标题党”新闻识别模型中计算文本相似度, 且和王氏“标题党”新闻识别模型中的主题-词形文本相似度计算方法在对“标题党”新闻、 非标题党识别的准确率、 召回率及F1值做出对比, 以提高对“标题党”新闻、 非标题党新闻的识别效率。
文本分析通常是文本的表示、 特征项的提取和文本相似度的计算。即从文本中抽取出的特征词进行量化表示文本信息。其过程对想要理解一个文本的详细信息至关重要[8]。文本分析实现过程, 通常要经过文本预处理、 特征表示、 特征选择和相似度计算以及评估方法进行评估[9]。
目前常见的的文本相似度计算方法是基于统计的计算方法和基于语义理解的计算方法。其中基于统计的文本相似度的计算方法有: 基于VSM(Vector Space Model)的方法、 GVSM(Generalized Vector Space Model)方法, 隐性语义分析LSI(Latent Semantic Idexing)方法等。基于语义理解的常用的计算方法通常有: 《知网》(HowNet)文本相似度计算方法、 基于《同义词词林》的方法和词网WordNet的方法[10]。基于统计的文本相似度计算方法在不断发展和完善, VSM方法方便, 快捷。但由于在传统的VSM方法中, 若两个文本中出现相同的词较少或未出现相同的词, 相似度的值可能会很低甚至可能为0, 在后面方法论的章节中, 提出一种改进型的VSM结合余弦相似度方法, 用词林中同义词组作为词组向量的方法优化此问题。但改进型的VSM结合余弦相似度的方法未考虑语义信息, 且需要大规模语料库支持, 所以和基于语义的文本相似度计算方法相结合也是笔者的研究重点所在。
在“标题党”新闻识别方法中, 罗佳[11]给出LSI潜在语义分析的方法识别“标题党”新闻, “标题党”新闻识别的基础是矩阵的奇异值分解, 每个词语在各个段落中出现的次数用向量空间模型表达。采用这种方法可以消除与主题无关的词。但LSI方法太依赖于上下文信息。王志超等[12]在其文献中给出, 用标题和主题句之间相似度的大小表示文本相似度, 提出了一种主题句提取算法, 在其方法中, 选取了特定的“标题党”新闻和非标题党新闻的比例进行实验。文本相似度计算的方法是由主题相似度和词形相似度共同决定的。主题相似度是由句子中名词的相似度和句子中除了名词以外的其他词的相似度构成的, 词形相似度是从句子的词形的角度上考虑的, 查找两个句子的相同词的个数。而这种仅由主题相似度和词形相似度所构成的文本相似度的计算方法是有局限性的, 所以提出新的文本相似度计算方法是笔者的研究重点。基于统计和基于语义的文本相似度相关研究已经取得了丰硕的成果, 但目前的文本相似度的计算方法的焦点, 基本都集中在单一的文本相似度计算方法上, 忽略了把基于统计和基于语义的文本相似度计算方法相结合。笔者将提出一种新的VSM结合余弦相似度的方法计算文本间的相似度, 并且给出用《知网》(HowNet)的相似度计算方法计算文本间的相似度, 笔者提出的改进型的VSM结合余弦相似度方法相结合形成一种改进型VSM-HowNet融合相似度算法进一步对“标题党”新闻和非标题党新闻进行识别。
在传统的VSM方法中, 两个文本在分词后, 将分词后的结果分别组成对应的词集合, 把两个文本中出现的所有词合并成一个词集合中, 分别计算两个文本词集合中的词在集合中出现的次数。但是如果在两个文本间未出现相同的词或相同的词较少, 则最后对相似度数值的计算结果就可能很小。笔者提出的改进型VSM结合余弦相似度的方法用到了将同义词词林中的词组代替文本中的词的方式, 同时给出的改进型的VSM结合余弦相似度的方法应用到王氏“标题党”新闻识别模型方法中计算文本间相似度。改进型的VSM方法结合余弦相似度的文本相似度方法识别“标题党”新闻的具体步骤如下。
1)在新闻网页中提取出新闻标题和正文。
2) 划分正文句子。若正文句子的数量超过10句话, 采用主题句抽取方法进行句子抽取[6]。
3) 最后将得到的相似度的值和阈值进行对比,可判断出一篇新闻是否为“标题党”新闻。
笔者改进型的VSM结合余弦相似度方法识别“标题党”新闻流程图如图1所示。
《知网》(HowNet)文本相似度计算步骤如下。
1) 在新闻网页中提取出新闻标题和正文。
2) 分割正文句子, 若正文句子的数量超过10句话, 就采用主题句抽取方法进行句子抽取[6], 其中主题句抽取算法中的文本相似度计算过程是按照《知网》(HowNet)文本相似度计算方法计算。之后将得到正文中的主题句权值最大的句子和标题之间进行相似度计算, 计算方法依然采用《知网》(HowNet)文本相似度计算方法; 若正文中句子数量不足10句话, 把正文当做一个长文本, 同样用《知网》(HowNet)文本相似度计算方法计算标题和正文之间的相似度。
3) 最后将得到的相似度的值和阈值进行对比, 可以判断出, 一篇新闻是否为“标题党”新闻。
《知网》(HowNet)文本相似度计算方法流程如图2所示。
图2 《知网》(HowNet)相似度计算方法对“标题党”新闻识别模型相似度计算流程图Fig.2 Flow chart of similarity calculation of “Sensational Headline” news recognition model based on “HowNet” Similarity Algorithm
用Simijvsm代表VSM方法结合余弦相似度方法的相似度的值;用Sim(W1,W2)HowNet表示《知网》(HowNet)相似度的值; 现选取合适的参数对两种相似度进行融合, 相似度用Sim(W1,W2)VSM and HowNet表示 , 融合相似度算法公式为
Sim(W1,W2)VSM and HowNet=β×Simijvsm+δ×Sim(W1,W2)HowNet
(1)
其中β+δ=1且0<β,δ<1, 两者取值在后面章节中给出。改进型VSM-HowNet融合相似度算法步骤如下。
1) 在新闻网页中提取出新闻标题和正文。
2) 分割正文句子, 采用主题句抽取方法进行句子抽取[6], 其中主题句抽取算法中的文本相似度计算过程是按照改进型VSM-HowNet融合相似度算法计算。
3) 最后将得到的相似度的值和阈值进行对比, 可以判断出, 一篇新闻是否为“标题党”新闻。改进型VSM-HowNet融合相似度算法流程如图3所示。
图3 改进型VSM-HowNet融合相似度算法对“标题党”新闻识别文本相似度计算流程图Fig.3 Flow chart of similarity calculation of “Sensational Headline” news recognition model based on improved VSM-HowNet fusion similarity algorithm
笔者实验语料库为从腾讯娱乐网中随机爬取的娱乐新闻, 用手工分类的方法分成了“标题党”新闻若干和非标题党新闻若干, 之后随机抽取了部分“标题党”新闻和非标题党新闻做本实验的训练集和测试集。
在对“标题党”新闻的识别准确率上改进型VSM-HowNet融合相似度算法优于王氏主题-词形文本相似度计算方法和《知网》(HowNet)文本相似度计算方法, 其中改进型VSM结合余弦相似度方法对“标题党”新闻的识别准确率达到了60.7%, 相比于其他文本相似度计算方法能更准确地识别一篇新闻是否为“标题党”新闻, 这对于“标题党”新闻的识别是非常重要的。而改进型VSM-HowNet融合相似度算法对“标题党”新闻的识别准确率也达到了60.63%, 识别的效果较好, 优于王氏主题-词形文本相似度计算方法。在对F1值上, 改进型VSM-HowNet融合相似度算法达到了73.77%, 效果优于《知网》(HowNet)文本相似度计算方法的71.8%和改进型VSM结合余弦相似度方法的73.31%。可以看出, 笔者提出的两种新的文本相似度计算方法—改进型VSM结合余弦相似度方法和改进型VSM-HowNet的融合相似度算法对“标题党”新闻识别的准确率上均优于王氏主题-词形文本相似度计算方法。综合对“标题党”新闻的准确率和F1值的结果来看, 改进型的VSM-HowNet融合相似度算法优于其他3种文本相似度方法。对比如图4所示。
图4 4种文本相似度计算方法对“标题党”新闻准确率、 召回率及F1值的对比图Fig.4 Comparison of four similarity algorithms for the “Sensational Headline” news on accuracy rate, recall rate and F1 value
对“标题党”新闻和非标题党新闻的识别的总准确率上改进型VSM-HowNet融合相似度算法优于其他文本相似度方法, 对“标题党”新闻和非标题党新闻的识别的总召回率上也优于其他文本相似度方法, 且在“标题党”新闻和非标题党新闻的F1值上也要优于其他文本相似度计算方法。在实际情况下, 随机读入一篇新闻, 事先并不知道这篇读入的新闻是否是“标题党”新闻, 笔者提出的改进型VSM-HowNet融合相似度算法相比于其他文本相似度的计算方法在对随机读入的未知新闻的识别的准确率、 召回率及F1值上都是比其他文本相似度计算方法更好的, 这对于识别一篇新闻是否是“标题党”新闻是十分重要的。对比如图5所示。
图5 4种文本相似度计算方法对“标题党”和非标题党新闻的综合对比Fig.5 Comparison of four similarity algorithms for the “Sensational Headline” news and “Non-Sensational Headline” news
由图5中能看到, 改进型VSM-HowNet融合相似度算法对“标题党”新闻和非标题党新闻的总识别准确率、 总召回率及F1值上, 优于其他文本相似度计算方法。
笔者主要进行的工作总结如下。
1) 研究了文本分析的概念、 实现过程, 讨论了各个阶段的关键技术, 同时研究了文本相似度计算的含义及“标题党”新闻产生的原因、 危害, 在此基础上给出了笔者设计的基本思想。
2) 对各种基于语义的文本相似度计算的方法进行了详细的研究, 给出了《知网》(HowNet)文本相似度的计算方法, 并且应用到王氏“标题党”新闻模型中计算文本相似度, 在对非标题党新闻的召回率及F1值上对王氏主题-词形文本相似度计算方法有了较大提升, 优于王氏主题-词形文本相似度计算方法中对非标题党新闻的召回率及F1值。对各种基于统计的文本相似度方法进行了详细的研究, 指出了现有VSM结合余弦相似度的文本相似度的计算方法的不足。提出了一种改进型的VSM结合余弦相似度方法, 在此方法中把传统的词向量变成用同义词林中的同义词组的向量形式表示, 并应用到王氏“标题党”新闻模型中计算文本相似度, 得出对“标题党”新闻识别的准确率、 召回率及F1值均优于其他文本相似度计算方法。
3) 针对基于统计和基于语义的文本相似度计算方法的局限性, 给出了改进型VSM-HowNet融合相似度算法, 并与王氏主题-词形文本相似度计算方法、 改进型VSM结合余弦相似度的方法以及《知网》(HowNet)文本相似度的计算方法对“标题党”新闻的识别准确率上做出了对比, 融合相似度方法对非标题党”新闻的识别准确率优于其他文本相似度计算方法。且对“标题党”新闻、 非标题党新闻的识别的总准确率、 总召回率及F1值上, 均优于其他文本相似度计算方法, 这对于识别一篇未知类型的新闻是“标题党”新闻或是非标题党新闻相比于其他文本相似度的计算方法具有很大优势。
“标题党”新闻的种类主要是集中在娱乐类、 体育类、 社会类等方面新闻中, 笔者所用的预料库是从腾讯娱乐网上随机爬取的娱乐类新闻, 并未爬取体育类、 社会类等“标题党”出现概率也很大的新闻种类。本文语料库内容较少, 有待扩充语料库, 语料库的完备是非常重要的。因此, 下一步可以爬取更多类型的新闻和不同新闻网站上的新闻, 这样可以丰富语料库。本文用的《知网》(HowNet)的方法的义原数量有待扩充, 有很多词存在未被收录的情况。笔者在计算词语相似度上所用的同义词词林也有待更新, 所以下一步研究将获取更新版本的义原和词林, 这样对计算词语相似度的值以及准确率上会有很大的提升, 对于识别文本之间的相似度上也会有提高。