基于TF＊PDF的热点新闻发现研究

2017-04-22 10:11卢春光周安民

现代计算机 2017年8期

关键词：热点新闻关注度权重

卢春光，周安民

（四川大学电子信息学院，成都 610065）

基于TF＊PDF的热点新闻发现研究

卢春光，周安民

（四川大学电子信息学院，成都 610065）

随着互联网的发展，网络新闻呈现爆炸式的增长，如何有效发现热点新闻成为了当前研究的热点之一。TF*PDF算法侧重文本中热点词的计算，但没有考虑用户的影响。用户的阅读和评论在热点新闻的发展和形成过程中起到催化剂的作用，引入用户关注度用来表示热点新闻受关注的程度，提出一种基于TF*PDF算法和用户关注度相结合的热点新闻发现方法。首先采用TF*PDF算法发现热点新闻相关的热点词汇，然后计算出用户关注度以发现热点新闻。实验结果表明，该方法可以有效发现热点新闻。

热点词；用户关注度；热点新闻

0 引言

网络热点新闻是指能呈现当前重要事件、反映当前关注焦点和舆论倾向的新闻。普通新闻发展成为热点新闻包括：新闻报道被各大网站转载，吸引人们关注，人们受新闻评论的影响，产生思想共鸣或异议，进而产生对个人的影响，新闻事件持续的传播，受到影响的人数越来越多，最终发展成为热点新闻，对社会造成一定的影响。热点新闻的特点包括关注广泛性，利益相关性，重复转载性和渐进持续性。网络热点新闻的发现能够帮助人们了解当前的社会动态，关注民生，同时也能帮助政府部门及时掌握社会舆情的发展态势，进而正确引导舆情发展。用户的参与和讨论，在热点新闻的形成和发展过程中，产生了重要的影响，因此提出用户关注度来定量化表示用户的行为对热点新闻所起的影响和作用。

1 相关工作

热点新闻的发现借鉴了话题检测与跟踪TDT（Topic Detection and Tracking）的理论和方法。TDT起源于早期面向事件的检测与跟踪（Event Detection and Tracking）[1]。它最初是要创造一种算法，用来发现数据流中的重要信息，其基本思想是话题检测与追踪，该项目在热点关键词挖掘检测方面主要针对突发性网络舆情事件的挖掘和网络舆情热点跟踪方面的研究[2]。中科院计算机研究所张华平等人提出了一种基于主题词的网络热点发现算法[3]。其基本思想就是将主题词表生成主题词候选集，对其进行过滤和权重计算，以主题词为线索，使用多特征的话题模型，结合新闻和微博等相应特征实现网络热点话题的发现。万晓霞等提出了基于三种聚类算法相结合的话题发现算法和热度计算方法[4]，通过选择层次聚类对每天的新闻进行聚类得出微类，再选择K-Means聚类算法对每月的微类进行聚类，最后将每个月的热点事件通过增量聚类得到该年度的热点新闻；吴永辉等将仿射传播聚类算法（A，P）[5-6]和LDA模型相结合，提出了一种自适应网络主题发现和热点新闻发现方法[7]；王义等通过将字符串核函数（string kernel）计算文本相似度并应用到文本聚类，提出了基于字符串核函数的热点新闻发现方法[8]。Bun和Ishizuka等提出了一种基于TF*PDF的算法[9]用于热点话题的发现，但是没有考虑到用户的影响因素。本文借用百度指数的思想用热点新闻的关注度来描述当前新闻被关注的程度，提出了基于TF*PDF和用户关注度相结合的热点新闻发现算法。

2 基于TF＊PDF和用户关注度的热点新闻发现算法

2.1 TF★PDF算法

在传统的TF*IDF[10-11]算法中，更看重出现在较少文章中的词汇，而Bun和Ishizuka提出的TF*PDF算法是一种新的衡量词汇权重的算法，该算法认为越是出现在多个文章中的单词被认为是热门主题单词的可能性越大。其计算公式如式如下所示：

其中,Wj表示词汇j的权重；Fjc表示词汇j在渠道c出现的频率；njc表示词汇j所在的渠道包含的文档数量；Nc表示渠道c中文档的总数量；k表示一个渠道词汇的总数量；D表示渠道的数量。

TF*PDF算法主要有三部分组成；一是单词j的权重是由该单词在每个渠道中的权重求和得到的；二是Fjc，因为在不同的渠道中词汇集的大小不同，在具有较多文章的渠道中单词j出现的频率越大，也即是Fjc的值越大；三是PDF（Proportional Document Frequency）这部分表示越是在多个文章中出现的单词，其价值越大，权重也就越大。

在TF*PDF算法中，某个渠道词汇的权重和该词汇在渠道中出现的频率成线性比，与该渠道包含词汇的文档比率数呈指数比。该词汇的总权重为该词汇在每个渠道的权重之和。

2.2 用户关注度的计算

用户关注度是指热点新闻被用户关注的程度。影响用户关注度的参数主要是新闻阅读数、新闻评论数和单位时间新闻评论数。新闻阅读数用RN来表示，新闻评论数用CN来表示，单位时间评论数用UTC来表示。新闻评论数和新闻阅读数对热点新闻的形成起到的作用和影响是不同的，所以应对其设定不同的权重大小。正常情况下如果一个用户对某个新闻感兴趣，则在阅读完该新闻后会对其进行评论，因此本文认为新闻评论数在热点新闻的形成过程中所起的作用要比新闻阅读数所起的作用更大更重要，应对其设置较高的权重。本文经过多次试验发现当新闻评论数设置的权重为新闻阅读数两倍时效果最好。用户关注度的计算公式如下：

其中α为：

其中Pc计算公式为：

其中Pr计算公式为：

其中：T（i，t）u表示在时间段t内用户对新闻i的关注度；Pc表示关于新闻i的评论人数占评论数和阅读数的比值，γ作为调整因子，起到平衡作用；Pr表示关于新闻i的阅读人数所占的比值；CN为t时间段内的新闻评论数，RN为t时间段内的新闻阅读数。

单位时间段内的评论数UTC用来描述网络新闻从一般性新闻演变为热点新闻趋势变化的强弱，UTC越大说明该新闻发展成为热点新闻的趋势越强。

其中UTC的计算公式表示为：

将通过TF*PDF算法和用户关注度结合起来可以较好的描述热点新闻的关注度，其计算公式如下：

其中参数β是调整参数，用来调整TF*PDF算法的结果和用户关注度的数值差异，防止由于某一方数值很大而把另一方数值淹没的出现。在描述热点新闻关注度变化情况时，我们借助“话题指数”的思想，提出一种“新闻热点变化指数”，用来描述在第n天时热点新闻相对于第一天的变化情况，其计算公式如下：

其中，Hn表示热点新闻在第n天的热点指数；Tn用来表示热点新闻在第n天的关注度；T1用来表示热点新闻在初始第一天的关注度。我们可以用公式Hn来描述热点新闻在一个时间段内的关注度的变化情况，同时还能过滤小部分虽然关注度高但却不属于热点的新闻。例如NBA新闻虽然短时间内报道数量和用户关注较多，但是随着时间的推移，新闻的热度很快下降，所以并不属于热点新闻。

3 实验结果和分析

本文的实验数据通过网络爬虫采集网易新闻手机版的新闻和评论。首先，使用Android模拟器和抓包工具分析手机端的新闻结构，然后使用模拟浏览器的方式对目标网站发起请求，通过对网页内容的解析，获取包括新闻标题、新闻内容、发布时间和新闻评论内容、用户信息、评论时间等信息。最后通过实验来验证基于TF*PDF和用户关注度算法的有效性。

3.1 实验数据源的选取

数据来源为从网易新闻手机版采集回来的2016年10月份和2016年11月份的新闻数据。经过数据的去重处理，获取的数据（以条为单位）如表1所示：

表1

3.2 实验步骤及结果

为了保证用户关注度T（i，t）u随着用户的阅读数和评论数的增加而增加，使用户关注度呈现正相关，对式（3）中的对数底数α取值大于1，γ取值1，新闻阅读数取新闻评论数和新闻点赞数之和。首先要对式（8）中的加权因子进行测定，通过随机选取两个月份各800条数据及其对应的评论进行多次试验，对β的数值从[0，1]进行遍历选取，遍历步长为0.01，并根据结果进行统计分析，得到当β等于0.63时热点新闻发现效果最好。实验结果如表2所示：

表2

从表2可以看到，关注度较高的新闻有美国大选事件等，将实验结果与同一时间段内各大网站的评选结果进行比较，可知在加权用户关注度的影响下，得到的热点新闻更加客观准确。表2中的热点新闻关注度也反映出了使用新方法得到的热点新闻的关注度大小，能够更好地衡量实验结果的有效性。

4 结语

本文首先介绍了热点新闻的相关知识和当前的研究现状，然后分析了用户关注行为在热点新闻发展形成过程中所起到的作用，引入用户关注度用来衡量热点新闻受关注的程度。通过TF*PDF算法进行热点词汇的发现，然后根据提出的用户关注度算法计算用户对新闻的关注度大小，最后将两者进行加权计算，得到热点新闻的关注度。实验结果证明，该方法能够有效地进行热点新闻发现。下一步的工作重点是考虑将热点新闻发现应用于舆情分析和预测。

[1]Allan J,Carbonell J,Doddington G,et al.Topic Detection and Tracking Pilot Study:Final Report[C],1998.

[2]Y.M.Yang,J.Carbonell,R.Brown et al.Learning Approaches for Detection and Tracking New Events.IEEE Intelligent Systems: Special Issue on Applications of Intelligent Information Retrieval,1999.

[3]张华平等.基于主题词的网络热点话题发现.第五届全国信息检索与内容安全学术会议CCIR，2009,135-142.

[4]万晓霞，赵佳.基于聚类的网络新闻热点发现研究.现代计算机[J]，2015,36-39.

[5]B Frey,D Dueck.Clustering by Passing Messages Between Data Points[J].New York:Science,2007,315（5814）:972-976.

[6]肖宇,于剑.基于近邻传播算法的半监督聚类[J].软件学报2008,9（11）:2803-2813.

[7]吴永辉等.基于主题的自适应、在线网络热点发现方法及新闻推荐系统[J].电子学报,2010,28（11）:2620-2624.

[8]王义等.基于字符串核函数的热点新闻发现系统[J].广西师范大学学报（自然科学版）,2007-12,25（4）:212-215.

[9]Bun KK,Ishizuka M.Topic Extraction from News Archive Using TF*PDF Algorithm[A].In:Processing of the 3 rd International Conference on Web Information Systems Engineering（SISE 2002）,Singapore,2002:73-82.

[10]P.D.Turney.Learning Algorithms for Keyphrase Extraction.Information Retrieval,2000,2（4）:303-336.

[11]I.H.Witten,G.W.Paynteer,E.Frank,et al.KEA:Practical Automatic Keyphrase Extraction.The 4th ACM Conference on Digital Libraries,Berkeley:ACM Press,1999:254-256.

Research on Hot News Discovery Based on TF＊PDF

LU Chun-guang，ZHOU An-min
（College of Electronics and Information Engineering，Sichuan University，Chengdu 610065）

With the development of the Internet and the explosive growth of network news,how to effectively find hot news has become one of the hot spots of current research.TF*PDF algorithm focuses on the calculation of hot words in the text,without considering the user's impact. User's reading and commenting plays a catalytic role in the development and formation of hot news,so introduction the user attention to indicate the extent to which the hot news is of interest,presents a method of hot news discovery which is based on TF*PDF algorithm and user attention.Uses TF*PDF algorithm to find hot words related to hot news,and then calculates the user attention to get hot news.Experimental results show that the method can effectively find hot news.

Hot Words;User Attention;Hot News

1007-1423（2017）08-0018-04

10.3969/j.issn.1007-1423.2017.08.004

卢春光（1990-），男，河南周口人，硕士研究生，研究方向为信息安全

2016-12-29

2017-02-25

周安民（1963-），男，四川成都人，硕士生导师，研究员，研究方向为信息安全