韩玉民 郭丽 张浩 张帅丛
摘 要:文章研究了目前新闻类网站的发展现状,指出了目前新闻网站不断增长,“标题党”、虚假信息泛滥,造成了不良的社会影响,通过新闻网站的可信度评估,帮助用户辨别新闻的可信度。该文创建了新闻网站可信度评估指标体系,并提出了可信度评估指标的自动化识别方案,构建了网站可信度评估模型。通过对南方周末、腾讯、搜狐、新浪和网易五个网站的新闻页面抽样测试,取得了良好的结果。
关键词:网站可信度;评价指标;评价模型;自然语言处理
Abstract:This paper studies the current situation of the development of news websites,points out that the continuous growth of news websites,the proliferation of forum spammer and false information,has caused adverse social impact,through the credibility evaluation of news websites,to help users identify the credibility of news. In this paper,the credibility evaluation index system of news website is established,and the automatic recognition scheme of credibility evaluation index is proposed,and the website credibility evaluation model is constructed. Through the South Weekend,Tencent,Sohu,Sina,Netease five websites news page sampling test,and achieved good results.
Keywords:website credibility;evaluating indicator;evaluation model;natural language processing
0 引 言
中国互联网络信息中心(CNNIC)《2016年中国互联网新闻市场研究报告》[1]显示,截至2016年6月,互联网新闻市场用户规模达到5.79亿,其中手机端网络新闻用户规模为5.18亿,占移动网民的78.9%,互联网新闻已成为网民高频使用的基础类网络应用。
互联网新闻产业链日渐完善,在新闻生产、渠道分发环节都形成了相对成熟的发展机制,市场监管日益完善,参与主体日趋多元。然而,用户对网络新闻深度关注偏低,三成网络新闻用户只看首屏新闻和标题。一方面由于社交媒体与信息膨胀不断分散用户注意力,深度阅读和思考正变得日益困难;另一方面,网络新闻质量仍亟待提升,部分网络媒体利用虚假新闻,通过“标题党”方式提升点击率,降低了网络新闻水准和内容质量,并且对新闻真实性的质疑意识需提升,超六成网络新闻用户转发新闻前不会考虑新闻是否真实。
中原工学院软件学院与河南广播电视台针对如何判断和评价互聯网上信息的有效性进行了相关分析与研究,针对目前大数据时代的互联网,设计了一种互联网信息质量评估模型和标准。
从互联网发展的角度来看,从“网站可信度”角度为互联网信息质量评价提供一种新的更客观的评价模型和方法;有助于净化互联网环境,使互联网健康有序发展;指导互联网信息提供者改进信息平台建设,提高信息有效性和信息平台质量。
在信息化高度发展的时代,搜索引擎仅对网页进行评价排序有很大的局限性。网页可信度从某个页面的内容的可读性以及与用户当前搜索目的是否相符的角度出发进行分析,却并未考虑信息的真实性。所以需要从网站整体的可信度出发,分析站内网页可信度的均值,让网民了解站内网页的可信度等级,减少网民因不考虑新闻真实性随手转发的行为导致的虚假新闻的进一步传播。
1 研究现状
随着Web2.0的发展,网站的不断增加,使得网站的分类也越来越细,例如新闻网站除了基于传统媒体如新闻报刊构建的网站,如人民日报、南方周末、法制日报等,也涌现出了很多纯新媒体的新闻名站,如新浪新闻、腾讯新闻、网易新闻等,甚至还出现了一些地方媒体,及综合类信息网站。根据统计,目前新闻类的网站,被hao123网站收录就有1 211个,分成5大类,如表1所示。
其中,腾讯基于多年新闻门户网站积累,同时依托QQ、微信等社交媒体强大的渠道优势稳居首位;今日头条则利用算法技术为用户提供个性化的新闻资讯推荐,形成差异化优势并超越多数门户网站。
CNNIC调查发现,新闻综合网站和传统新闻网站目前占有市场主要地位,其中新闻综合网站具备更强流量优势,知名媒体网站公信力更胜一筹。所以,网站在不同的对比指标上,其可信度不同。事实上,信息可信度的研究在19世纪就开始了,信息的可信度的范围很广,根据研究者的研究点不同、研究对象不同给出了不同的可信度的概念。通常将可信度定义为客观性、可靠性、准确性、真实性、公正性。大量学者在不同的类型的站点上,从不同的分析角度进行了研究。
秦艳华[2]针对电子商务网站进行分析,将电子商务网站的可信度定义为竞争力指数,并建立了对应的指标体系,提出一种基于FOA优化BP神经网络的电子商务网站评价模型。马海燕[3]采用可用性工程理论及其方法对微博网站进行可用性测试,建立改进的适用于微博网站的启发式评价准则,结合用户测试法,对微博网站进行启发式评价。李森[4]等人基于用户体验的角度,从网站的设计和网站的操作易用性方面建立了评价指标体系。何怡超[5]等人在分析新闻网站的排名时,使用了基于层次分析发对新闻网站进行了评价,评价指标选择的是Alexa、PR值以及站长工具所提供的流量数据,这也是目前对新闻网站评价的通常做法。
然而考虑到各大网站用户规模不同、影响力不同,本文提出一种综合考虑网页内容质量、网站影响力和用户体验三部分的评价模型。
2 分析方法与过程
网站的可信度分析模型的建立,主要是通过设置若干评价指标,并获得各个网站在这些指标上的评分。本文提出的新闻网站可信度分析方法包括信息抽取、指标分析、可信度评估三个模块,如图1所示。
本文在设计网站可信度评估模型时,通过数据采集获得当前要进行评价的网站的抽样网页的集合;通过对网页的信息和特征,获得网站的内容质量和用户体验指标的均值;通过站长工具抓取网站的综合实力信息。综合分析各指标评分后,建立网站的可信度评估模型。
2.1 建立评价指标
本文从内容质量、网站影响力和用户体验三个维度,将资讯类网站的可信度评价指标分为三大类,每个大类下的细化指标如表2所示。
2.2 评价指标分析
一级指标A1与A2都需要对抽取的Web网页信息进行分析,例如,南方周末的“http://www.infzm.com/contents/17 9694”网页所示的新闻内容分析如图2所示。一级指标A3的数据则通过站长工具进行直接请求获取。将每一项具体的二级指标进行打分。
2.2.1 用户体验
评价指标B1、B2、B3通过提取页面中图片、视频、超链接三类超媒体元素,获取对应的链接路径。通过对链接路径的分析,将其标注为“站内页面”“站外页面”。并分析超媒体是否增加内容说明,如“alt”属性,及其与网页主题的相关度,其中Bi是对应指标得分,Wi是指标i的权重。
2.2.2 内容质量
在网页质量上本文主要考虑两个指标:主题相关度和内容真实性。两个指标的分析都需要借助于自然语言处理相关的算法来实现。
评价指标B4代表的主题相关度主要为了识别当前页面是否存在“标题党”行为。本文通过对网页正文识别高频词,再利用高频词与网页标题的相似度对指标B4进行评分。
评价指标B5代表页面内容的真实性,本文主要通过用户评论对真实性进行分析。新闻评论与电子商务评论不同,不存在评分,只有自然语言的评语,所以本文借助于情感分析,使用SVM模型对评论进行真实性分析。
2.2.3 网站影响力
评价指标A3中的所有二级指标都是站长工具提供的信息,信息是针对整站统计,并且能够保证该部分信息的公正有效。首先获取站长工具内“新闻/报纸”目录下全部的网站的B6~B10指标信息。然后针对具体的站点对指标数据进行归一化处理。
3 网站可信度评估模型
不同的评价指标在网站可信度方面的重要程度不一样,用户会更加注重内容质量和内容的真实性。另外网站的综合影响力、用户量、访问量等也间接地说明了网站的可信度。而网站在用户体验上也在一定程度上说明了网站的专业性,反映了是更加注重新闻事实的传播,还是商业目的更强。本文将不同的评价指标定义对应的权值,表达指标的重要程度,如表3所示。
接下来建立单层次分析法模型,目标C是当前待测试网站的可信度,隶属C的评价指标分别是A1、A2、A3。构造各个指标两两比较的判断矩阵A如下。
其中Aij指矩阵A的第i行,第j列的元素值,该值代表两个指标之间的重要程度对比,含义如表4所示。
计算判断矩阵A的最大特征根λmax和其对应经过归一化的特征向量W=(W1,W2,W3)T。
采用方根法求解W′=(0.251,3.000,1.326),归一化后的最终特征向量W=(0.055,0.655,0.290),由此可求得A的最大特征根λmax=3.078。
4 实验数据
本文选取具有代表性的5个资讯网站进行测试。首先抓取新浪、网易、搜狐、腾讯和南方周末的网页作为测试数据集,确保网页类型的覆盖面全,对每个网站进行抽样,对共计20*5个页面进行分析。具体测试数据分布如表5所示。
采用本文第3小節内提出的评价维度与分析方法对上述站点内采集的测试页面进行分析,最终得到的判断矩阵如下:
(1)在用户体验上,网站S1~S5两两比较的判断矩阵为:
(2)在内容质量上,网站S1~S5两两比较的判断矩阵为:
(3)在综合影响力上,网站S1~S5两两比较的判断矩阵为:
得到最终的网站的权重如表6所示。通过权重的对比可以看出,经过本文的可信度模型计算得到的结果,可信度由高到低为南方周末、腾讯、搜狐、新浪、网易。
5 结 论
由实验数据可见,通过本文提出的可信度模型算法统计出的结果与CNNIC调查结果几乎一致。在可信度上人们更倾向于报纸杂志类的专业网站,该结果与一些统计工具结果有差异,更多考虑的是信息的真实性。
本文在进行分析时,没有考虑更细致的网站分类。事实上,不同的网站在不同的类别中具有的可信度是不一样的,例如在体育新闻中,新浪网的可信度就更高一些。所以在后续的研究中,将会针对更具体的新闻分类进行可信度计算方法研究。
参考文献:
[1] 中国互联网络信息中心.2016年中国互联网新闻市场研究报告 [R/OL].(2017-01-11).http://www.cnnic.cn/hlwfzyj/hlwxzbg/mtbg/201701/P020170112309068736023.pdf.
[2] 秦艳华.基于FOA优化BP神经网络的电子商务网站评价研究 [J].四川理工学院学报(自然科学版),2015,28(6):36-41.
[3] 马海燕.基于可用性工程的微博网站评价方法研究 [D].北京:首都经济贸易大学,2013.
[4] 李森,夏静,刘玮琳,等.基于用户体验的B2C电子商务网站评价研究 [J].工业工程与管理,2012,17(6):97-100.
[5] 何怡超,刘邈,宋乙程,等.基于层次分析法的新闻网站评价 [J].教育教学论坛,2016(20):66-67.
作者简介:韩玉民(1963—),男,汉族,河南淇县人,副院长,副教授,本科,学士学位,研究方向:云计算、大数据技术。