张 丽 冰
(南开大学商学院,天津300071)
基于Fussy-GRNN的网络论坛质量评价
张丽冰
(南开大学商学院,天津300071)
互联网论坛是目前进行直接知识交流的一条重要途径,如何对互联网论坛进行科学评价成为一个重要问题。在已有研究基础上,本文从网站建设、网站管理、信息交流质量和信息交流时效性等四个方面,构建网站质量评价指标体系与基于模糊广义回归神经网络 (Fussy-GRNN) 的企业知识共享能力评价模型,并进行了相应测试。
网络论坛;Fussy-GRNN;评价指标;评价模型
网络论坛又名电子公告板(BBS),该系统通过网络,使各用户终端连接,进行数据或程序的上传或下载、文章信息发布和阅读等信息交换行为。现在的网络论坛(网络社区),是以电子公告板系统为核心进行应用扩展,集成信息公告栏、群组讨论、在线实时聊天、交友、个人空间、无线增值服务等功能在内的网上互动平台。同一主题的网络社区集中了具有共同信息需求的用户。传统形式下的网络论坛分为论坛、版块和主题三个层次,而新型网络论坛则集成了博客、微博、社交网络、个人空间等网络应用,分层更加复杂和多样。网络论坛所具有的实时性(支持在线交流)、内容丰富性(在法规要求的范围内,可以自由根据论坛分类主题进行分析)、资源可靠性(绝大多数管理良好的论坛根据设定不允许发送无意义的文章,同时禁止恶意“灌水”回复)等特征,使人们在网络生活中扮演着知识交流的角色。因此,有必要对网络论坛进行评价,通过构建相关评价指标体系和评价模型,促使网络论坛健康发展。
(一)国外相关研究情况
目前,国际上对网络论坛的研究比较多,研究方向也各不相同。例如网络论坛会员的行为分析、热点追踪与监控、潜在对象行为影响等研究。
YuIchifuji, Susumu Konno, Hideaki Sone[1]214通过研究一种基于贝叶斯原理的算法,将论坛中的回复自动分为“普通评论”,“恶意破坏论坛秩序的评论”,“严重破坏论坛秩序的评论”三类,并且根据实验,此算法对“恶意破坏”或“严重破坏”的评论归类准确率为64.7%,对单纯“恶意破坏”评论归类的准确率为85.4%。
Yasufumi Takama, Masaki Okumura[2]1001提出了一个定时监视多个BBS运行趋势的可视化系统。他们认为BBS是一个能够获取最新信息并可以获得在感兴趣的话题下最广的领域的观点。因此,有必要多线程同时运作进行信息收集以获得更多数据。他们这个构想的基础是关键字可视化。此外他们的系统实现了灵活检测用户对关键词的关注变化情况。他们同时通过试验中基于眼动追踪数据的原型系统获取的测试参与者数据,分析其行为。
Alexandra L. Whittaker等[3]135通过对基于Web2.0技术下的产物——Facebook——建构网络学习社群对本科生动物学学习的影响,发现Facebook在教育领域有很大促进作用,这些主要作用体现在强化通讯,获取社群援助和制定问题解决策略方面。
(二)国内研究情况
目前,国内对网站的相关评价研究正处于迅速发展时期。根据中国知网学术趋势搜索提供的数据[4](如图1所示,检索时间2016-5-11),我国国内对网站评价的论文,整体呈上升趋势。
图1 关键词为“网站”并含“评价”的学术关注度图
王晰巍等[5]111结合信息生态的相关理论和门户网站发展状况,基于信息者、信息和信息环境等3个信息生态基本要素,提出从“服务性、参与性、互动性”三方面入手,构建低碳类信息门户网站生态性评价指标体系,利用层次分析法确定各评价指标权重。为验证指标的应用价值,结合国内外典型低碳类信息门户网站进行实证研究。宋丽丽[6]114在网络链接基本分析方法基础上,构造销售利润率影响因子指标,并结合其它对中小企业网站影响较大的链接指标进行研究,分析其与样本中小企业排名的相关关系,对中小企业网站影响力进行评价,进而对中小企业网站建设提出建议。赵跃[7]67引入对应分析法,以31个省级政府门户网站为评价对象,以中国软件评测中心的3个反映政府网站功能的指标数据与Alexa网站的8个实时监测数据为依据,建立相应的对应分析评价模型,并在此基础上得到两张对应分析定位图,结合网站原始数据对两张定位图进行比较分析,并将图中网站分类情况与中国软件评测中心发布的省级政府网站排名情况行比较分析,揭示出不同水平政府门户网站的优势与劣势,从而达到对政府网站进行评价的真正目的。
(一)评价指标构建原则
在涉及到对事物质量评价时,遵循以下原则。
1.系统性原则。影响网络论坛质量的因素较多,必须采用系统设计、系统评价的原则。在设定中抓住重要的、有代表性的指标,同时兼顾其他必要因素,这样才能比较全面、客观地评价网络论坛的质量。
2.定性与定量相结合原则。在影响网络论坛质量的因素中,包括不能量化但可以确定其性质的定性指标和可以量化的定量指标等两方面指标。
3.可行性原则。对网络论坛的质量评价指标体系建设,应考虑在实际操作中的可行性,要易于操作、方便实施。
(二)网络论坛质量评价指标的建立
基于上述三个原则,提出了网络论坛质量评价指标体系,包括网站建设、网站管理、信息交流质量和信息交流时效性等。该指标体系在层次上分为目标层、准则层和指标层,各层次下具有相应的指标,如图2与表1所示。
图2 网络论坛质量评价体系
1.网站建设由网站的视觉建设( X1)、网站的用户友好性 ( X2)、网站的系统稳定性(X3)、网站的系统安全(X4)四项指标构成。视觉建设可通过网站的排版和色彩设置来衡量;网站的用户友好性通过网站注册、发布信息、来信提醒的便捷程度等来衡量;网站的系统稳定性通过网站的加载能力,是否出现故障页面导致无法登录来衡量;网站的系统安全通过网站的账号安全(是否易于盗号,个人信息是否易于泄露)来衡量。网站建设水平高低反映了网络论坛的基础性能好坏,也是信息交流的硬件基础。
表1 网络论坛指标数据
2.网站管理。包括网站规章编制( X5)、网站规章执行( X6) 两项指标。网站规章编制反映互联网论坛对外界反应的灵活性和原则性,以及网站管理的预见性水平;网站规章执行是指网站对于违规行为处理的响应速度,以及对违规行为处理质量水平,可用站务反馈版块中用户的举报文章数目来表征。
3.信息交流质量。包括交流的信息标准化(X7)、交流的信息质量(X8)两项指标。交流的信息标准化表现在论坛中文章发表是否遵循一定格式,如转载的文章是否会出现转载文章的来源等;交流信息的质量表现在论坛中优秀文章多少,其可通过论坛中的“加分”、“高亮”、“推荐”、“精华”文章占总体文章的数目来衡量。
4.信息交流时效性。包括信息交流速度(X9)、信息交流响应数量(X10)两项指标。信息交流响应数量表现在论坛发布一篇文章后收到其他网友的回复时间长短;信息交流的响应数量表现在论坛内部一篇文章回复数量的平均值,平均值越高,说明论坛内的用户参与度越高。
(一)模糊理论介绍
模糊理论最初由美国加州大学L.A.Zadeh提出。该理论诞生原因是传统精确的数学方法已不能完全有效解决生活中一些复杂问题,而使用模糊的逻辑观念来描述现实生活中的事物具备一定可行性。模糊理论是以隶属函数来表达人类生活中不明确或模糊性问题。本文采用三角隶属函数进行分析。
在本文的10 个影响因素中,既有定性因素又有定量因素,如网站的视觉建设、网站的用户友好性、网站的系统稳定性、网站的系统安全、网站规章编制、交流信息的标准化等为定性因素;网站规章执行、交流的信息质量、信息交流的速度、信息交流的响应数量为定量因素。
对于不同类型的因素,要使用不同方法来确定其隶属度: 对于定性因素可以通过专家评分法来确定隶属度;对于定量因素可先对数据归一化,然后再进行比较评价。
设定评价集 E {优秀、良好、一般、较差},根据最大隶属度原则来确定评价结果。如表1中所示的网络论坛 N1的指标“网站的视觉建设”(X1) 的评价集为 {0、0.3、0.3、0.4},根据“最大隶属度”原则,该网络论坛的此项指标的评价结果为“较差”,其他指标评价结果也采用类似原则进行评价。
(二)GRNN 的结构和学习算法
GRNN ( General Regression Neural Network, 泛化回归神经网络) 是径向基函数(RBF)神经网络的变化形式之一。GRNN具有很强的非线性映射能力和柔性网络结构;同时也具有较高的容错性和鲁棒性。根据实际经验,GRNN的训练速度快于一般的RBF 网络;与常用的BP 网络相比,GRNN的收敛速度明显较快。此外,GRNN可用于在样本数据较少或数据不稳定情况下获得较好的评价与处理结果。
GRNN 构成如图3,其各构成部分为:
图3 GRNN的网络结构
1.输入层(Input Layer)。输入层各神经元是简单的分布单元,直接将输入变量传递到下一层。输入层神经元的数量等于学习样本输入向量的维数。
2.模式层(Pattern Layer)。又名隐含层。其神经元的个数等于学习样本的数目n,各神经元对应不同的样本,模式层神经元传递函数为:
i=1,2,…,n
(1)
神经元i的输出为输入变量与其对应的样本 X 之间的欧式距离 ( Euclidean Distance) 平方的指数平方的指数形式。式中,X 为输入变量; Xi为第 i 个神经元对应的学习样本。
3.求和层(Sum-mation Layer)。求和层使用以下计算公式进行求和:
(2)
GRNN 学习的步骤如下:
(3)计算测试样本与标准模式的相似度,并利用训练好的模型进行仿真。
(4)输出结果。
(三)Fussy-GRNN 的网络结构
根据模糊理论和 GRNN 的学习算法,构建出关于网络论坛质量评价的 Fussy-GRNN模型,如图4 所示。
图4 网络论坛质量的Fussy-GRNN网络结构
该模型包括两部分: 模糊处理部分和 GRNN 数据处理部分。其中,模糊处理部分负责对原始数据进行模糊化处理,使数据能够被模糊神经网络所用;GRNN 在模糊数据的基础上,实现对数据的训练、仿真、测试等。
(一)数据收集
根据第二部分中提出的网络论坛质量评价指标体系,设计调查问卷,然后就11个综合性网络论坛中的汽车论坛进行问卷调查,调查对象包括资深网民、相关行业从业人员等。表1中所示的数据为经过模糊化加工后的调查问卷数据。
(二)数据处理和分析
利用 MATLAB软件,进行神经网络的模拟仿真工作。具体工作由以下几个步骤构成。
1.Fussy-GRNN网络结构的确定
(1)输入层相关结构的确定。结合第三部分第二大问题中的相关描述,Fussy-GRNN网络的输入层神经元数量由网络论坛质量的指标数量决定。但由于已对每个指标进行了模糊处理,共包括4 项分指标(即评价集 E 中的元素个数为4),所以输入层的实际神经元数量为 40 个 (10×4)。
(2)输出层相关结构的确定。对于输出层,因为输出值也有4项分指标,所以输出层神经元的数量为4。
(3)隐含层相关结构的确定。隐含层的神经元数目等于学习样本的数量,结合对输出层和输入层神经元结构的设计,隐含层的神经元数量应为40个,并使误差达到所要求的目标值。
2.利用Fussy-GRNN网络进行分析处理
(1)利用 Fussy-GRNN 对原始数据进行模糊化处理,处理后的结果如表1所示。
(2)利用 Fussy-GRNN 进行数据训练、仿真、测试。用表1中前8组数据(即前8个网站的质量调查数据)作为训练样本,然后用newgrnn 函数创建 Fussy-GRNN 中的GRNN网络;分别设定径向基函数分布密度值(SPREAD)为0.02、0.03、0.04、0.05、0.06、0.1、0.3、0.5、0.7、0.9,进而进行仿真。
通过在系统上仿真可以得知,当SPREAD=0.1时,误差的数量级达到1.0e-47; 当 SPREAD =0.06 时,误差的数量级达到1.0e-130;当SPREAD = 0.05时,误差的数量级达到1.0e-188;当SPREAD = 0.04,误差趋近于0。这就意味着,随着SPREAD值增大,误差越来越大。同理,随着SPREAD值减小,误差越来越小。但当SPREAD =0.03 ,系统提示误差值无法显示(表明无法显示),因此为便于计算,选择SPREAD值为0.04,完成对网络的训练。
对表1中的后4个网站数据作为测试样本进行仿真,所得结果如表2所示。
由表2并根据评价集和最大隶属度原则可以看出,网站N9的评价结果为 “优秀”,N10为“良好”,网站 N11为“良好”。通过实地调研,对于网站N9和N10的实际评价结果与所仿真获得的评价结果相符,从而也说明“基于Fussy-GRNN 的网
表2 Fussy-GRNN网络评价结果(SPREAD=0.04)
络论坛质量评价”的有效性;但对于网站N11,实际评价中更多偏向于“优秀”的评价,虽然其总体实际评价与本次模拟结果相同,但在进一步调查中受访专家普遍认为N11相较“良好”中的其他网站有突出的优秀表现,尽管其与评价为“优秀”的网站还有一定差距。这也说明我们在评价集的设计中存在一些问题,比如可选选项过少等,这些问题将在后面的研究中改进。
本文通过分析目前其他论文的相关研究成果,提出使用Fussy-GRNN作为工具的网络体系,并通过相关测试证实其有效性。模糊矩阵方法较传统的一些方法更能表达出关于具体的一些不便说明的事实的性能,为网络评价提供了一个新方法。
[1]YuIchifuji, Susumu Konno, Hideaki Sone, An advisory method for BBS users and evaluation of BBS commets[J]. Procedia -Social and Behavioral Sciences,2010,(1).
[2]Yasufumi Takama,Masaki Okumura, Interactive Visualization for Monitoring Support of Multiple BBS Threads[J].Procedia Computer Science,2013 ,(2).
[3]Alexandra L. Whittaker, Gordon S.Howarth, Kerry A. Lymn,Evaluation of Facebook to create an online learning community in an undergraduate animal science class[J].Educational Media International, 2014,(2).
[4]中国知网学术趋势搜索[EB/OL].[2016-5-11],http://trend.cnki.net/TrendSearch/trendshow.htm?searchword=%u7F51 %u7AD9%20%u8BC4%u4EF7.
[5]王晰巍, 郭宇, 魏骏巍等.门户网站生态性评价及实证研究——以低碳类门户网站为例[J].图书情报工作,2014,(19).
[6]宋丽丽,徐静. 基于网络链接分析的中小企业网站分析与评价研究[J].现代情报,2015,(1).
[7]赵越. 基于对应分析法的政府网站评价研究[J].电子政务,2014,(3).
(责任编辑鲁守博)
2016-06-17
张丽冰,女,山东潍坊人,南开大学商学院情报学硕士。
G206.2
A
1672-0040(2016)05-0019-06