邹纯龙 马海群
〔摘要〕本文基于对政府网站评价和政府开放数据评价的研究,建立了政府开放数据网站评价指标体系。以美国20个具有代表性的政府开放数据网站为例进行指标数据获取和专家打分,在此基础上利用神经网络的BP算法确定总体的评价结果,与专家打分结果进行比较,满足误差精度的要求,从而验证了该方法应用于评价政府开放数据网站的可行性,为今后评价该类网站提供了科学、迅速、精准的评价体系。
〔关键词〕神经网络;政府开放数据;网站评价;美国;BP算法
DOI:10.3969/j.issn.1008-0821.2016.09.003
〔中图分类号〕G203;D63-39〔文献标识码〕A〔文章编号〕1008-0821(2016)09-0016-06
〔Abstract〕This paper built an index system for evaluating the government open data website based on the studies about government website evaluation and government open data evaluation.By taking 20 American representative governmental open data websites as a sample,this paper got the index data and score by experts and obtained the overall evaluation results through BP algorithm of neural network to compare the experts scores for getting the requirement of error precision.So it could test and verify the feasibility of this way to evaluate the government open data website and could supply a scientific,rapid and accurate system to evaluate the government open data website in the future.
〔Key words〕neural network;government open data;website evaluation;America;BP algorithm
政府数据是由政府部门或者政府相关机构在管理公共部门得事务过程中产生的数据与信息。开放则意味着政府部门将这些数据与信息公开,并可以为任何人所浏览、下载和使用。政府开放数据包括,法律法规、政策文件、部门报告、公共注册信息、气象、科研等基于公共目的产生的信息与数据。大数据时代,政府开放数据主要通过开放数据网站实现数据的开放,由此便于用户无碍的查询、检索和使用数据。因此,政府建立并完善开放数据网站,能够有效的提高政府行政办事的公平性和透明性,方便公众监督政府行为。
自2009年美国首先建立了政府开放数据网站——Datagov,目前,该网站已经发布了逾127 113项数据集,并不断有新的数据加入。其数据涉及20个主题,且可以通过各种分类进行排序。截至目前为止,美国已有40个州、48个市、县推出了开放数据网站[1],在整个世界范围内处于领先水平。对比来看中国的政府数据开放平台成立的时间较晚,网站内容和功能的建设都存在较大的提高空间。学者钱晓红等对比了美国、欧盟、英国政府数据开放网站的建设现状和现有的问题,认为我国网站还有大量基础性建设工作需要完善,比如跨部门的数据共享、合理的元数据结构、服务功能等[2];侯人华等以美国政府开放数据网站为例,从数据管理的视角,对数据的特点、采集、管理、利用以及优势这5个方面进行了梳理和分析,以期对本国的网站建设提供借鉴[3];陈美从数据保障机制着手,分析了美国利用云计算和大数据方式完善数据,建立保证体系,从而实现政府开放数据共享,为我国发展政府开放数据网站提出了建议[4];可见,大多数学者都通过对比研究的方式,将处于领先地位的美国等国政府开放数据网站的发展历史、现状、特点、优势等作了描述性的分析,从而为提高中国政府开放数据网站水平提出意见。但是,较多的研究都集中于定性分析,缺乏从定量的视角客观的解析美国开放政府数据网站现状,而且这种对比研究没有一套标准的衡量体系,不具有全局观,因此研究出的结果也具有主观性和片面性。
基于此,本文综合借鉴前人评价政府网站以及政府开放数据的评价研究,首先确定评价政府开放数据网站的体系指标。再以美国20个地方政府开放数据网站为样本收集定量和定性指标的数据和专家总评结果,在此基础上利用神经网络的BP算法确定总体的评价结果,与专家打分结果进行比较,从而验证了该方法应用于评价政府开放数据网站的可行性,为今后评价该类网站提供了科学、迅速、精准的评价体系。同时也构建了一种综合的、应用广泛的评价政府开放数据网站的体系。
1政府开放数据网站评价体系构建及评价过程设计
11神经网络法
人工神经网络(Artificial Neural Networks,简写为ANNs)也简称为神经网络(NNs),是20世纪80年代以来人工智能领域兴起的研究热点。它的工作原理是仿照人脑的运作模式,具有并行处理机制和学习、联想、记忆等功能和强大的容错能力,这使它在环境知识的获取与处理中表现得相当出色,从而受到各学科学者的关注。BP神经网络模型是人工神经网络算法的一种,是一种通过多层结构来解决非线性问题的算法,这多层结构包括输入层、若干个隐含层和输出层[5]。本文构建四层网络结构,采用四层前向BP神经网络结构,包含两个隐含层,一个输入层和一个输出层。将训练样本输入网络进行运算,采用梯度下降法对BP网络进行训练[6],直到系统误差符合指定要求后,所得到的网络模型便是所需要的政府开放数据网站评价模型,文中基于BP神经网络的政府开放数据网站评价,训练神经网络并计算训练误差方法如下:
12评价指标选取及体系构建
合理的指标选取是评价一个网站的重要前提,但是关于政府开放数据网站评价体系的研究还不是很充分。因此,笔者将综合前人评价政府网站的评价体系,因为政府网站和政府开放数据网站都是政府举办的信息公开,资源共享的服务性质网站,在一定程度上具有相似性。并且结合政府开放数据的评价特点,总结一套适合政府开放数据网站的评价体系。
Cora Sio KuanLai等以用户接受和满意的视角构建了评价政府网站的四维度测试模型,包含信息质量、系统质量、感知效率和社会影响,并对464名测试者进行问卷测试,通过技术接受模型检验,认为社会影响是最重要的影响因素[7];Freida Palma等从系统质量入手评价政府网站,通过对比韩国政府网站和伯利兹城网站在网站性能、网站可达性、隐私保护及安全方面的差异,对伯利兹城为代表的发展中国家提高政府网站建设水平提供经验[8];A Vetrò等认为评价政府开放数据可以从可追溯性、价值性、延迟性、完整性、规范性、可读性和精确性方面考虑,并建立了一套数据集评价模型[9];国际开放政府工作组经过会议研究认为,政府开放数据从数据的特点出发,应该具有及时性、全面性、原始性、可获得性、机器可读、非歧视性、非专有性、无须授权(涉及隐私、安全和特别限制的除外)等特性,因此评价政府开放数据应该满足这八大原则[10]。
综合上述研究成果,本文建构了5个维度下16个评价指标,这5个维度分别是网站规模、网站性能、网站体验、网站内容和网站影响。网站规模体现了网站资源丰富程度,它的投入大小会直接作用于用户的线索效率,是评价任何网站必不可少的要素,通过网站总页面数、网站总链接数、Web对象数量来进行评价。网站性能体现网站在建设过程中的技术投入,本文通过链路完整性、页面返回率和内链数指标进行评价。网站体验是用户在浏览网站过程中的主观反应,会受到很多因素的直接影响,本文通过连通率、下载速度、页面友好程度进行评价。网站内容是指政府开放数据网站公开、共享、可下载的内容,这项指标是政府开放数据网站评价体系的独有且最基本的指标,是该类网站存在意义的基础,通过数据可获性、数据及时性和数据全面性进行评价。网站影响是指网站建设及运行过程中对外产生的直接或间接的作用。本文通过被搜索引擎收录、访问量、网站评级、网站信任得分进行评价。具体政府开放数据网站评价体系及指标内容如表1所示。
13评价过程设计
第一步:收集数据,依照上文构建的评价体系,选择合理的样本,通过软件抓取和问卷调查的方式获取样本数据。为让神经网络计算结果表现的更好,要对原始数据进行归一化处理。归一化处理后的数据集分为学习样本和测试样本,用来对BP网络进行学习与测试。
第二步:构建BP网络模型,确定BP网络参数。合理确定网络层数及各网络层的神经元数是成功应用BP网络模型的关键。为使神经网络更加可靠,本文选择隐含层数为2,采用4层BP网络来构建政府开放数据网站评价模型。
本文建构的评价体系包含16个二级指标,评价目标是政府开放数据网站。由此BP网络的输入层节点数定为16个,输出层神经元个数确定为1,神经网络输出值即政府开放数据网站的评价值。我们采用常用的“试凑法”,即根据隐含层节点数的启发式规则,某一隐含层节点数m=log2n,n为神经网络中上一层的节点数,从而我们确定隐含层节点数第一层为4,第二层为2。根据以上分析,BP神经网络模型结构确定为16—4—2—1。
关于BP网络参数作出以下设定:BP神经网络隐含层单元和输出层单元上的激活函数都取为logsig函数,隐含层神经元的传递函数和输出层神经元传递函数都采用S型对数函数logsig,初始权值取在(0,1)之间的随机数,学习速率定为075,期望误差为000010。
第三步:利用Python实现BP神经网络,并用训练数据进行训练。本文通过Python352软件平台开发程序,输入学习样本,读入网络参数,对BP网络进行训练。如果网络运行结果符合要求(训练达到预定学习次数或者误差小于期望误差),则网络训练成功。否则,就要调整网络参数,或输入新的学习样本对网络重新训练。
第四步:利用Pyhton程序对训练好的BP网络进行仿真测试。BP网络训练好后,还必须对它的精确程度加以检验。同样利用Python程序,将测试样本输入到训练好的BP网络中,检验测试误差是否满足要求。如果满足,则网络成功建立。如果测试结果出入较大,则要删除不理想的样本或输入新的样本重新对网络进行训练,得到新的网络权值后再利用测试样本对网络进行测试[11]。
2政府开放数据网站应用分析
样本的有效性是确保评价科学合理的基本条件。为保证网络训练与模型的质量,为使原始数据更加准确、科学,笔者通过比较筛选,选取美国的20家地方网站作为实验对象,如表2所示,本文将其中前12个网站作为训练样本,后8个网站作为测试样本。
针对上文设计的体系指标,定量指标网站总页面数、网站总链接数和Web对象数量、链路完整性、页面返回率和内链数、连通率、下载速度通过软件Maxamine Web Analyst软件进行抓取,搜索引擎收录、访问量、网站评级、网站信任通过站长工具获取;定性指标包括页面友好程度、数据可获性、数据及时性、数据全面性以及最终总评由相关专家进行打分,获得最终的数据。为使数据符合训练过程的函数运算要求,加快训练网络的收敛性,必须首先对所有原始数据进行归一化处理。数据归一化结果保留小数点3位,如表3所示:
笔者选取表2中前12个样本数据作为训练数据对神经网络进行训练。通过Python程序,输入预定网络参数,利用归一化处理后的训练样本对BP神经网络进行训练,经过3075次训练后,网络误差达到预定阈值,其训练误差随迭代次数变化曲线如图1所示,得到网络输出结果与专家总评数据比较如表4所示:
结果表明,8组测试数据的网络输出与专家评价值误差均在设定范围之内,因此基于BP神经网络的政府开放数据网站评价模型训练和预测精度符合要求,是一个合理的、可行的、精度较高的预测模型。因此可以用来评价政府开放数据网站,且能够精准的模仿人类专家的思维方式进行准确的计算,避免人脑的在评价同一事物时会因为情绪的不稳定,而影响评价结果。
3结语
本文首先分析了国内外在政府开放数据网站方面的相关研究,并建立了一套评价政府开放数据网站的指标体系,通过软件抓取和专家打分得到分析数据。在此基础上用BP神经网络算法进行计算得出一个评价结果,将此结果与专家打分结果进行对比,它在合理的误差范围内,表明BP神经网络方法不但能够高效、迅速的进行计算而且满足误差精度的要求,它能够通过非线性的方法考虑评价标准的多样性和不确定性,是一种可以用来评价政府开放数据网站的新型评价工具,具有十分重要的意义。
参考文献
[1]Open data in the United States[EB/OL].https:∥www.data.gov/open-gov/,2016-08-12.
[2]钱晓红,胡芒谷.政府开放数据网站的构建及技术特征[J].图书情报知识,2014,(3):124-128.
[3]侯人华,徐少同.美国政府开放数据的管理和利用分析[J].图书情报工作,2011,(4):119-122.
[4]陈美.美国开放政府数据的保障机制研究[J].情报杂志,2013,(7):148-153.
[5]韩力群.人工神经网络理论、设计及应用[M].北京:化学工业出版社,2007:47-48.
[6]周瑛,刘天娇.基于神经网络的高校图书馆知识服务评价体系研究[J].情报理论与实践,2013,(2):55-59.
[7]CSK Lai,G Pires.Testing of a Model Evaluating e-Government Portal Acceptance and Satisfaction[J].Electronic Journal of Information Systems Evaluation,2010,(1):36-46.
[8]F Palma,SG Hong.Evaluating the Website Performance of Belizes e-Government Portal[J].Journal of Convergence Information Technology,2013,(5):986-993.
[9]A Vetrò,L Canova,M Torchiano,et al.Open Data Quality Measurement Framework:Definition and Application to Open Government Data[J].Government Information Quarterly,2016,33(2):325-337.
[10]Open data barometer global report[R/OL].http:∥boletines.prisadigital.com/Open%20Data%20Barometer%20-%20Global%20Report%20-%202nd%20Edition%20-%20PRINT.pdf,2016-08-12.
[11]贾洁,彭奇志.基于BP神经网络的图书馆电子资源质量评价研究[J].图书情报工作,2010,(21):84-87.
(本文责任编辑:马卓)