吴继英 薛艳杰 张一凡
(江苏大学 财经学院,江苏 镇江212013)
统计数据是国家的基础性战略资源,是政府决策的重要依据,对学术研究具有重要意义。有学者指出,国内权威的经济学刊物——《经济研究》近15年发表的文章中70%以上是实证研究论文(甘犁和冯帅章,2019)[1],高质量的实证研究成果离不开高质量数据的支撑。我国高校科研工作者通常从政府统计部门或专业数据库(如Wind数据库)获取研究数据。与市场上各类数据库相比,统计部门发布的数据基本免费且相对全面,同时又最具权威性[2],因而成为高校用户获取数据的重要途径。此外,考虑到部分用户对微观统计数据的需求,国家统计局建立了微观数据实验室,但由于访问实行申请制且对申请对象有条件限制,大多数高校科研工作者访问该实验室比较困难。大数据时代公众对政府数据公开的诉求日渐强烈,但公开发布的政府数据是否能够有效满足科研工作者的数据需求,用户对获取数据的过程和获取的数据质量是否满意,影响科研用户数据获取满意度的关键因素有哪些,都是当前亟待调查研究的问题。
随着大数据技术和电子政务的发展,有效满足公众的数据需求对建设数字政府具有重要意义。李丽等(2010)指出高校科研工作者是数据获取的弱势群体,在数据获取方面存在诸多困难,尤其是针对微观数据,高校师生由于缺乏畅通的渠道和足够的经费,数据需求往往不能得到充分满足,一定程度上限制了学术研究的深度与广度,不利于科学研究的长远发展[3]。但目前聚焦高校科研用户统计数据获取满意度的研究成果比较少,相关研究多是围绕数据用户和数据质量评价展开研究,莫祖英和邝苗苗(2020)提出了基于用户视角的政府开放数据质量评价指标体系[4]。张文文(2019)从用户角度对政府统计数据质量进行了综合评估。也有学者关注数据用户满意度的研究成果[5],程开明(2013)提出用户对统计数据质量的主观感知与满意特征是一种可行的统计数据质量外部评估方法[6]。王华和金勇进(2010)结合统计数据质量研究用户满意度[7]。康萍和崔晓会(2015)从用户满意度视角研究统计数据质量[8]。现有研究评估用户数据满意度大多从制度的规范性、方法的健全性以及数据的准确性、适用性、一致性、及时性、可得性、可解释性等方面设计测评量表(李晓彤等,2018[9];孙俐丽和袁勤俭,2019[10]),通常采用传统的问卷调查方法,以用户需求为导向展开相关调查研究,国外已有多个国家开展了此类调查研究(Ehling Mand Krner T,2007[11]),研究方法比较成熟。
综上,现有关于用户数据满意度的研究多关注用户的满意度视角下的数据质量评估,鲜有研究聚焦高校科研用户在数据获取方面的满意程度,且缺少用户数据获取满意度影响因素的路径分析。本文以高校科研用户为调查对象,对科研用户统计数据获取满意度的涵义进行界定并分析其影响因素,参考已有数据质量框架从数据获取过程和数据质量两方面设计用户数据获取满意度测评量表,然后运用结构方程模型对数据获取满意度的影响因素进行路径分析,揭示关键影响因素,并提出提高数据获取满意度的对策建议。研究成果有助于改进政府数据发布工作、改善科研数据环境,对提高政府统计服务能力具有现实意义。
统计数据获取满意度是指数据用户对统计数据获取过程和数据质量的满意程度。数据质量这里是指数据在使用过程中满足用户特定需求的程度[12],不仅包括准确性,还涉及获取数据的及时性、可理解性、可比性等属性。换言之,数据质量高低直接影响着数据用户的满意度[13],因此数据获取满意度的影响因素直接对应于数据质量包含的内容。西方发达国家的统计数据质量评估体系已相对成熟且具有代表性,欧盟统计局的《欧洲统计业务守则》从数据相关性、准确性和可靠性、一致性和可比性、可得性和清晰度五个角度管理数据发布质量[14]。加拿大统计局从相关性、及时性和准时性、准确性和可靠性、可获取性和清晰性、可解释性、一致性和可比性六个主要维度定义数据质量[15]。我国国家统计局制定的《国家统计质量保证框架》从统计的准确性、及时性、可比性、一致性、适用性、可获得性和经济性七个方面对统计数据生产全过程进行评价[16]。学术界在该领域比较有代表性的是Dalenius T[17]和Brackston G[18],两位学者都将准确性、及时性、相关性作为统计数据质量的评估维度。随着研究的深入,评估维度越来越丰富,涉及准确性、时效性、适用性、可比性、可衔接性、可理解性、完整性、简便易操作性、透明性、可取得性、有效性、客观性和用户满意度等(李盼,2011[19];蒋清泉,2017[20])。
不同学科、不同用户需求和不同研究目的,对统计数据质量有不同的理解和评判尺度,但基本都认可数据质量应涉及数据准确性、及时性、适用性、可比性、可获取性和完整性等方面。基于此,确定影响高校科研用户数据获取满意度的因素包括数据可得性、准确性、时效性和可比性。此外,结合对部分高校师生就数据获取过程中存在问题的访谈结果,增加“数据获取速度”和“数据公开性”两个因素,用于评估数据获取过程中用户的直观感知。最终确定六个因素为用户数据获取满意度的影响因素,并以此作为用户数据获取满意度的评估维度,具体如表1所示。
表1 高校科研用户数据获取满意度影响因素
“数据可得性”是指数据用户通过不同途径查看数据、获取数据的可行性。统计数据的获取方式应灵活多样,若用户可以通过政府网站、统计年鉴等形式收集到所需数据,则数据的可得性强,用户的数据获取满意度就高,因此提出研究假设H1:
H1:“数据可得性”对高校科研用户数据获取满意度有正向影响。
“数据获取速度”为获取数据所需要的时间,即从查找数据开始至数据导入用户工作环境所用时间,该指标和政府统计数据发布的规范性、数据获取的方便程度等方面相关,例如政府在门户网站公开统计年鉴电子版,若能链接到年鉴的Excel版,数据获取速度会快,数据获取满意度就高。提出研究假设H2:
H2:“获取数据速度”对高校科研用户数据获取满意度有正向影响。
“数据公开性”指政府数据对外公开发布的程度,也指用户有权限获取数据的程度,是数据获取的前提条件。政府统计数据开放程度越大,用户可接触的数据范围越广,数据需求越容易满足,用户满意度就越高。提出研究假设H3:
H3:“数据公开性”对高校科研用户数据获取满意度有正向影响。
“数据准确性”体现了统计数据信息的客观真实性[16]。用户信赖政府统计数据发布工作,将数据准确性视为数据获取的第一要求,若统计数据不能有效反映现象的实际情况,便不能充分保证科研工作者学术研究的科学性和理论价值,因此提出研究假设H4:
H4:“数据准确性”对高校科研用户数据获取满意度有正向影响。
“数据可比性”是同一指标在不同统计资料中可以相互比较的程度,主要为同一指标数据在时间维度和空间维度的可比性。当科研用户需要时间序列数据或横截面数据时,数据在时间维度上应具有连续性,不同来源部门的同一指标数据要具有一致性。所以数据可比性在一定程度上也影响着数据的准确性,如果国家统计局和地方统计局公布的某一指标数据差异较大,会显著影响用户对数据准确性的感知,因此提出研究假设H5和H6:
H5:“数据可比性”对高校科研用户数据获取满意度有正向影响。
H6:“数据可比性”对“数据准确性”有正向影响。
“数据时效性”反映政府统计数据是否及时发布,取决于统计数据更新的频率。数据时效性影响高校科研用户研究成果的时效性和解决实际问题的参考价值,如统计数据能及时更新,科研用户便可以研究最新的经济现象,所以数据时效性越高数据获取满意度越高。同时数据时效性对数据准确性也产生影响,例如个人居住地信息发生变更,若数据不能及时更新,旧数据信息在新时期的准确性将不能保证。综上提出研究假设H7和H8:
H7:“数据时效性”对高校科研用户数据获取满意度有正向影响。
H8:“数据时效性”对“数据准确性”有正向影响。
结构方程模型(Structural Equation Model,SEM)是一种研究多变量之间关系的统计模型,一般包括测量模型和结构模型。构建SEM模型研究各因素影响用户数据获取满意度的作用路径,为此把“数据可得性”“获取数据速度”“数据公开”“性数据准确性”“数据可比性”和“数据时效性”六个因素作为外因潜变量,把“数据获取满意度”作为内因潜变量,同时还有十个观测变量,具体见表2。
表2 潜变量与观测变量设计
基于表2中的变量设计调查问题,除数据获取“方式多样性”对应问题的答项设置为统计部门年鉴或网站、其他相关部门(如商务部、科技部、行业协会等)的网站、学校数据库、自己调查或实验所得、他人研究成果(如论文、研究报告等)和其他六个选项,其余问题答项均采用李克特五级量表法设置答项,比如“获取方式满意度”对应问题答项为“非常不满意”“不满意”“一般”“满意”和“非常不满意”五个选项,“数据公开性”对应问题答项为“非常不希望”到“非常希望”五个选项。赋值规则为:“非常不××”为1分,“不××”为2分,“一般××”为3分,“××”为4分,“非常××”为5分;其中“方式多样性”变量按受访者勾选的选项数累加赋值,一个选项1分。
各观测变量的数值均以受访者所选的选项对应李克特五级量表赋值法则下的分值表示。潜变量“数据可得性”下设的两个观测变量是关联变量并非相互独立的两个变量,即受访者回答的“获取方式满意度”是针对“方式多样性”问题中的选项。由于受访者获取数据的方式不尽相同而使该问题的回答不具可比性,因此由受访者本题选数据获取方式的满意度得分加总,再除以其所选取的获取数据方式的总数,得到的均值作为“数据可得性”变量的数值,并在结构方程模型中直接将其作为观测变量使用。
受访者的身份、研究领域等背景问题与表2中的核心问题共同构成高校科研用户数据获取满意度调查问卷,借助问卷星平台于2020年6月对江苏某高校展开问卷调查,问卷有效回收率为99.07%。受访群体由教师、博士研究生、硕士研究生、本科生和其他科研工作者构成,占比分别为20.56%、6.54%、54.21%、16.82%和1.87%。高校教师与研究生群体是数据的主要使用者,这两类用户占比较大,样本具有较高的代表性。运用SPSS23.0软件对调查数据进行信度和效度检验,潜变量“数据可比性”和“数据获取满意度”的 Cronbach’s α 值分别为0.443和0.653,均大于0.350,问卷整体的 Cronbach’s α系数为0.796,高于标准值0.600,说明总体数据具有较高的信度。问卷整体 KMO值为 0.842,介于0.8—0.9之间,且Bartlett球形检验值为0,小于0.005,表明变量适合进行因子分析。进而采用最大方差法进行因子旋转,根据特征根大于1提取公因子,累计方差贡献率为91.337%,说明这七个潜变量能够有效分析问卷所要验证的问题,问卷结构效度较高。
根据研究假设构建结构方程初始模型,观测变量“时间维度的连续性”和“不同来源部门数据的可比性”是外因潜变量“数据可比性”的观测变量,分别用x1、x2表示;“数据获取工作满意程度”和“数据满足科研需求程度”是内因潜变量“数据获取满意度”的观测变量,分别用y1、y2表示。通过AMOS24.0软件得到初始模型的适配结果,卡方值(CMIN=113.680)较大,显著性水平p值为0.000小于0.05拒绝原假设,表示假设模型的协方差矩阵与观测数据不一致;模型适配指标 CMIN/DF、GFI、AGFI、RMSEA 等也均未达到最优,未通过拟合优度检验,说明初始模型拟合较差,需对初始模型进行修正。
主要根据修正指标M.I.值由大到小并结合各个变量的实际意义进行模型修正,在相应变量间建立相关关系,最终得到的修正模型如图1所示。模型修正后卡方统计量(CMIN=23.912)较初始模型降低,对应的伴随概率P值0.158大于0.05的显著性水平,不能拒绝原假设,表示假设模型的协方差矩阵与观测数据相互匹配。修正模型的拟合优度检验结果如表3所示,各项指标均已达标,修正模型通过拟合优度检验,模型总体拟合效果较好。
表3 修正模型拟合效果指标
图1 修正模型
修正模型的标准化路径系数估计值和显著性检验结果如表4所示。
表4 标准化路径系数及显著性
结合图1和表4可知,直接影响“数据获取满意度”的六条路径中,“数据可得性”的路径系数(p值为0.421)不显著,表明数据可得性不是数据获取满意度的主要影响因素,假设H1不成立。原因可能是目前用户已经可以通过政府网站、统计年鉴或统计公报等多种形式获取数据,较强的数据可得性能够满足用户需求,故不再显著影响数据获取满意度。其他五条路径均在10%的显著性水平下显著,研究假设H2、H3、H4、H5、H7成立,说明获取数据速度、数据公开性、数据准确性、数据可比性、数据时效性对数据获取满意度具有显著的正向影响,这五个因素与政府统计数据发布工作紧密关联,改善政府统计数据发布工作制度将显著提升高校科研用户的数据获取满意度。
“数据可比性”对数据获取满意度的影响最大(路径系数为0.426)。在实际获取数据的过程中,用户对时间序列数据或关联项目数据的需求相对较多,若不同来源数据缺乏较高的可比性,用户对数据产生质疑会严重降低数据获取的满意程度。并且“数据可比性→数据准确性”的路径系数显著为正,表明数据可比性对准确性有显著的直接正向影响,研究假设H6成立。
“获取数据速度”(路径系数0.296)和“数据准确性”(路径系数0.229)的影响也较大,是数据获取满意度的重要影响因素。高校科研工作者在学术研究中产生数据需求时,若数据能够在尽可能短的时间内收集到,数据需求能快速得到满足,数据获取的满意程度就较高。数据准确性对用户科研成果的价值至关重要,对满意度的影响也相对较高。
“数据时效性”(路径系数0.200)和“数据公开性”(路径系数0.179)对数据获取满意度的影响相对较弱,因为我国已高度重视数据发布工作,政府统计部门对数据发布时间和发布范围有明确、严格的规定并有固定的时间规律,用户也普遍接受这一规律,且数据更新频率相对较高,时效性已基本满足用户的预期,因而对数据获取满意度的影响相对较小。此外,“数据时效性→数据准确性”在10%的显著性水平下未通过检验(p值为0.249),表示当前政府统计部门数据的时效性对数据准确性的影响已经较小,假设H8未通过检验。
综上所述,研究假设 H2、H3、H4、H5、H6、H7 通过检验,H1和H8未通过检验,具体见表5。此外,表4还显示观测变量y1和y2对潜变量“数据获取满意度”均有显著正向影响(路径系数分别为0.680、0.697),表明从“数据获取工作满意程度”和“数据满足科研需求程度”两方面测度用户统计数据获取满意度是适合的。
表5 研究假设的检验结果
聚焦高校科研用户,运用结构方程模型分析统计数据获取满意度的影响因素,研究结果表明:数据公开性、数据时效性、数据可比性、数据准确性和获取数据速度五个因素对数据获取满意度产生显著的正向影响,其中数据可比性、获取数据速度和数据准确性的影响较大,是关键影响因素,数据时效性和数据公开性的影响相对较弱。为改进政府统计数据发布工作,提高科研用户数据获取的满意度,促进我国科研事业发展,提出以下建议。
在统计事业发展过程中,政府统计部门一直在改善统计数据发布工作,统计服务能力不断提高。但目前由于不同部门统计指标口径不一致、统计方法变更等问题,削弱了数据可比性,给高校科研用户的研究工作带来困扰。前述实证结果显示提高数据可比性能够极大地提高数据获取满意度,具体可从来源和时间两方面着手:各级政府统计部门应尽量统一指标含义、数据口径和发布频次,提高关联数据的一致性;当统计方法或技术发生变化,需要更新时间序列数据时,应尽可能回溯较长时间[21],保证时间序列数据的连续性。
随着电子政务的发展,当前政府部门重视通过网站发布统计数据,使用网站的便捷程度对公众数据获取速度产生一定的影响,因此政府部门需要对数据发布平台加以管理,由“能用”提升为“好用”,也可以建立和完善Robots协议,方便用户采用爬虫等技术获取数据。同时,政府数据涉及广泛、内容较多,政府部门应将数据严格管理分类,可以在特定网站公布不同统计数据的获取途径,减少数据搜集的时间成本,提高数据获取速度。
区块链技术具有可追溯性,能确保数据真实不可篡改。区块链技术的运用有助于政府统计部门监管数据收集、整理、发布的每一个环节,同时要完善相关的法律法规打击数据篡改、造假行为。此外,提高基层统计工作人员的文化素质和专业技能,有助于推进统计工作更加高效和专业化,从源头上保证数据真实性。
研究显示,数据时效性对高校科研用户数据获取满意度影响显著,政府部门可以充分运用大数据和云计算等技术,缩短数据生产、发布时间,从而减少用户获取数据等待时间,这对科研用户及时做出有价值的学术成果具有重要意义。政府部门还应及时更新数据信息,制定数据发布计划并严格按照计划执行,提高数据发布频率,尽可能满足用户对数据的强烈需求,促进我国科研事业发展。
政府拥有海量的数据资源,大数据时代公众对这些资源的公开诉求愈渐强烈,数据公开与数据隐私之间的矛盾也逐渐显现[22]。因此政府部门应优化统计数据发布机制,可尝试在保证数据隐私的基础上,采用有偿公开或借助计算机编码隐藏重要信息的形式,公开发布暂时不全面开放的数据资源,特别是公众需求较多的微观数据,主动扩大使用范围,以满足科研用户更广泛的数据需求,助推科研用户取得更多有价值的科研成果。