科技政务大数据管理与挖掘平台设计

2021-05-25 05:26符宁

软件导刊 2021年5期

符宁

（上海万达信息系统有限公司政务事业群，上海 201112）

0 引言

随着互联网技术的发展，社会生产和生活产生了大量的数据，这些数据已成为一种新型的信息资产。大数据具有大量（Volume）、高速（Velocity）、多样（Variety）、低价值密度（Value）和真实性（Veracity）的特性［1］，其含义早已超越了数据规模定义，更代表着信息技术进入了一个新时代。需要新技术和新方法将大规模数据中隐藏的信息和知识挖掘出来，提高运行效率，提高整个社会经济的集约化程度［2-3］。

由于大数据处理需求的迫切性和重要性，近年来大数据技术受到学术界、工业界和各国政府的高度重视。美国和欧洲一些发达国家政府从国家科技战略层面提出一系列大数据技术研发计划，并开放交通运输、天气、健康等方面的核心公共数据库［4］，以推动政府机构、重大行业、学术界和工业界对大数据技术的研究与应用［5-7］。目前大数据应用还处于初级阶段，描述型和预测型分析应用居多，决策指导型应用很少，而且大数据应用的广度和深度明显不足［8］。

政务领域是大数据技术的一个重要应用场景。随着相关技术在该领域的应用，政务大数据表现出以下几个明显发展趋势：

（1）政务决策科学化。把大数据技术运用到政府决策与管理中，能够为决策提供依据，优化政府决策以及跟踪决策实施，使决策更加精准。

（2）管理精细化。大数据促进政府设置更为详细的绩效指标体系，进一步对关键难点指标进行深度分析，使实时绩效测量成为可能，有利于优化资源配置，提高整体绩效。

（3）服务个性化。大数据技术能够整合多源数据，通过大数据分析挖掘算法，为政府、企业和民众提供个性化服务。

（4）运转协同化。大数据技术可以帮助政府建立一个跨部门、跨平台、跨数据结构的信息处理平台，促使政府各部门实现数据共享。

科技政务大数据管理和应用中，除了存在大量的结构化数据汇集管理以外，还存在与之相关的信息量更庞大的半结构化和非结构化数据，诸如流媒体、图片、知识产权、科技文献等。政府科技管理部门职能包括贯彻执行科技相关法律法规、制定政策和计划、编制并实施科研项目等，建设了项目管理、行政审批、行政运行等应用系统，这些系统存在以下问题：①服务决策弱。信息化工作处于“流程软件”开发阶段，难以进行特征分析、科技运行态势研判等，不能为科技宏观决策提供大数据决策支撑；②个性化需求无法满足。各个处室业务工作嵌镶在4 大综合办公业务平台系统中，但系统的个性要求难以满足，降低了应用系统的适应性；③各子系统相互独立，整体性差。调研结果显示各个系统之间没有数据交互，各自为政。

本文立足政府的政务数据建设成果，通过研究国内外政务大数据采集、汇聚和运营管理机制与应用模式，着眼各级政务体系中的数据互联互通和共享共用，加强大数据应用的顶层设计，对已有政务数据运行模式充分调研，构建一个适用于科技管理的平台，在研究中逐步推演有价值、能落地的模型和方法。

1 相关工作

大数据技术相关研究较多，如大数据的治理平台［9］和大数据技术转移平台［10］等，但这些研究没有针对具体的业务进行调整，没有面向政务进行适配。文献［11］设计了一套由基本政策、具体政策、保障政策等构成的政府数据开放体系；文献［12-14］针对政务大数据的共享、集成、治理等提出了相关框架；文献［15］强调了政务领域多部门的信息协同化，期望构建无边界化的智慧政务；文献［16］设计了政府大数据的高性能计算框架，完成数据的分布式存储和访问、多任务管理和运行；文献［17］研究了政务异构数据融合过程中网络安全的监测方法，实现安全数据的全自动化采集、人工智能的安全事件分析和分析结果的多维度场景化展示；文献［18-19］以广东省为例展示了大数据技术在政务方面的应用成果。

上述相关研究工作中，文献［9-10］主要阐述普适的大数据技术和平台建设方案，并不针对具体应用场景。本文所提出的科技政务大数据平台是立足于政务领域的现有数据，面向政务应用场景所设计的，更加具有针对性；文献［11，19］主要是梳理大数据技术现状和相关政策，没有展示具体技术实现，其他文献只涉及政务大数据治理的一个方面，例如只包括数据存储和处理、高性能计算、大数据安全、上层应用、智慧政务平台推进机制中的一项，而本文的大数据平台涵盖了完整的数据链路，从数据产生到数据存储和预处理到数据分析与挖掘，以及上层应用的完整过程；文献［14］的研究内容与本文最为接近，但其主要研究了数据的汇聚和共享技术，数据的分析和挖掘主要体现在人口流动状况分析方面，与本文的应用场景和分析挖掘技术不同。本文研究面向科技政务场景，设计了相关的大数据治理和挖掘平台。与上述相关工作比较，本文创新性地提出了多时间粒度的残差网络预测模型和基于深度神经网络的科技政策推荐模型。

2 平台框架

科技政务大数据研究主要面向科技信息系统，需要将共享获得的数据加以清洗、分析、整合和利用，建立一套运行管理机制，包括采集方式、数据清理、数据检查、质量分析及更新相关工作。本文提出科技政务大数据管理与挖掘框架，如图1 所示，包括科技政务数据采集、面向科技政务的大数据服务平台和应用示范3 个部分。

2.1 科技政务数据采集

数据采集指利用Web、App 或者传感器等形式搜集数据，并将数据通过网络上传并保存到数据库中，其主要特点是数据多源异构和数据规模大。本文结合科技部门业务和科技政务数据特点来设计数据采集方式。

科技部门是主管科技工作的政府部门，其主要职能包括：起草、制定、贯彻执行与科技工作相关的法律、法规、规章、方针和政策；制定和组织实施科技发展规划；负责科技重大专项的组织实施和综合协调平衡；制定人才发展规划和相关政策等。其产生的科技政务数据主要来自如图1 中框架底层科技政务数据资源所示的几个方面：科研项目管理系统的项目申报记录；行政审批系统的办事记录；行政运行系统的员工考核等数据；科技114 平台的用户访问数据；国家层面和其他部门的外部数据；网络获取的辅助数据等。

Fig.1 The framework of big data platform for the science and technology administration图1 科技政务大数据平台整体框架

新型的科技政务大数据框架的数据采集过程需要考虑采集方式、传输协议、保密3 个方面的问题。采集方式可以包括用户填写、门户网站提供、传感器获取等。考虑不同数据特征，还需要选取合适的传输协议，如针对传感器网络获取的数据，由于其数据冗余度高、数据量大，需要选取有自组织性，支持动态拓扑、功耗低的数据传输协议；而针对项目信息等的传输，数据量不大，可以选取高可靠性的协议。对于比较隐私的内容，需要考虑对传输数据进行加密。

2.2 大数据服务平台

本文设计了面向政务的大数据服务平台，进行接收数据、存储数据、挖掘信息、安全保护工作，并对外提供统一访问接口。

首先，科技政务大数据资源中心接收来自不同系统的数据，并对这些多源异构数据进行初步处理，涉及到数据接口的访问控制和数据融合；然后，利用分布式数据库或者分布式计算集群来对存储于其内的海量数据进行普通分析和分类汇总，以满足常见的分析需求。在数据存储过程中还需要对数据进行一些治理工作，如数据的清洗、数据融合等。构建科技政务大数据分级分类资源目录，形成全局化的数据资源视图。

科技政务大数据智能计算平台利用人工智能、机器学习、模式识别等理论对数据进行分析和处理，从而获得数据中隐含的知识。比如，分析企业发展时序数据中的因果关系，挖掘企业发展过程中多种因素之间的相互关系等。

2.3 应用示范

设计新型应用，将科技政务大数据技术落到实处，可以为政府制定科技政策、布局科技战略、指导科技发展提供支持，从而提升我国产业的科技竞争力，达到政务决策科学化、管理精细化、服务个性化的目的。根据应用所针对的使用对象，可将政务大数据应用分为三大类，即面向政府的科技决策、面向企业的科技扶持和面向人才的科技培育。面向政府应用主要是提供有效的数据分析和可视化操作，为科技部门的宏观决策提供大数据决策支撑；面向企业的应用主要关注的是企业相关科技政策和项目推荐。根据企业特征个性化推荐相关政策内容，降低企业工作量；在面向人才的应用中，针对人才的特点进行个性化项目推荐，进行人才认定，分析人才成长路径等。

3 面向科技政务的大数据服务平台架构

面向科技政务的大数据服务平台主要包括科技政务大数据资源中心和科技政务大数据智能计算平台。

3.1 科技政务大数据资源中心

科技政务大数据资源中心用于科技政务大数据的统一存储，对数据初步处理，为上层应用提供统一访问接口。如图1 所示，科技政务大数据资源中心分为5 个功能模块：①多源异构科技数据整合汇聚模块；②科技大数据资源池模块；③多源高维数据治理模块；④科技数据分级分类资源目录模块；⑤科技数据访问控制模块。

首先要把多源异构的科技政务数据进行整合汇聚，涉及的数据总体分为关系数据、平面数据两大类，采用不同的技术与方式实现对数据的整合汇聚。关系数据是主要的业务数据源，数据量巨大，每日更新的数据量也很大，包括公文流转记录、行政审批专家评分、科研项目申报信息等。平台利用基于大数据技术的数据采集工具Sqoop，根据时间戳标志定时访问数据源，将最新的科技数据导入平台。平面文件数据带有一些格式化索引，但数据量的主体是无格式的平面文件。把平台文件加载到HDFS，同时将文件索引信息插入到索引数据表中。

本文提供分布式文件系统（HDFS）、关系数据、内存数据库、列式数据库等不同的数据存储方案，保障基于此数据的应用（或分析）能够获得良好的性能和使用体验，形成全量数据存储、专题库。专题库划分为政策法规库、科技项目库、专家库、科技人才库、企业信息库、知识产权库、成果转化库等，以方便科技人员使用。

多源高维的科技政务大数据在数据分析应用前要进行处理，因为其可能存在某些域的缺失以及异常值等。本文设计了多源高维数据治理模块，对存储在科技大数据资源池的数据进行数据清洗和数据质量评估，以提高存储数据的质量，方便对其进行分析应用。

设计科技政务大数据分级分层分域的数据管理体系与机制，研究多源异构业务数据资产统一描述、管控、展示方法，通过对数据的业务属性、数据量级等信息进行描述，根据业务逻辑对数据资产进行目录分层，实现数据资源的分级分类，形成科技政务大数据资源目录，然后提供给科技政务大数据智能计算平台进行数据挖掘，服务科技管理部门各业务科室、外部委办局等不同用户。

建设数据访问审计功能，在数据访问之前部署安全审计工具，在数据访问过程中持续生成多方可信的原始审计数据，为数据访问全流程的回溯与取证服务提供支持。

3.2 科技政务大数据智能计算平台

科技政务大数据智能计算平台在科技政务大数据资源中心基础上进一步处理科技政务大数据，并使用数据挖掘技术对科技政务大数据进行分析与挖掘。

科技政务大数据智能计算平台包括以下6 个模块：

（1）自动问答引擎。面向科技政务的自动问答引擎包含知识存储、知识表示、信息抽取、自然语言处理等多方面技术，其体系结构包括问题处理、信息检索和答案抽取3 个部分。根据用户输入的问题进行语义分析，寻找知识库中的相关文档和结果，排序后展示给用户。

（2）语义分析引擎。以科研项目管理系统、行政审批系统、互联网等多源异构数据为基础，构建实体与文本的对应关系。语义分析引擎会面向人才、专家、企业等实体进行简历、报告等描述文字的语义分析，提取研究方向、科技成果、科研评价等，面向政策文件提取战略目标、战略任务等，建立实体关联关系。

（3）科技创新知识图谱。帮助使用者透视科技领域知识体系结构的形成、关联与演变，洞察社会进步与技术更替、企业发展以及人才、政策等资源的多方关系，构建人、时间、技术等多维度视角的知识表示网络，活动分布与竞争的最新态势与趋势，使研究者能概貌与深入了解和发现科技发展、研究前沿以及新兴、热点领域、学术水平等重要信息，并从科技研发、产业需求等方面精准筛查具有产业价值的科技创新成果。

（4）推荐引擎。在电子政务方面的研究与应用还比较欠缺，尤其是针对科技政务，政府每年都会出台很多政策，对企业和各行业的人才进行资助或者扶持，但是用户对政府的政策和服务关注较少。政府政策和服务涉及社会各行各业，种类繁杂，导致用户获取与自己相关的政策和服务信息比较困难。本文设计了为企业推荐相关科技政策、为人才推荐相关项目、为政府推荐合适的项目评审专家等功能。

（5）预测模型。是对数据、标签之间的关系进行建模，挖掘出量化的时间变化关系、变量因果关系等，从而对未来发展进行科学预测。建立企业成长预测模型，对区域内科技企业的成长偏向、成长潜力等属性进行预测分析。

（6）特征画像。分为人才画像、专家画像、企业画像3部分，采用的技术均为“用户画像”。用户画像标签在证据强度上分为两层：①强数据标签：主要是直接获得的具有比较强的证据作用标签；②弱数据标签：利用人工智能算法所构建的统计类、预测类标签。

4 科技政务应用设计

科技政务大数据应用包括面向政府的科技决策、面向企业的科技扶持和面向人才的科技培育。

4.1 面向政府的科技决策

本文通过对科技发展趋势的预测、对科技投入绩效的分析以及对人才的发现和评定，为政府制定科技政策、布局科技战略、指导科技发展提供支持。

科技发展趋势预测及布局利用面向科技政务的大数据服务平台整合科技政务数据资源，运用科技创新知识图谱、人才画像、企业画像等大数据技术，帮助科技管理部门了解企业和学术界的研究应用热点，洞察科技企业特色与优势、调配区域人才科研力量、预测科技发展趋势，综合评价科技资源布局合理性，为科技部门制定政策和发展规划提供依据。

科技投入绩效分析应用示范需要建立完整的评估指标库，除考虑科技投入和产出的经济效益指标或财务指标外，还必须考虑生态效益指标和社会效益指标，切实关注科技创新对生活质量、资源节约、环境优化及社会和谐的正面与负面影响。

基于事实型数据挖掘实现科技专家评价与发现，通过梳理现有科技系统专家库，收集非体制内、非高校等人才信息，如科技小巨人企业、高新技术企业技术骨干等信息，运用大数据手段，从专业人才库中挖掘专家人才，多角度分析判断不同人才的技术能力，建立专家数据挖掘与分析数据模型，对现有专家进行评定，从被动主观的挖掘评价模式转化为主动、较客观的挖掘评价模式，为专家挖掘与评价提供参考。

4.2 面向企业的科技扶持

本文通过企业成长预测、科技政策推荐为企业提供科技支持。针对科技类企业进行成长预测，主要考察科技领域企业近期、远期的发展规划、目标与措施，科技产品的地位与市场竞争能力，企业在科技研发方面投入等。

企业成长预测模型包含4 个部分，如图2 所示，分别为一个信息抽取神经网络和3 个残差深度学习神经网络［20-21］。首先将各企业的财务指标按照时间展开，如图中最上面的块组。考虑到时间序列在不同频率上具有不同特征，如短期的接近性、中期的周期性和长期的趋势性，将不同频率的财务指标拆分组合，构造3 个深度残差网络。利用残差网络深度深和卷积网络范围广的特点，设定每一个网络层数，使其最后一层隐藏层能够学习到最原始输入的所有信息。同时为了确保信息不会丢失，在每一层残差单元中缩减时间步长时同时考虑增加数据维度。3 个残差网络的输出做一次拼接操作并接入全连接网络学习组合后的特征。此外，将企业相关的额外信息通过嵌入层与上述残差层输出相加，经过激活函数得到预测值。企业可根据下一阶段的预测值确定自身成长趋势；政府可将多个企业的预测值进行排序，选出最有影响力的企业。

本文基于某省市所有企业历史月营收数据（2017-2019 年）验证该模型的有效性。以该省市所有企业的最后一个月营收作为测试集，其他数据作为训练数据。实验结果显示，本文提出的方法相比于经典的ARIMA 模型在预测误差指标MAE 上降低约12%。

Fig.2 Structure of the proposed prediction model图2 预测模型结构

科技政策推荐应用示范有用户画像、科技政策库、推荐算法3 个重要模块。推荐引擎把用户模型中兴趣需求信息和科技政策库中的特征信息匹配，同时使用相应的推荐算法进行计算筛选，找到需求方可能感兴趣的科技政策信息推荐给企业和个人。

4.3 面向人才的科技培育

通过人才成长路径分析和人才服务推荐，基于科技政务大数据管理平台，创建面向人才的科技培育应用，提高科技核心竞争力。

科技人才成长路径分析，从人才管理机制角度考虑入职、任用、晋升等环节，完善和更新专家库信息，方便日常工作开展；就人才个体而言，通过构建相关指标，分析人才成长过程所需资源和政策信息，主动提供服务和政策引导，增强科技人才的归属感和满意度。将优秀人才的成长路径作为典型模式，指导他人的科研道路。

人才服务推荐根据用户和企业信息分别画像和抽取特征。对政府发布过的服务和政策采用自然语言处理等方法对内容进行抽象表达，然后根据用户使用过的政府服务历史记录、企业感兴趣的政策记录，使用协同过滤方法对用户和企业分别进行个性化服务和政策推荐［22-23］。推荐系统架构如图3 所示，面向科技政务的大数据服务平台架构分为3 个层面：最底层是科技政务大数据资源中心，汇集各类大数据；第二层推荐系统使用相应的数据接口，获取相应数据。这些数据首先经过预处理模块，比如特征工程等。处理过的数据分别进入政府服务推荐模型和政策推荐模型中［7］。为了更精确地表现用户和企业特点，大数据智能计算平台的画像模块用来获取人才和企业特征，经过推荐模型，提供针对企业和个人的个性化推荐。

Fig.3 Framework of the proposed recommender system图3 推荐系统架构

基于神经网络的推荐模型如图4 所示。以对人才进行政府服务推荐为例，将用户和服务信息作为输入，在第一层的神经网络中分别转换成低维度的向量表达。然后将用户向量和服务向量合并，输入到多个隐藏层叠加起来的网络中，最后输出得到匹配程度的估计值。针对每个用户，使用模型估计得到所有服务的匹配程度，进行排序推荐。

Fig.4 Structure of the proposed recommendation model图4 推荐模型结构

本文以某省市近两年用户访问政府网站政策的数据为基础验证推荐模型的有效性。把每个用户最近访问记录的20%作为测试集，针对每个用户推荐10 项政策文件计算精度和召回率。实验结果显示，本文提出的基于深度学习的方法相比于经典的矩阵分解方法在召回率上要高出8%左右。

5 结语

本文通过对科技政务现有系统和业务的深入研究，发现目前科技政务系统存在的一些缺陷，如多个子系统共存、子系统之间相互独立、信息不能互通；主要以业务流程完成为主，缺乏数据分析和辅助决策的能力；无法面向用户提供个性化服务等。针对这些问题，本文提出面向科技政务的大数据管理和挖掘平台框架，集数据采集、数据管理、分析挖掘和上层应用为一体，推动科技服务便利化。通过数据挖掘组件，特别是提出的基于多时间粒度的企业成长预测模型和基于深度学习的政策推荐模型，有效提升了科技政务系统辅助决策能力和个性化程度。该平台能够帮助政府转变服务理念，创新治理方式，由电子政务向智慧政务升级。在未来的工作中，将结合业务场景和相关数据设计更多的数据分析与挖掘组件，如根据相关企业的发展状况和政策制定情况，客观评价政府对经济的促进能力；根据市民每年事务办理的数目、投诉情况、微博舆论情况等，对政府服务公众能力进行评价等。