符宁
摘 要:政府外事管理办公室的信息系统记录了大量因公出国访问申请和归国总结报告数据。但是针对出国访问数据的治理和分析研究还非常少,而且这些数据的管理和挖掘还面临着数据异构、非结构化等挑战。文章面向因公出国业务数据,设计了一个大数据治理平臺,能够对访问申请和总结报告实现统一的管理,并提出了包含多种组件的智能计算引擎,对数据进行多方位的分析,设计了面向不同用户的多种应用。该平台提升了出国访问数据的治理效果,实现访问成果的有效共享。
关键词:文本处理;数据分析;数据管理;治理创新
中图分类号:TP391 文献标志码:A 文章编号:2095-2945(2020)31-0184-03
Abstract: The information system of the government's Foreign Affairs Office records a large number of data about applications for visits abroad on business and reports on returning home. However, there are scant researches focused on the governance and analysis of overseas visit data, and the management and mining of these data are also faced with challenges such as heterogeneous and unstructured data. Aiming at the data of going abroad on business, this paper designs a big data governance platform, which can realize the unified management of applications for visits and summary reports, and puts forward an intelligent computing engine with multiple components to analyze the data in many directions. A variety of applications for different users are designed. The platform improves the governance effect of data about visits abroad and realizes the effective sharing of visit results.
Keywords: text processing; data analysis; data management; governance innovation
近些年,大数据技术快速发展,在很多领域都得到了广泛应用[1]。探索大数据技术在政务领域的应用,能够有效提升现有信息系统的智能化水平[2-3]。政府的外事管理办公室记录了因公出国访问申请和总结报告数据,其蕴含着丰富的知识[4]。但是,这些数据具有形式多样、非结构化等特点,难以进行统一管理和挖掘,而且目前相关的研究还非常少。建设面向出访数据的大数据分析平台,对于提升出国访问成果分享效果具有重要意义。
1 总体架构
本论文使用某省市的外事管理办公室出国团组申报数据和出访报告数据,构建面向出国访问总结数据的大数据服务平台,实现大数据技术在外事管理办公室因公出国管理业务中的应用。本论文构建如图1的大数据分析及应用平台,具体包括数据采集层、大数据管理平台、智能计算引擎以及上层应用和服务。数据采集层汇聚团组申报数据和归国总结报告数据,以及互联网文本数据。大数据管理平台对数据进行融合、处理、存储并提供访问接口。智能计算引擎是面向不同用户需求,形成智能计算工具和组件。应用和服务层建设面向多种类型用户的大数据应用。
2 数据基础
数据包括团组出国访问申报信息和出访报告数据。团组申报数据是结构化的表格数据,显式包含每次出访的时间、地点、目的、人员信息等。出访报告数据是非结构化的文本数据,包含显式的出访时间和单位等信息,以及学习内容和成果等隐式信息。互联网上爬取文本数据作为辅助信息,促进自然语言处理方法的训练和使用。
3 大数据平台
基于政府的外事管理办公室因公出国访问申报信息和出访报告数据,大数据管理平台需要设计相应的存储和管理机制。包括数据访问控制、分布式数据全量存储、数据治理、专题数据库、索引和接口等几个模块组成。
大数据管理平台首先要从外事管理办公室现有系统中获取结构化的组团申报信息和非结构化的出访报告文本。数据访问控制模块需要与现有的系统相兼容,在不干扰业务正常运行的情况下,实现周期性地、定时地从现有管理系统中获取组团申报信息和出访报告数据。
大数据具有数据规模大、数据类型多样的特点。本论文借助Hadoop的HDFS等分布式存储平台,在保证数据安全存储的基础上,实现数据的快速访问。本论文还结合MapReduce等分布式大数据处理技术,实现对大数据的分布式快速处理,降低每台服务器的负载,提升系统任务处理的吞吐率。
在将数据存储到相应的数据库之前,需要对数据进行预处理。数据治理方法主要包括格式标准化、数据清洗等组件。对于数据的存储要定义合适的数据格式,如时间、地点信息的存储等。数据清洗包括删除不完整的记录、去除冗余数据、发现异常值等。针对缺失的数据字段,可以使用数据缺失值填充技术,借助均值、最大最小值、默认值等对数据进行补全。
对于结构化团组申报数据,可以使用关系型数据库存储。对于非结构化数据,即访问报告,借助一些非关系型数据库,包括Redis、MongoDB、HBase等[5],根据列或者键进行索引,能够有效提升数据查询效率。
针对外事管理办公室的公派出国访问数据,大数据管理平台设计多种数据库进行存储,有针对性地选择数据库和建立索引,并对上层提供统一访问接口。
4 智能计算引擎
智能计算引擎利用自然语言处理技术,构建多种数据挖掘组件,实现对因公出国访问大数据的智能化分析和挖掘。智能计算引擎主要由分词及字典构建、关键词生成和索引、实体识别和关系抽取、报告质量评估模型、文本分类、情感分析、报告检索和排序、主题模型、编解码摘要生成模型等几个模块组成。
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。现有的分词方法主要分为:基于字符串匹配的方法、基于理解的方法、基于统计的分词方法。常用的字典构建方法主要包括CBOW和Skip-gram,字典的构建是进行分词、实体识别和抽取的基础,其中基于字符串匹配的分词方法,也称为基于词典的分词方法,是应用最广泛,分词速度最快的分词方法。
对关键词进行索引,可以大幅加快检索、推荐的速度。模型输入是分词过后的所有在数据库中的报告,每篇报告包含的是词序列,输出的是一个建立完成的索引。
实体识别的任务在于识别出待处理文本中的命名实体,包括实体边界识别和确定实体类别两个子任务。关系抽取是自动识别由一对概念和联系这对概念的关系构成的相关三元组。关系抽取包括传统关系抽取和开放域关系抽取,传统关系抽取的任务在于给定实体关系类别,给定语料,抽取目标关系对,其评测预料为质量高的专家标注语料。
报告质量评估模型对每一篇报告的质量进行评估。接收的数据是底层经过预处理和分词操作的文本数据以及结构化的申请表信息,输出的是对该报告的具体评分。
文本分类使用机器对文本集按照一定的分类体系或标准进行自动分类标记,是朴素贝叶斯分类方法。文本分类的核心方法为首先提取分类数据的特征,然后选择最优的匹配,其流程通常为预处理、文本表示及特征向量、构造分类器、分类。文本分类基于分词和实体识别与抽取的上层方法。
情感分析是对一个主观的文本分析判断说话者的情感色彩或者褒贬态度。整个情感分析模型接收的是经过分词和字典映射后的词向量序列,输出的是具有强烈褒贬情感的句子,以及整篇报告的情感倾向。
在对关键词建立索引之后,每个键(key)对应的值(value)都是一个列表或者类似的容器,其中存储的是一系列出现过这个键的报告。对于不同的关键词,每篇报告的权重是不同的,整篇报告与被搜索的关键词的联系越紧密、被点击的次数越多,相应的权重也应该越高。
主题模型是以非监督学习的方式对文集的隐含语义结构进行聚类的统计模型。其主要被用于对文本的表征进行降维、按主题对文本进行聚类。
编码-解码模型(encoder-decoder模型)利用编码的方法将原始数据转化为特征向量,将特征向量通过解码器再次转化为序列的形式输出,生成对应的摘要。
5 应用和服务
借助智能计算引擎,本论文设计了摘要生成、报告质量评估、出访成果检索与推荐、出访目标设计与推荐、出访成果分析等几项示范应用。
摘要生成应用面向平台的所有用户,提供其所检索的、为其推荐的等所有展示给用户的出访报告的内容摘要,包括该报告的撰写人、组团名单、出访日期、出访地点以及简易概括的出访目标和出访收获。该功能的提出旨在避免用户为找到目标出访报告而重复的点击进入详情页面,多次浏览出访报告全文的繁琐,给出每篇报告的摘要,用户可凭摘要信息快速地了解每篇报告的主要标签和内容,排查掉与所找目标无关的报告,从而准确地锁定自身想要查看的报告,在节约用户查找时间的同时提高用户体验。该应用将依赖于智能计算引擎部分的分词及词典构建、实体识别和关系抽取、主题模型、编解码模型等关键技术。
出访报告质量评估应用基于既有的报告质量评估模型,对报告的内容覆盖面、报告撰写质量等方面进行评估,给出评分,根据评分各管理层用户可以根据报告质量给予适当的鼓励,或者向报告质量降低的单位重新索取归国报告。出访报告质量评估也是对用户进行高质量的报告推荐的基础,系统自动将评分较高的报告推荐给用户或者展示着近期高质量的报告榜单中,供平台用户查看。
出访成果检测和推荐应用适用于所有浏览网页的用户,该应用的主要功能是允许用户输入一个或多个关键词,之后根据用户输入的关键词,进行检索,返回与检索的关键词相关的数据库中的报告,并且与关键词的关联度越高、报告的访问量越高、质量评估的结果越好,相应的检索排名越高。这部分需要使用的是分词之后的报告文本,以及建立完成之后的关键词索引,和排序模型。同时,在用户搜索较为模糊的关键词,如“教育”时,系统会根据搜索的关键词以及用户的个人注册信息如性别、年龄、职业等,进行更有针对性的推荐。这一部分除了需要用到索引和排序模型外,還需要使用主题模型输出的结果以及文本分类的结果。相比于现有的出访检索模型,该模块不再单纯按照报告的时间进行排序,而是给出不同的影响因子进行排序,支持个性化的推荐。
出访目标及方法推荐会根据用户的注册信息和现有的申请信息进行针对性的推荐。该应用主要面向正在申请出访的用户,旨在向用户提供同领域或类似领域的近期出访报告,或根据用户的信息推荐类似职务的他人近期的出访报告,由此为用户的出访行程提供建议和参考。这部分需要利用文本分类模块对已有的报告文本进行分类,根据每篇报告的所属类别以及用户的个人信息进行筛选,之后根据报告质量评估系统对筛选后的报告进行评估,并向用户推荐评估质量较高的报告。在显示推荐列表时,系统会根据报告检索和排序给出的结果依次显示结果。
出访报告的类别是多样化的,很多时候仅通过搜索关键词或者利用文本分类的结果无法得到细粒度的统计结果。因此这一部分旨在提供更细粒度、多层次的出访成果的分析。这一应用主要面向的群体是高层人员,用于月、季、年度的出访成果统计。相比于现有的统计,该应用将提取文本中隐藏的信息,并利用这些隐藏的信息,做到更准确、细粒度的统计。该应用需要用到的是智能引擎中的所有技术,整合这些技术之后得到一个多层次的成果分析。
6 结束语
我国目前正逐步加快政务的信息化进程,也在探索大数据技术在政务领域的应用,提升政务信息系统的智能化水平。本论文基于各单位的出访数据,构建了大数据管理与分析平台,实现对出访数据的管理与挖掘,有效提升了访问成果的分享效果和出访经费利用率。
参考文献:
[1]顾荣.大数据处理技术与系统研究[D].南京大学,2016.
[2]崔昭彦.我国政务信息系统的大数据建设[J].电子技术与软件工程,2018(08):158.
[3]龚炜.一套基于人工智能技术的政务服务平台设计[J].中国科技信息,2020(12):57-58.
[4]董倩.苏州公安电子出入境管理问题及对策研究[D].苏州大学,2018.
[5]葛微.大数据索引和查询优化技术与系统研究[D].南京大学,2019.