基于大数据的科技管理信息分析与可视化应用研究

2024-12-31 00:00:00杨一帆焦长春
河南科技 2024年9期
关键词:科技管理数据分析大数据

摘 要:【目的】大数据时代科技管理信息种类多、数量大,给科技管理工作带来了全新的挑战。传统数据分析方法效率低、工作量大,难以满足分析需求,急需新型科技管理信息分析方法。【方法】提出一种基于大数据的科技管理信息分析方法,运用大数据技术对科技管理信息进行数据预处理;设计数据分析模型,通过模型对数据进行分析;最后运用数据可视化技术展现分析结果。【结果】该方法可对各类科技管理信息进行融合分析,解决数据孤岛问题,打造全省科技管理数据一张图。【结论】该方法可提高大数据时代科技管理信息的分析效率,为科技管理工作提供数据参考。

关键词:大数据;科技管理;数据分析

中图分类号:G353" " "文献标志码:A" " "文章编号:1003-5168(2024)09-0153-05

DOI:10.19968/j.cnki.hnkj.1003-5168.2024.09.032

Analysis and Visualization Application of Science and Technology

Management Information Based on Big Data

YANG Yifan JIAO Changchun

(The Scientific amp; Technological Information Center of Henan, Zhengzhou 450000, China)

Abstract:[Purposes] In the era of big data, there are many types of technology management information and a large amount of data, which brings new challenges to technology management work. Traditional data analysis methods have drawbacks like low efficiency and heavy workload, which are difficult to meet the needs of analysis. Therefore, new technology management information analysis methods are badly needed. [Methods] Firstly,this article proposes a technology management information analysis method based on big data, which uses big data technology to preprocess technology management information; secondly, a data analysis model is designed to analyze the data; finally, the analysis results are displayed by data visualization technology. [Findings] Practice has proven that this method can effectively integrate and analyze various types of science and technology management information, solve the problem of data silos, and create a map of science and technology management data for the whole province. [Conclusions] This analysis method can improve the efficiency of analyzing technology management information in the era of big data, thus providing data reference for technology management work.

Keywords: big data; technology management; data analysis

0 引言

随着科技的快速发展,伴随科技管理工作产生的科技管理信息数据越来越多。这些数据大多是由不同的科技业务管理平台产生的,存储在不同的数据库中,数据种类繁多,数据结构、格式也多种多样[1]。由于数据来源与获取方式有限,传统的数据分析方法得到的往往是单一业务类型的数据,对不同业务数据无法进行融合分析;传统的数据分析方法只对数据进行简单的统计计算,得到统计数据的占比、走势等,难以深度挖掘数据的潜在价值。当前,世界已进入大数据时代,大数据处理技术具有速度快、分析方法多样化以及高复杂性和变化性等特点,打破了科技管理信息间的数据孤岛,深度挖掘科技管理信息的潜在价值,提高数据利用率,为科技管理工作提供了数据参考。

1 大数据与科技管理概述

1.1 大数据的定义与特性

随着互联网技术的发展,从社交媒体账号到物联网传感器,再到科学研究的数据,数据量的产生和积累呈现爆炸式增长[2]。全球每天的数据量高达数十亿GB,且涵盖多个领域。科技管理信息的数据量也随着科技的发展急速增长。大数据是无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,具有更强的决策力、洞察发现力和流程优化能力的新处理模式,才能处理海量、高增长率和多样化的信息资产。新处理模式具有4V特点,即Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)[3]。大数据已成为企业、政府和学术界关注的焦点,随着信息时代的深入发展,大数据将会继续影响和改变我们的生活和工作方式。大数据的应用领域广泛,包括但不限于商业分析、医疗保健、科学研究、社交媒体、金融等领域[4]。

1.2 大数据时代科技管理工作面临的挑战

在大数据时代,科技管理工作面临着多方面的挑战。首先,数据的数量不断增加,使得科技管理需要处理的数据量呈指数级增长。这种增长不仅体现在数据的数量上,还体现在数据的复杂性和多样性上。结构化和非结构化数据都在快速产生,加剧了数据的复杂性。这使得科技管理部门越来越难以管理、存储、分析和保护其数据。其次,数据质量也是科技管理面临的一大挑战。不一致、过时、缺失、错误、难以辨认和重复的数据可能会降低整个数据集的质量。这种数据质量问题可能引发严重的大数据问题,给管理部门带来错误、低效和误导性的见解,最终影响决策的质量和效果。再次,大数据的来源多种多样,集成难度大。不同的数据源可能具有不同的格式、结构和质量标准,使得数据集成变得复杂且困难[6]。这就要求科技管理工作具备更强大的数据处理和整合能力,以确保数据的准确性和一致性。最后,大部分科研管理单位对大数据时代的认识不够充分,仍维持着保守、僵化的管理思想,难以深入发掘大数据的价值。同时,管理单位也缺少相应的信息分析技术,存在存储空间有限的局限性,使得数据研究工作难以有效开展。

1.3 大数据在科技管理工作中的应用价值

大数据在科技管理工作中的应用价值体现在多个方面,为科技管理工作带来了显著的改进和效益。大数据在科技管理工作中的主要应用之一是规范数据管理。在科技项目管理过程中,海量的结构化和非结构化数据产生,通过大数据技术的运用,可以对这些数据进行清洗、加工和统一规范标准,形成科技大数据的标准化管理。这有助于更好地利用这些数据,提升科技管理工作的效率和质量。大数据在科技管理工作中的另一项重要应用是开放数据共享。科技大数据的数据来源广泛,包括科技项目申报、科技成果公开、共享科技资源、科技文献、科技政策公开等方面。大数据技术可以实现多源数据的融合和共享,促进科技资源的共享和利用。这有助于推动科技创新发展,提升整个科技领域的竞争力。

此外,大数据还为科技管理工作提供了精准决策支持。通过对大量数据的分析和挖掘,可以揭示科技发展的趋势、规律和模式,为科技管理部门的决策提供科学依据。这有助于优化科技资源配置,提升科技投入的效益,推动科技创新和产业升级。

2 基于大数据的科技管理信息分析方法

典型的大数据处理流程可分为:数据采集、数据处理与集成、数据分析、数据展示4个阶段。数据采集就是从不同的数据源收集数据;数据处理与集成是对采集的数据进行去重、去噪、补缺处理,对数据进一步集成存储;数据分析是根据业务需求,采用适当的方法或模型,对数据进行分析;数据展示是采用图表等可视化工具,对分析结果进行展示。本文认为,数据采集、处理与集成可统称为数据预处理。因此,基于大数据的科技管理信息分析的基本步骤是:首先,对数据进行预处理,对处理后的数据统一存储;其次,建立数据分析模型,运用数据分析模型对数据进行分析,得到分析结果;最后,使用数据可视化工具对分析结果进行可视化展示。

2.1 数据预处理

科技管理信息数据来自各个科技管理业务系统,直接对这些来自不同系统中的原始数据进行处理存在若干问题:

①存在重复数据。在对各业务系统的数据进行集成时,由于各业务系统可能对同一实体数据在字段定义、格式、名称拼写上存在差异,导致同一实体数据存在多条不同的数据记录,会导致产生错误的数据分析结果。因此,在对科技管理信息数据进行分析前,需对数据进行去重处理。

②数据格式不同。各业务系统中的数据格式定义各不相同,数据库版本、操作系统版本的不同,都会导致数据结构的不同。

③数据缺失。在各业务系统中,由于系统的设计缺陷、操作中的人为失误、隐私信息保护等原因,往往会存在缺失数据,这些数据的值被标记为空、“unknown”“1”或其他空值符号。这些缺失数据会对分析结果造成影响。

为解决以上问题,要对科技管理信息数据进行分析,构建统一的数据仓库,对原始数据进行数据预处理。

①统一数据格式:数据抽取、转换、装载(Extract, Transformation, Loading, ETL)是构建高质量数据仓库的重要步骤。借助ETL工具,可以将数据从不同的数据源中抽取出来,并按照用户的要求,对数据格式进行转换、合并处理,统一数据格式,存入统一数据仓库中。常用的ETL工具有:Oracle Warehouse Builder(OWB)、Data Transformation Services(DTS)、Kettle、CloverETL、Flume等[5]。本文选用开源的Kettle作为ETL工具。Kettle是一款使用Java语言编写的开源ETL工具,可在多个版本的操作系统中运行,安装简单,支持多种数据库,并且提供用户操作界面,使用方便。

②重复数据清洗。为提高数据的准确度,提高数据分析速度和效率,需要对重复数据进行清洗。最简单的清洗方式是把每一条数据都与其他数据进行对比,从而发现重复数据。这种方式虽然效果很好,但计算复杂度较高,在实际分析中这种方法的效率很低。目前比较普遍的重复检查方法是基本近邻排序算法(Basic Sorted Neighborhood Method, SNM)[6]。该算法的核心思想是:根据指定的关键字,对数据进行排序;设置一个大小固定的窗口,在排序后的数据集上移动,仅比较窗口内的数据。基本步骤如下。

①数据排序:选取一个字段作为关键字,对数据进行排序,使重复数据尽可能在相邻区域内。

②合并去重:设置一个大小为m的窗口,在已排序的数据上依次滑动,将每一条进入窗口的新数据与窗口内的其他m-1条数据对比,剔除重复的数据,直到窗口滑动至数据集末尾。

③缺失数据清洗。缺失数据清洗是大数据分析的必要步骤,缺失的数据会影响数据分析的准确性。

目前,缺失数据的清洗方法可大致分为两类:①基于数据填充的缺失数据清洗方法。②忽略不完整数据的缺失数据清洗方法。

基于数据填充的缺失数据清洗方法是运用数据填充算法,生成近似值来替换缺失数据。数据填充算法有很多,可分为以下几类。

①基于统计学方法的数据填充算法:这类算法主要是通过对原始数据集进行假设,利用原始数据集的统计学特征填补缺失数据。常见的算法有:回归分析算法、最大期望(Expectation Maximization, EM)填充算法、多重插补算法等[7]。

②基于机器学习方法的数据填充算法:这类算法是基于机器学习的方法,对缺失数据进行分类或是聚类。其中分类算法是先构造一个分类器(Classifier),使用分类器对缺失数据进行分类,再在每一个类别中对缺失数据进行填补,但当缺失属性过多时,会导致分类过多,造成填补效率低;聚类算法则是对缺失数据进行聚类,划分成多个簇,在每个簇内根据相似度进行数据填补,缺失属性不会影响簇的数量。具有代表性的算法有:k-最邻近(k-Nearest Neighbor, k-NN)分类填补算法、贝叶斯网络填补算法、k-means聚类填补算法[8]。

③人工填补法:人工填补就是由数据维护者自行人工对缺失数据进行填补,这种方法无疑是最准确的。但如果缺失数据比较多,那么这种填补方式的工作量将会非常大。

科技管理信息对数据的准确性要求非常高。在数据填报时,省市区三级科技管理部门会对填报数据进行层层审核。因此对于科技管理信息的缺失数据,可直接联系相关单位进行询问填补,人工填补较为便捷。综上所述,为保证数据分析的准确度,科技管理信息的缺失数据宜采用人工填补的方法进行缺失数据清洗。

经过数据预处理后的原始数据,即可存入数据仓库内。在大数据背景下,科技管理信息的数据量大,常见的MySQL、SQL Sever等关系型数据库,随着存储数据量的增大其性能下降,无法满足大数据时代科技管理信息数据仓库的需求。Hadoop数据仓库是使用Hadoop分布式文件系统(Hadoop Distributed File System, HDFS)构建的分布式数据存储系统,具有高可靠、高性能、高扩展性的特点,是大数据时代最常用的数据仓库框架[9]。本文选用Hadoop作为科技管理信息的数据仓库,便于后续对数据的分析利用。

2.2 数据分析模型建立

在单个科技管理业务系统中,由于数据是单一业务的数据,所以对科技管理信息的分析也往往是单一主题、单一维度的分析。借助大数据技术将各个业务系统的数据集成在一起,可以实现对科技管理信息的多主题、多维度分析。根据科技管理信息的数据内容,须先对模型进行统计主题预设,以便对相应主题数据进行分析。目前科技管理信息数据涵盖的主题有:

①科技创新统计包括研究与发展(Ramp;D)人员数、每名Ramp;D人员研发仪器和设备支出、有Ramp;D活动的企业占比、研发经费投入、研发经费投入强度、万人Ramp;D研究人员数、企业Ramp;D研究人员占比、Ramp;D经费支出与GDP比值、地方财政科技支出占地方财政支出比重、专利授权量、技术市场成交合同数、技术市场成交额、财政科技支出、财政科技支出占一般公共预算支出比重。

②创新平台统计包括实验室、工程技术研究中心、新型研发机构、野外科学观测研究站、技术转移示范机构、国际科技合作基地。

③创新企业统计包括创新龙头企业、瞪羚企业、高新技术企业、国家级科技型中小企业。

④创新人才统计包括两院院士、中原学者、领军人物、国家计划。

⑤科技创新载体统计包括孵化器、大学科技园、众创空间、专业化众创空间、星创天地。

⑥科技园区统计包括高新区、农业科技园区、可持续发展实验区。

针对不同的主题,可选用不同的维度,其中通用的维度是时间维度和地区维度。这两个维度限定了区域和时间,可获取某一区域在某个时间某个主题的统计数据;也可不对主题进行限定,获取该区域该时间的全部数据。也就是说,该模型具有3个参数,分别是主题、时间和地区。通过输入这3个参数,在大数据仓库中进行查询计算,得到相应的统计结果。

目前,用于大数据分析的工具有很多,其中,Hadoop大数据框架集成了MapReduce计算引擎。但MapReduce计算引擎需要将中间的计算结果写入磁盘中,这将会导致非常频繁的磁盘IO(Input Output),从而影响计算性能,因此MapReduce适合大规模的离线计算分析[10]。Spark计算引擎是一种基于内存的大数据计算引擎,其中间计算结果可以直接写入内存,这大大提高了实时分析的计算速度。并且支持Java、Scala等编程语言,同时提供了Spark SQL工具,对于简单查询计算,仅需要编写SQL语句便可完成,降低了开发难度。因此,模型采用Spark计算引擎,设定3个模型参数,对科技管理信息进行统计分析,得到的分析结果存入数据库中。

2.3 分析结果可视化

通过数据模型得到的科技管理信息分析结果,可以直接存储到普通的关系型数据库中。这里选用MySQL数据库。数据可视化的工具多种多样,Apache ECharts是一种开源的、基于 JavaScript的可视化图表库。其内置了折线图、柱状图、饼图等多种图表,以及地图、日历、提示框等组件,拥有丰富的动画效果,支持多种数据格式,可以满足大数据科技管理信息分析结果的可视化展示要求。分析结果可视化采用MVC(Model、View、Controller)设计模式。简化了设计流程,提高了开发效率。

3 实践与应用

本文提出的基于大数据的科技管理信息分析方法,运用于河南省科技服务综合体信息管理平台上,可从多个维度对多个主题的科技管理信息数据进行统计分析,并使用数据可视化技术进行展示。

图1为2021年河南省科技创新统计图,可直观展示河南省各地市万人研究与发展(Ramp;D)人员数。

除了以年份为维度,对各地市按照不同主题进行统计分析,也可以以地区为维度,对各统计主题的趋势进行分析。以河南省全省实验室统计数据为例,图2为全省实验室(包括省实验室、省级重点实验室、省级国际联合实验室)历年统计数据,横坐标为年份,纵坐标为实验室数量,可以直观地看到全省实验室的建设趋势。

河南省科技服务综合体信息管理平台运用本文所提出的基于大数据的科技管理信息分析方法,对全省各地市科技管理信息数据进行分类统计分析。通过该方法,可直观地掌握各地市的科技发展情况,打造全省科技数据一张图,为科技管理部门决策提供数据参考。

4 总结

本文提出了基于大数据的科技管理信息分析方法,采用该方法对科技管理信息原始数据进行数据预处理,包括数据格式统一、重复数据清洗、缺失数据清洗,将处理后的数据存入Hadoop数据仓库;建立数据统计分析模型,运用Spark计算引擎进行统计分析;最后运用数据可视化计算,借助ECharts数据可视化工具,对分析结果进行展示,实现对各科技管理业务系统数据的融合分析。

参考文献:

[1]刘晓晨, 王卓昊. 基于大数据环境的科技管理数据集成平台研究[J]. 情报学报, 2021(9): 953-961.

[2]李国杰, 程学旗. 大数据研究:未来科技及经济社会发展的重大战略领域—大数据的研究现状与科学思考[J]. 中国科学院院刊,2012,27(6):647-657.

[3]严霄凤, 张德馨. 大数据研究[J]. 计算机技术与发展,2013,23(4): 168-172.

[4] FRANKEL F,REID R. Big data: Distilling meaning from data[J]. Nature, 2008, 455(7209): 30-30.

[5]徐俊刚,裴莹.数据ETL研究综述[J]. 计算机科学, 2011, 38(4): 15-20.

[6]MAURICIO A,HERNÁNDEZ, STOLFO S J. Real-world data is dirty: data cleansing and the merge/purge problem[J].Data Mining and Knowledge Discovery, 1998, 2(1):9-37.

[7]LITTLE R J A,RUBIN D B. The analysis of social science data with missing values[J]. Sociological Methods amp; Research, 1989, 18(2-3): 292-326.

[8]YU J. General C-means clustering model[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(8): 1197-1211.

[9]何健伟. 基于Hadoop的数据挖掘算法研究与实现[D]. 北京:北京邮电大学, 2015.

[10]李建江,崔健,王聃,等. MapReduce并行编程模型研究综述[J]. 电子学报, 2011, 39(11): 2635-2642.

猜你喜欢
科技管理数据分析大数据
加强科技管理,促进科技与经济的有机结合
艺术科技(2016年10期)2016-12-14 00:07:35
有效运用科技管理提升物业服务水平的途径探讨
中国市场(2016年41期)2016-11-28 05:41:10
Excel电子表格在财务日常工作中的应用
浅析大数据时代背景下的市场营销策略
新常态下集团公司内部审计工作研究
中国市场(2016年36期)2016-10-19 04:31:23
浅析大数据时代对企业营销模式的影响
基于大数据背景下的智慧城市建设研究
科技视界(2016年20期)2016-09-29 10:53:22
科技管理信息化建设的思考
科技视界(2016年17期)2016-07-15 10:46:53
针对加强企业科技管理工作的探究
企业导报(2016年10期)2016-06-04 11:36:00