中国盐湖产业大数据平台构建研究

2020-06-29 02:42:52李贞贞钟永恒
科技管理研究 2020年11期
关键词:盐湖数据库资源

李贞贞,钟永恒,王 辉

(1.中国科学院武汉文献情报中心;2.科技大数据湖北省重点实验室,湖北武汉 430071)

青海省柴达木盆地富集了盐湖各类矿产资源,基本形成以盐湖化工为龙头、以柴达木地区为核心的循环经济产业体系,成为全国重要的循环经济示范区[1]。随着我国盐湖产业技术水平、产业特色和管理水平的快速攀升,产业发展水平近年不断提高,正在逐步由资源依赖型产业向资本密集型、高技术产业积极转变[2]。在产业转型升级发展的过程中,企业与人才是主导力量和重要依托,研究如何实现科学的招商引智,通过资本运作优化资源配置,吸引国内外战略投资者和优势企业参与产业建设,加快高新技术产品的发展速度,共同做大做强盐湖产业,带动盐湖产业更健康、更生态的发展,将我国盐湖产业建设成为世界级“大盐湖产业”[3-4],对提升我国盐湖产业领域的影响力具有重要的现实意义。

科学决策的基石是科学有效的数据。信息技术的飞速发展使得盐湖产业已存在海量的数据基础,但已有成果数据分散化、多元化、异构化,难以全面揭示不同类型数据资源之间复杂的相互关系,导致尚未形成一套完整的数据共享与分析决策体系[5-6]。为此,我国盐湖产业亟需构建一个产业大数据平台,从产业生态链闭环角度整合数据资源,辅助科学决策,一方面及时全面地反应盐湖产业发展状态,另一方面准确了解我国盐湖产业在全球的发展态势,确定发展方向。中国科学院武汉文献情报中心于2019 年3 月正式启动中国盐湖产业大数据平台(China Salt Lake Industry Big Data Platform)的建设工作,平台以盐湖产业创新发展需求为核心目标,整理全球、全国、全省以及本地区盐湖产业发展的基础数据资源,着力构建盐湖产业政策、盐湖企业、盐湖产业新产品、盐湖产业知识产权、盐湖产业人才、盐湖产业项目成果、盐湖产业研究报告、盐湖产业动态商讯九类数据资源池,为盐湖产业企事业相关管理人员和科研人员提供数据智能检索、数据统计分析、专题报告、知识产权导航等服务,建成特色化的产业大数据平台,实现盐湖产业数据链全覆盖,服务科学决策。

1 盐湖产业大数据平台总体建设思路

1.1 设计目标

在大数据时代的背景下,建立中国盐湖产业大数据平台,实现盐湖产业多维度数据资源管控与数字化建模分析,是指导盐湖产业科学决策的必经之路[7]。本文基于大数据理念及其相关技术,结合盐湖产业特点,依据产业政策、产业经济、企业、知识产权、专家人才等数据规范库,对汇聚的复杂多源异构数据进行规范化,采用大数据分布式存储模式,建立盐湖产业数据共享机制。以中国盐湖产业数据资源池为基础,利用Elastic Search 分布式集群技术实现数据的多维索引[8]9,实现对多类别盐湖产业信息的综合查询。构建中国盐湖产业大数据平台,提供9 类数据资源快速、实时地分析和处理,挖掘盐湖大数据的潜在价值,以期提升盐湖领域相关人员科学决策的时效性和准确性,为盐湖产业的研究开发与创新创业提供信息和服务支撑,实现盐湖产业发展的战略性、跨越式增长。

1.2 总体架构

中国盐湖产业大数据平台以分布式大数据基础平台作为支撑,利用大数据采集与分析挖掘工具,实现盐湖产业数据聚集、清洗、关联、挖掘支持产业决策服务一体化。平台采用多层结构设计,总体架构分为基础设施层、数据中心层和平台应用层。基础设施层主要包括平台建设所需的服务器、存储设备、网络、操作系统等基础设施。数据中心层主要实现数据资源的收集、处理与组织,包括数据集成、数据处理、数据存储和数据分析4 项内容。平台应用层主要实现面向用户的系统建设与功能呈现,为用户提供丰富有用的应用服务。具体架构如图1 所示。

图1 中国盐湖产业大数据平台总体架构

2 盐湖产业数据中心建设

根据上述总体架构,平台数据中心层建设过程主要包含4 项重点内容:数据资源集成、数据处理与整合、数据存储和数据分析与挖掘。通过集成丰富的盐湖产业数据资源,进行多源异构数据的清洗与整合,实现集中、统一、规范的存储管理,分析探索数据的深入利用方法,形成盐湖产业知识,构建科学有效的中国盐湖产业大数据平台。

2.1 数据资源集成

产业数据资源的全面性、准确性、有效性是平台构建的基础,而数据采集策略的制定是数据资源快速、准确集成的关键影响因素[9]。盐湖产业数据集成基于中国科学院武汉文献情报中心海量的产业科技数据,以及强大的数据采集工具和技术,对收集的权威信息源建立全范围的网络舆情监测,实时从互联网的相关网页中采集预设的内容,实现数据资源的多维知识集成,并对抽取出来的网页数据进行内容和格式上的处理,为政府部门、科研院所、科技企业、金融机构等聚焦产业前沿科技、进行科学决策的用户提供有效的数据基础,通过全面化、规范化的数据采集实现盐湖产业从发展态势、最新科技动向、热点研究方向、资源协同到服务创新过程的互联互通。根据产业技术分析理论,盐湖产业数据平台由9 个数据子库构成,即产业政策数据库、产业经济数据库、科技企业数据库、新产品数据库、知识产权数据库、人才专家数据库、项目成果数据库、研究报告数据库、商业资讯数据库。九大类数据资源及具体内容如图2 所示。

图2 中国盐湖产业数据资源池

2.2 数据处理与整合

汇集的盐湖产业数据资源呈现多元化展现,不同信息源数据类型各异、数据质量参差不齐,存在一定的冗余、错误及粗糙数据,因此,对采集获取的多源异构数据进行预处理操作,将良莠不齐的原始数据有效转化成高品质的干净数据尤为重要。数据处理与整合主要是将不正确、不完整和不一致的数据进行过滤和规范,并根据待分析数据的特点对规范后的数据进行归约,将临时数据区的数据经过数据处理后存放到数据资源池,从而确保数据分析与决策过程中的准确性和可靠性[10]。

盐湖产业数据处理与整合围绕9 大类数据主题,每个数据主题对应一个分析领域。核心功能主要包括:(1)数据转换。使用ETL(Extraction-Transformation-Loading,提取-变换-装载)技术对原始数据进行解析与转换,通过编程语言对含有HTML 标签的字符进行解析,快速提取有效数据。(2)数据清洗。实现结构化数据中字段的查缺补漏,相同数据记录的去重与合并,日期、地区等属性的规范化展示,以及复杂属性的拆分与转换。(3)数据标引。采用情报学理论构建盐湖产业知识图谱,自动标引9 类数据资源,实现将采集到的源数据转化为统一标准的情报检索分类格式,客观、正确、合理的揭示数据的主题内容。(4)数据关联融合。将分散在不同主题数据库中的数据资源进行相互关联,生成上下文关联的资源组织体系,实现不同类型数据之间的有效关联。

2.3 数据存储

为实现多源异构数据的高效存储管理,需要搭建具有强大容错能力和扩展性的数据存储架构。Hadoop 分布式文件系统、基于分布式文件系统的No SQL 数据库、分布式数据库H Base、Good Data、对象存储系统等都是目前常用的大数据存储平台,适合捕捉和存储海量数据[11]。针对盐湖产业经济、项目成果、人才专家、企业、新产品等结构化数据,以及政策、知识产权、商业资讯、报告等非结构化文本数据,平台采用分布式并行下大型关系型数据库与非关系型数据库相结合的方式对数据资源进行组织与存储,以满足盐湖产业大数据特征的应用需求。

(1)应用分布式关系型数据库存储结构化数据。采用基于My SQL 的分布式关系型数据库,利用服务器进行容量与性能的横向扩展,构建支持盐湖产业结构化数据存储和访问的数据库系统,满足服务场景对大容量、高并发、高可靠的需求。

(2)应用Hadoop 分布式文件系统存储文本数据。Hadoop 是Apache 提供的一个便于编写和运行处理大规模数据应用的软件平台,Hadoop 分布式文件系统(Hadoop Distributed File System,HDFS)为分布式计算存储提供底层支持[12]。针对传统关系型数据库较难处理的数据和场景,实施基于Hadoop的技术扩展与封装,实现对海量盐湖产业文本数据的存储和计算。

(3)应用非关系型数据库存储数据。非关系型数据库(Not Only SQL,No SQL)具有高效的开发效率、强大的扩展能力、低廉的开发成本和灵活的数据模型[12]。平台在网络数据采集过程中,采用基于分布式文件存储的数据库Mongo DB 来存储采集获取的大字符集文本数据,提升数据存储效率。

(4)应用Elastic Search 开源搜索工具构建索引。Elastic Search 是一个支持分布式、多租户、Restful设计的开源搜索工具,提供了一个支持高并发、高可用、易扩展的分布式搜索解决方案,能够提供易用的查询与共享接口[8]35。文本利用Elastic Search对数据资源池中的9 类数据构建索引,加速不同数据资源之间的连接,极大提升查询响应速度。

(5)应用缓存机制存储热数据。平台通常存在小部分需要被频繁访问的热数据,如类型、年份、总量等。为了减轻数据库的访问压力,采用Memcache 缓存加速机制,将热点数据提前缓存在内存中,而不用每次都去数据库中读取,从而提高整个平台的访问速度。

2.4 数据分析与挖掘

数据分析与挖掘是大数据应用的核心内容,涉及统计预测分析、自然语言处理、基于神经网络的深度学习、人工智能等前沿技术[13]。平台数据分析与挖掘分为统计分析模型和数据挖掘。统计分析模型可通过统计模型、分类模型、关联模型等对数据进行多维度的统计和预测,发现盐湖产业的发展态势、全球竞争力等。数据挖掘可利用复杂的算法对数据进行训练学习,根据数据特征构建学习模型,使隐藏在数据中的规律和知识显现出来,从而实现对数据潜在应用价值的深入挖掘。数据分析与挖掘应用主要包括产业计量分析、文本信息抽取、人才精准推荐、个性化服务和可视化呈现,具体内容描述如下。

(1)产业计量分析。通过产业分析方法和数据计算,多维度进行产业经济分析、企业分析、关键技术分析、政策分析等,解释盐湖产业所处发展阶段及其在国民经济中的地位,预测并引导行业的未来发展趋势,判断投资价值,揭示投资风险,为政府部门、投资者及企业提供决策依据。

(2)文本信息抽取。文本信息抽取是利用自然语言处理和深度学习技术,自动识别出中文文本关键词和关键句。采用深度学习技术,对经过数据预处理的文本数据进行Word2Vec 词向量模型训练[14],得到文本词汇和句子的向量化表示,并利用机器学习算法自动抽取出文本关键词和关键句,实现产业政策、专利、商业资讯的智能化关键词提取,以及智能化文摘等功能。

(3)人才精准推荐。围绕盐湖产业发展定位,整合产业、企业和专家人才数据信息,分析关键技术在全国的分布与趋势,并结合区域产业基础与优势,分析亟待解决的关键技术瓶颈,从而勾勒出有价值的人才和企业画像,全方面、多维度分析企业与人才的关联信息,最终实现潜在目标人才的精准推荐,决策支撑招才引智服务。

(4)个性化服务。个性化服务是根据平台访问用户的浏览记录和个性操作,对用户进行有针对性的资源推送服务。平台实时记录用户的行为足记,使用标签高度精炼每位用户的特征标识,通过标签的整合准确勾画用户的立体画像,并采用聚类算法聚合同类型的用户群体,根据同类型的其他用户画像发现其潜在感兴趣的数据内容,为用户进行个性化推送服务。

(5)可视化呈现。数据可视化呈现利用可视化技术,将数据表转换成图形展示出来,使用户能够直观地观察到数据本身以及数据之间的关联关系[15]。平台采用由百度开发的E Charts可视化图表库,直观、生动的呈现盐湖产业数据,使用折线图、柱状图、饼图等展示发展趋势、组织模式等,使用热力图、关系网络图、矩形树图等展示复杂的相互关系,帮助用户对数据进行深入的观察和分析。

3 盐湖产业大数据平台功能建设

根据盐湖产业数据资源的具体服务需求,中国盐湖产业大数据平台分为数据智能检索模块、数据统计与分析模块、产业专题报告模块和产业知识产权导航模块,具体功能如图3 所示。

图3 中国盐湖产业大数据平台功能模块

(1)数据智能检索。平台提供盐湖产业数据资源池中数据的智能检索功能,检索结果即席显示。数据智能检索功能模块针对不用用户群体的知识能力差别和行为习惯,提供了简单检索、高级检索和专业检索3 种检索方式,检索形式与关键字按照数据库建设规范设置,检索结果提供针对搜索内容的复杂关联和统计信息。同时,能够根据用户经常检索的关键词进行联想形成词库,通过文本相似度计算将相似度较高的数据资源精准推荐给目标用户。为实现海量数据的快速搜索,选用Elastic Search 进行大规模数据集的存储和索引工作,构建了一个稳定可靠的分布式多用户能力的全文搜索引擎。

(2)数据统计与分析。盐湖产业数据统计与分析功能模块包括数据统计分析、产业链分析、产业经济分析、关键技术分析、产业政策分析和盐湖产业分析六项内容。数据统计分析是指数据不同维度的基本统计,包括各类数据资源的总体数量、专利年度发展态势、企业地理位置分布、经济发展趋势等。产业链分析是指绘制盐湖产业当前的产业链布局,从产业链各个节点的发展合作情况分析盐湖产业格局。产业经济分析通过汇聚盐湖领域企业的经济收入情况,分析展示盐湖产业的经济发展趋势。关键技术分析通过对获取的盐湖产业相关前沿技术进行分析,了解企业对前沿技术的适用度。产业政策分析实现对盐湖相关政策内容进行标签定义和关键词抽取。盐湖产业分析通过产业分析模型,研判盐湖行业所处的发展阶段,洞悉影响行业发展的关键因素和行业影响力度,预测盐湖产业的未来发展趋势。

(3)产业专题报告。专题报告功能模块为不同的服务对象提供定制报告。首先,为政府部门提供盐湖产业发展报告,通过大量的一手调研和产业基础数据资源,对盐湖产业当前基本状况进行详细分析,主要包括产业概述、产业发展历程、产业政策、产业链、产业现状与格局、行业发展趋势以及市场容量、销售增长率现状及趋势预测等;其次,为科研机构人员提供盐湖产业科研报告,包括盐湖领域有关科研项目调查、研究成果与进展、知识产权概况相关报告,将知识服务贯穿于科研活动的整个流程;最后,为企业提供盐湖产业新产品市场分析报告,通过盐湖产业市场调查和供求关系预测,分析市场规模、市场竞争、区域市场及市场走势,根据盐湖产业新产品的市场环境、竞争力和竞争者,科学研判产品在限定时间内是否有市场,为新产品进入市场的营销战略和投资策略提供科学依据。

(4)产业知识产权导航。知识产权导航功能模块围绕中国盐湖产业高端发展目标和知识产权分析需求,构建知识产权分析框架,从产业链、供应链及价值链方向上,充分了解竞争者框架、市场信号变化趋势和产业内主流技术的演变。该模块基于盐湖领域知识产权情报构建盐湖产业知识产权图谱,清晰展示盐湖领域技术构成及各分支技术点;通过实时监测国内外企业的知识产权动态,对企业最新知识产权动态进行预警;解析企业在盐湖产业知识产权保护的技术空白点和技术热点,揭示企业的技术发展轨迹以及技术研发的热点演变轨迹。最终,形成围绕盐湖产业的知识产权分析报告,为支撑中国盐湖产业技术创新发展提供知识产权情报服务。

4 结语

新经济、新业态、新动能的蓬勃发展,推动中国盐湖产业升级和转型,中国盐湖产业大数据平台的构建对提升盐湖产业发展效率起到了基础性战略性作用。本文描述了中国盐湖产业大数据平台的建设总体架构与主要功能模块,重点围绕数据中心和平台功能建设中的关键问题,给出具体的解决思路和方案。在数据中心建设阶段,基于海量盐湖产业数据,构建产业政策、产业经济、科技企业、新产品、知识产权、人才专家、项目成果、研究报告、商业资讯9 大类数据资源,对不同类型的数据进行严格的数据质量控制,并实现对大量多源异构分散的数据进行分析,挖掘数据的应用价值。在平台功能建设阶段,突破过去数据领域单一性视角进行基本的检索、统计与分析,深度挖掘盐湖产业不同数据之间的关联性,实现了多维度的产业技术分析。

面向未来,平台将依据盐湖产业需求,持续进行数据资源建设与数据规范化建设,在解决盐湖产业数据收集、更新和分析挖掘中关键问题的同时保障数据质量,为知识发现服务和科学决策提供有效支撑。同时,进一步探索和完善盐湖产业学术知识图谱的构建,以及基于语义级别的深度挖掘,实现知识层面的数据集成与融合,为各类信息机构提供全方位的情报决策服务,助力我国盐湖产业的快速发展。

猜你喜欢
盐湖数据库资源
天空之境——新疆柴窝堡盐湖
地理教学(2022年10期)2022-05-23 09:45:06
基础教育资源展示
山西运城:冬日盐湖色彩斑斓
科学导报(2020年80期)2020-12-21 11:54:32
一样的资源,不一样的收获
资源回收
如冰如雪,貌美盐湖
资源再生 欢迎订阅
资源再生(2017年3期)2017-06-01 12:20:59
数据库
财经(2017年2期)2017-03-10 14:35:35
数据库
财经(2016年15期)2016-06-03 07:38:02
数据库
财经(2016年3期)2016-03-07 07:44:46