陈晓玲 张世彤 孙伯贻
摘要:文章为研究机构和科研人员提供基于科技大数据的整合应用服务,实现产业领域数据的融合应用,建立产业专题库达到支撑数据的灵活调用。借助数据可视化和知识图谱等技术,实现多种信息来源、多元科技大数据的统一检索、图谱检索与可视化展示,搭建了具有多功能的智能化管理服务平台。实践证明:基于产业专题库的科技大数据平台的研发实现了资源共建共享,为用户提供统一的、综合性的、专题性的产业技术领域知识服务、知识导航、可视化分析等功能,提升了产业关键技术服务能力,提高了领域科研人员的科研水平。
关键词:科技大数据;融合应用;情报服务;应用研究
中图分类号:TP391.1;G350 文献标志码:A文献标志码
0 引言
随着大数据时代的来临,利用大数据应用共享和分析挖掘等技术手段,促进科技大数据的服务带动作用,为政府、机构、科研人员等提供基于科技大数据的整合应用平台是政务信息服务水平提升的途径之一[1]。通过信息化建设,实现科技统计、科学数据、成果数据、科技政策等多方向的科技大数据实时收储,实现领域数据的融合应用,支撑数据的灵活调用,为科技服务工作提供数据支撑和数据保障。众多科研人员或学者开展了很多关于机构知识库[2]、科学数据管理[3]、数据服务[4]等方面的服务研究,但是缺乏支撑产业创新发展的科技大数据应用服务平台建设等方面的相关研究。如何打破数据烟囱、信息孤岛与碎片化应用,实现科技大数据融合应用、信息共享互通已成为当务之急,一体化科技大数据融合应用平台的建设已成为大势所趋。
1 总体架构设计
根据平台的建设需求,将平台进行分层设计,分成数据层、服务层、应用层,平台的总体架构设计如图1所示[5]。其中,数据层主要完成第三方数据厂商提供的期刊、学位论文、会议论文、科技报告、产品样品、标准、科技成果、科技政策、人才数据的分析、资源分类、数据字典构建、关联挖掘等,构建科技大数据中心;服务层主要完成数据库管理、分类导航、数据接口、导入导出、资源相似分析、关联分析、知识图谱、大数据可视化等;应用层主要完成资源多维度导航、科技大数据统一检索、专题知识库服务和可视化看板等;并建立平台的数据标准规范体系和安全运维保障。
2 功能架构设计
根据平台的总体架构设计,将平台的功能设计为科技大数据中心和业务应用平台2部分。(1)科技大数据中心需要对外部数据资源进行分析、接入、计算、存储,建立科学合理的内容资源管理体系,利用知识图谱技术对多源异构的数据资源进行知识抽取、知识融合、知识推理,形成符合吉林省产业特色的专题知识库[6],针对性地为科研院所及科技企业提供知识服务,同时提供丰富的统计分析与报表组件,满足不同用户群体对科技大数据的可视化分析需求,基于全面的系统管理功能实现管理上的实时把控。(2)业务应用平台是直接服务用户的窗口,从扁平化、集约化的设计理念出发,提供学科、出版物、机构、年度等多维度导航,方便用户快捷定位到所需科技大数据,基于多源数据资源的融合应用,提供科技大数据统一检 索,解决多渠道信息查询带来的效率问题,以基于知识图谱的智能推送和专题知识库,增加知识获取的宽度和深度[7],实现资源定位精准而全面。通过可灵活选择的可视化组件,满足多角度统计分析需求。
2.1 科技大数据中心
科技大数据中心主要有数据管理、内容资源管理、数据迁移、知识图谱构建、专题库管理、统计分析、系统管理7个功能模块。
2.1.1 数据管理
主要依托外部数据库和自有数据。数据类型主要涵盖期刊、学位论文、会议论文、科技报告、产品样品、标准、科技成果、科技政策、人才數据等。各类数据从数据存在形式上划分,包括结构化数据、半结构化数据和非结构化数据[8]。采用标准化、规范化的存储模式,实现结构化、半结构化、非结构化资源的统一存储、转换和装载。支持不同种类、不同数据源、不同目标库的数据抽取传输,如Oracle、SqlServer、MySQL、Hbase、Hive等主流数据库,XML、CSV、Excel等常用文件类型[9]。数据接入方式有Socket方式、ftp/文件共享服务器方式、数据库共享数据方式、Message方式[10]。
2.1.2 内容资源管理
主要建立数据库管理、分类导航管理和数据记录管理。数据库管理包含新建数据库、引入数据库、删除数据库、修改数据库的基本信息、修改库结构、索引字段、数据库发布、数据库备份、恢复等。分类导航管理主要进行分类导航的添加、编辑、删除和配置导航下的分类,以及配置分类下的数据库数据。数据记录管理是对记录的增加、删除、修改管理,包含元数据的增加、删除、修改、引入等以及数字对象的查看、管理、上传,数据记录查重、访问级别设置等功能。
2.1.3 数据迁移
在充分了解现有资源后将资源进行梳理,需要采用“数据迁移”对现有数据进行迁移整合。数据迁移就是把数据从某个地方按照一定的规则转移到另外一个地方,方便统一存储、统一支配和统一检索,即数据迁移与同步[11]。为了达到统一存储和处理,同时又保障用户以前的数据,特别是保障以前的大量而珍贵的数据,又能使用新的统一平台提供的强大功能,必须把数据迁移到统一处理平台上[12]。
2.1.4 知识图谱构建
通过知识图谱相关技术应用,建立科学、合理的知识图谱处理流程,最终形成专题知识图谱数据。专题知识图谱数据通过基于图的数据库系统进行存储[13]。同时,知识图谱构建系统具备人机交互界面,能够进行实体的检索、查阅、修改、删除等,便于实时的维护和更新[14]。
2.1.5 专题库管理
围绕吉林省科技创新需求,重新整合挖掘科技文献基础信息资源,按照分类导航为:现代农业、新能源汽车、生物医药、新材料、人工智能、装备制造业,将数据资源按照吉林省6大主导产业分类并形成专题库,实现科技大数据按专题检索、查看、下载。专题库管理可以进行专题的添加、删除、编辑、配置。专题配置可以对专题下的栏目进行增加、删除、编辑、排序。
2.1.6 统计分析
统计分析功能对多源多类型的科技大数据各项指标进行统计分析,以便掌握大数据资源储备和应用情况,从而为领导决策提供必要的统计数据[15],主要包括访问量统计、下载量统计、引用频次统计、文献统计等。对于统计结果的展示,系统提供了图形化方式和列表方式,可将统计结果以柱状图、饼图、曲线图等多种图表形式显示。同时用户可将统计结果报表导出到Excel中并下载到本机保存。
2.1.7 系统管理
支持管理员自定义建立各种角色,根据不同角色,设置不同的功能权限;默认提供科研人员、管理员、系统管理员3种角色;支持账号的禁用、删除,支持管理员对用户信息的修改。支持为用户分配不同的角色和权限,同一角色下,支持设置不同人员的数据范围,数据范围支持按所负责部门、成果类型等进行划分。系统支持对每种角色设置各模块、子模块以及各模块的操作权限,如查看权限、修改权限、编辑权限、导入导出权限等。
2.2 业务应用功能设计
业务应用平台包括多维度导航、科技大数据统一检索、科技知识图谱服务、可视化看板、专题库服务系统4部分。
2.2.1 多维度导航
多维度导航是根据平台中的科技大数据特点,从多属性多角度对检索到的产业知识体系进行导航,以提高用户检索和查找的准确度和效率。可按领域专业、研究主题、年份导航、知识概念或术语导航、地区导航等多个维度进行自定义导航。统一检索的导航体系初步设计,采用按资源类型、数据来源、学科分类、标准分类以及检索结果的归类导航等。
2.2.2 科技大数据统一检索
科技大数据统一检索是面向终端用户的核心系统,是场景化知识服务的基础,针对用户工作场景提供多样化的导航、检索、推送等功能,目标是快速准确地定位到所要查找的科技大数据的题录或全文信息。从应用主题上,可提供全文检索、字段检索、专业检索、组合检索、二次检索方式。
2.2.3 专题知识库服务
该部分包括本体构建与管理、信息抽取、知识融合、知识推理、知识图谱存储与管理。知识图谱构建与管理完成对来自各个数据源的知识抽取,根据专题知识库进行知识抽取,形成结构化的专题知识,再通过知识融合来构建专题基础共性知识图谱,并对知识图谱提供存储和管理。知识图谱管理提供对大规模知识图谱的存储与高效访问的能力,并通过知识计算对图谱进行知识补全与知识纠错,对知识图谱的可视化效果不断提升,构建形成行业子图谱、场景子图谱以及任务子图谱等,以满足多行业、多场景下各环节的智能检索、智能分析、复杂关系挖掘推理等知识智能化服务应用的需求,为科技创新各个环节的数字化、智能化转型助力。知识图谱构建系统框架如图2所示。
以吉林省6大主导产业(现代农业、新能源汽车、生物医药、新材料、人工智能、装备制造业)作为专题知识库的分类导航,平台建设6大产业专题知识库,分别是:现代农业专题知识库、新能源汽车专题知识库、生物医药专题知识库、新材料专题知识库、人工智能专题知识库、装备制造业专题知识库。实现资源按照产业分类标准形成专题知识库,实现一站式知识发现服务,提升科研人员获取知识资源的效率。
2.2.4 可视化看板
大数据可视化首先关注的是对基本数据的展示能力,从平台的数据源分析,涉及的数据类型包含:期刊、学位论文、会议论文、科技报告、产品样品、标准、科技成果、专利等,通过对科技大数据中心所融合的各类资源进行异构整合、综合分析和数字化处理,这些数据具有多维信息空间属性和海量样本元素特点,如图3所示。通过对这些数据的展示,可以完成资源类型分布、资源量统计分析、文献数据的机构分布、基金分布、用户使用分析、学者网络分析等,并结合时空模式、地图模式、多维模式、混合模式,形成科技大数据区域分布、领域分布、资源使用分析等的可视化看板,实现科技大数据融合、开放共享、资源使用等数据情况的动态展示与监测,辅助政府全面了解区域科技大数据的分布与利用情况,支撑政府提升科技大数据的有效配置能力。同时,具有大屏幕展示功能,提供数据可视化看板的模板,用户可以选择模板进行编辑,也可自定义新的模板。
图3 可视化分析服务模块逻辑结构
3 平台功能实现
目前平台的资源累计量为7 988万篇,按产业专题库统计,生物医药专题库44万篇、人工智能专题库11万篇、新能源汽车专题库43万篇、现代农业专题库104万篇、新材料专题库34万篇、装备制造专题库73万篇。按科技大数据类型统计,期刊2 129万篇、年鉴1 137万篇、报纸1 362万篇、博士论文14万篇、硕士论文242萬篇、会议114万篇、专利2 985万篇。其中,现代农业产业专题知识库主要有数据检索、知识导航、行业动态、学术热点、技术创新和装置设备等模块,依托科技大数据基础,形成现代农业的知识图谱,聚焦现代农业的行业动态、科研热点、技术创新发展等专题服务,促进现代农业产业创新体系研究和决策服务。
4 结语
目前吉林省科技大数据融合应用平台以服务科技创新和产业发展为导向,整合调整科技文献资源结构,提供全面有序的科技资源共享,进行海量全领域科技资源知识图谱构建,发挥科技资源优势,破解产业发展技术难题。以科技大数据为基础,将人工智能、现代农业、生物医药、新能源汽车、装备制造、新材料6个领域的资源数据整合,提供数字化、智能化、协同化的创新要素资源,建立6个产业专题库,实现数据检索、聚类分析、可视化分析、图谱检索等功能,实现了科技大数据整合应用服务。未来将加强支撑产业关键技术监测研究,为重点产业发展布局提供决策参考。
参考文献
[1]刘明鹏,王忠明,马文君.基于科技大数据的我国林业知识服务体系研究设计[J].世界林业研究,2022(1):94-99.
[2]孙清玉,梁美宏,洪建.基于机构知识库的高校图书馆科学数据管理服务研究——以河海大学图书馆为例[J].大学图书情报学刊,2021(3):96-100,124.
[3]王繼娜.国外高校图书馆科学数据管理服务的调研与思考[J].情报理论与实践,2019(8):159-167.
[4]顾金霞,卢晶晶,刘玉.科技资源共享的知识产权管理与服务[J].科技管理研究,2015(18):122-125.
[5]宋姗姗,钟永恒,刘佳,等.产业智库大数据方法体系及其应用场景建设[J].科技管理研究,2023(6):136-143.
[6]杨兰桥.河南省科技创新资源统筹与优化配置研究[J].创新科技,2019(2):57-62.
[7]钱力,谢靖,常志军,等.基于科技大数据的智能知识服务体系研究设计[J].数据分析与知识发现,2019(1):4-14.
[8]刘丹,李志军,高荣鑫.医疗大数据平台设计与实现[J].吉林大学学报(信息科学版),2022(1):111-116.
[9]刘敬仪,江洪.开放科学环境下国外高校图书馆科研数据管理服务启示[J].图书馆工作与研究,2018(10):18-24.
[10]王颖,钱力,谢靖,等.科技大数据知识图谱构建模型与方法研究[J].数据分析与知识发现,2019(1):15-26.
[11]简玲,叶天鹏,林祥,等.多源融合的大数据网络安全态势感知平台研究与探索[J].信息网络安全,2020(增刊2):139-143.
[12]刘盼雨,王昊天,郑栋毅,等.多源异构文化大数据融合平台设计[J].华中科技大学学报(自然科学版),2021(2):95-101.
[13]孙彦明,赵树宽,王泷,等.协同创新视阈下科技资源共享机制研究[J].科技管理研究,2017(13):1-8.
[14]詹鹏伟,谢小姣.大数据系统及关键技术与工具综述[J].网络安全技术与应用,2018(8):50-52.
[15]李炜.大数据云存储下海量数据传输完整度控制技术[J].吉林大学学报(信息科学版),2019(6):682-686.
(编辑 沈 强编辑)
Design and development of big data fusion application platform for science and technology
based on industrial thematic database
Chen Xiaoling1,2, Zhang Shitong2, Sun Boyi2
(1.Jilin Provincial Information Institute of Science and Technology, Changchun 130033, China;
2.Jilin Science and Technology Innovation Research Institute, Changchun 130000, China)
Abstract: It provides research institutions and researchers with integrated application services based on big data of science and technology, realizes the integration and application of data in the industrial field, and establishes an industrial thematic database to support the flexible call of data. With the help of data visualization and knowledge graph technology, a multi-functional intelligent management service platform is built to realize the unified retrieval, graph retrieval and visual display of multiple information sources and multi-technology big data. Practice has proved that the research and development of science and technology big data platform based on industrial thematic database has realized resource co-construction and sharing, provided users with unified, comprehensive and thematic knowledge service, knowledge navigation, visual analysis and other service functions in the field of industrial technology, improved the service ability of key technologies in the industry, and improved the scientific research level of researchers in the field.
Key words: technology big data; integrated application; intelligence services; applied research