王永胜 冯伟华 郑新章 刘亚丽 贾 楠 王 锐 宗国浩 王 迪 杜 一
1(中国烟草总公司郑州烟草研究院 河南 郑州 450001) 2(中国科学院计算机网络信息中心 北京 100190) 3(中国科学院大学 北京 100049)
一直以来,烟草行业都非常重视对科技创新工作的投入,近些年其在科学研究、技术开发和生产经营等活动中,积累了海量的科技信息资源,如烟草类科技文献、烟草专利、烟草标准、烟草科技成果等数据,数据量已达到了百万条。这些科技信息资源数据蕴含着丰富的知识,不仅包含了人员、机构、产出成果等基础信息,还包括了科研工作的学术结构、科研热点、合作关系等潜在的知识。但目前烟草行业还没有一个整合烟草行业所有科技信息资源的知识服务系统,分布在各个业务系统的科技信息资源也缺乏高效的组织与管理,科研数据的宝贵价值还未充分发挥出来,无法帮助人们高效、精准地从这些科技信息资源中获取所需要的知识,也无法帮助烟草科研人员在宏观层面掌握行业科研工作的发展态势及科研合作的模式。
知识图谱是一种用图模型来描述知识和构建世界万物之间的关联关系的技术方法[1]。从本质而言,知识图谱旨在从数据中识别、发现和推理事物之间的复杂关系,是事物关系的可计算模型[2-3]。采用知识图谱技术可以为数据的共享、获取、重用及应用创新提供自动化的知识分析服务。自2012年Google正式提出“知识图谱”的概念以来,知识图谱就一直是学术研究的重要方向。近几年来,知识图谱在搜索引擎、智能问答、语言理解、推荐系统和大数据决策分析等众多领域得到广泛的实际应用[4-6]。2017年7月,国家《新一代人工智能发展规划》中提出“重点突破知识加工、深度搜索和可视交互核心技术,实现对知识持续增量的自动获取,具备概念识别、实体发现、属性预测、知识演化建模和关系挖掘能力,形成涵盖数十亿实体规模的多源、多学科和多数据类型的跨媒体知识图谱[7]”。针对烟草科研工作存在的上述问题,基于知识图谱技术,构建一个面向烟草科研人员的烟草科技知识图谱服务平台,实现烟草科技信息资源的整理、融合与深度挖掘,已是提升烟草科研工作效率和质量,助力烟草科技创新驱动发展战略的必由之路。
烟草科技知识图谱服务平台是面向烟草科研人员开发的烟草科技领域知识服务系统。平台基于烟草科研领域的项目、成果、论文、专利、标准、科研人员、科研单位等构建网络实体,以“科研人员产出成果”“科研人员依托单位”等构建网络关系,最终形成烟草科技信息资源知识网络。在烟草科技信息资源知识网络的基础上,实现了烟草科技信息资源的多角度、全方位的知识检索功能。针对所构建的知识网络,平台使用关联分析等数据挖掘算法实现了科研人员之间和科研机构之间的合作网络分析和关联路径分析;使用基于模块度的社区发现算法等实现了科研合作社区和学术相似社区的智能发现。此外,平台基于关键词词频统计和大数据网络的共词聚类分析,实现了烟草科学研究热点的图谱化分析和国内外研究热点走势分析。
烟草科技知识图谱服务平台基于B/S架构,采用SOA的设计思想,遵循J2EE开发标准规范构建系统,通过组件式开发模式,保证各功能模块间是高内聚、低耦合模式。平台采用基于Restful的Web Service服务,以保证架构的先进性、稳定性和可扩展性。在前端展示方面平台主要采用Echarts、D3.js等可视化开发库,利用基于“Overview+Detail”和“Focus+Context”的分析模式,将烟草科技知识图谱中抽取的实体和关联关系以可视化的形式进行呈现。烟草科技知识图谱服务平台的体系结构如图1所示。
图1 烟草科技知识图谱服务平台体系结构图
烟草科技知识图谱服务平台的体系结构主要分为数据层、服务层和应用层。数据层主要是为构建烟草科技知识图谱上层应用提供数据支撑的科研机构数据、科研人员数据、科研文献资源(主要包括中文和外文科技论文数据、烟草技术专利数据、科研项目数据、烟草技术标准数据、烟草图书专著数据、烟草科技成果数据)等。服务层主要包括数据处理和知识服务两部分,通过对烟草科技信息资源数据的汇聚、清洗、整合、加工以及构建RDF元数据资源模型等,完成烟草科技资源元数据的深度处理和烟草科技资源知识网络的构建。针对构建的烟草科技资源知识网络,通过封装多维统计、关联分析、知识挖掘等技术,基于Restful方式为应用层提供API接口服务。应用层基于烟草科技资源知识网络实现了烟草行业科技资源查询、科研人员和科研机构画像、合作网络分析、关联路径发现、科研社区发现和研究热点分析等功能。
烟草科技知识图谱服务平台是面向烟草科研人员开发的知识服务系统,旨在通过梳理整合分布在行业不同科研系统中的科技信息资源,基于知识图谱技术,构建包含烟草科研论文、技术专利、科研项目、技术标准、图书专著、科技成果等烟草科技信息资源的知识网络,实现对烟草科技信息资源的整理、融合与深度挖掘,为烟草科研人员准确把握研究方向、寻找潜在合作伙伴、提高科研活动效率提供支持。烟草科技知识图谱服务平台的功能模块如图2所示。
图2 烟草科技知识图谱服务平台功能模块
(1) 基础知识查询模块:该模块通过对烟草行业的科研机构、科研人员、科研项目、论文、专利等科技信息资源的检索,实现烟草科技基础知识查询的功能。例如,在科研人员检索子模块中,构建了科研人员画像,不仅展示了科研人员的学历、职称、研究领域、个人简介等基本情况,还借助可视化技术展示了科研人员的研究兴趣图谱、学术成果图谱、个人影响力雷达图、科研人员合作网络关系、个人学术关键词词云等,围绕科研人员科研信息以更直观生动的方式多维度、全方位地展示其科研知识图谱。在科研论文检索子模块中,除了介绍了论文的摘要、作者、关键词、被引次数等基本信息外,还根据论文的参考文献和引证文献构建了参考引证图谱和关键词词云,并统计分析了论文每年的引用次数,构建了年度被引用趋势图。
(2) 合作网络分析模块:该模块包括人员网络分析和机构网络分析两部分功能。基于项目、成果(成果论文、成果专利、成果标准、成果图书等)构建了需要分析的科研人员或科研机构的合作网络图,合作网络图中展示了合作者之间的关系和合作次数,并通过权重计算筛选出了关系最为紧密的合作者。
(3) 关联路径发现模块:该模块包括科研人员关联路径分析和科研机构网络分析两部分功能。通过限定关联关系深度值,以可视化的形式构建科研关联路径网络图,实现了被查询的两个科研人员或两个科研机构之间关联路径的分析。该模块可以帮助用户以更直观的方式了解两个被查询主体的关联路径。
(4) 科研社区发现模块:该模块包括科研合作社区发现和学术相似社区发现两部分功能。基于烟草科技知识图谱的图数据,通过分析挖掘科研人员基于项目及成果的合作关系,将科研人员关系网络图分成关系比较紧密的不同子网络图,从而实现科研合作社区发现的功能。通过对烟草科研人员的论文共被引关系进行深度挖掘,通过聚类分析,实现相似学术方向的学术相似社区发现功能。
(5) 研究热点分析模块:该模块包括国内外热点图谱、研究热点搜索、国内外热点走势三部分功能。烟草科技文献中关键词之间的相关性在一定程度上可以揭示烟草领域不同研究方向或视角的内在联系。烟草研究热点分析是通过对中外论文、专利进行关键词的提取解析、词频统计、共现分析,获得了高频度出现的主题词共词网络,从而实现烟草科学研究热点图谱分析、研究热点搜索以及热点走势展示。
目前,知识图谱的构建方式主要有自顶向下与自底向上两种构建方式,结合烟草科研数据的实际情况,烟草科技知识图谱服务平台以现有的结构化知识库为基础知识库,采用自顶向下的方式设计烟草科研数据的本体及数据模式。烟草科技知识图谱服务平台的业务构建流程包括了知识抽取、知识融合和知识应用三个方面,结合烟草科技信息资源的特点,设计了烟草科技知识图谱服务平台。其业务构建流程如图3所示。
图3 烟草科技知识图谱服务平台业务构建流程
(1) 知识抽取:首先抽取多源异构系统中数据,并进行初步数据清洗。整理出烟草科技信息资源中的论文、专利、标准、科研项目、成果所属单位或机构、关键词等各种实体类型以及各实体类型之间的关系,构建烟草科研知识图谱的Schema模型,从本体构建上描述烟草领域相关概念与概念之间的关系及属性表示。
(2) 知识融合:烟草科技信息资源来源于不同的系统,知识图谱中的实体以及知识体系不可避免地存在重复、缺失、冲突等问题,平台设计过程中通过对抽取的数据进行数据整合、知识加工、本体构建、质量评估等,以提升数据的质量并达到知识的更新。
(3) 知识应用:基于RDF三元组的知识表示和本体描述的基础上,烟草科技信息资源采取知识图谱的方式进行表示,平台采用基于图深度优先遍历算法、社区发现算法、关联挖掘算法以及可视化技术等实现烟草知识检索、机构(人员)合作网络分析、关联路径发现、科研社区发现、研究热点分析等知识应用服务。
通过梳理整合分布在烟草行业内不同科研系统中的论文、专利、成果、标准、图书等科技信息资源,结合行业的科研机构和科研人员信息,借助大数据流水线系统PiFlow平台,完成数据清洗、概念识别、实体发现、实体融合、关系构建。目前,烟草科技知识图谱服务平台根据科技信息资源的特点抽取了19类数据实体并建立了33类实体关系。平台从各类实体以及实体之间的关系、属性出发,构建了烟草科技知识网络如图4所示。
图4 烟草科技知识网络
基础知识查询模块可以实现烟草行业的科研机构、科研人员、科研项目、论文、专利等科技信息资源的检索。当用户输入相关检索条件进行检索时,系统会返回相应的检索结果列表,列表中每项检索结果都有独立的详细知识主页面。基础知识查询模块中的科技论文检索如图5、图6所示。
图5 烟草科研论文检索结果展示
图6 烟草科研论文详情展示
平台基于烟草科技信息资源,进行科研数据实体融合、关联关系抽取等构建烟草科研人员画像。该模块采用多标签构建技术和精准画像技术,从多层级、多维度的应用分析出发,全方位、立体化地展示烟草科研人员的学术成果信息。科研人员画像功能模块主要展示科研人员个人影响力分析、研究兴趣图谱、学术成果图谱、个人学术关键词等几方面,如图7所示。其中,个人影响力分析是根据领域专家研讨的评分体系,通过计算各项指标得分,借助雷达图进行展示,雷达图面积大小代表各项指标总得分情况,雷达图中每个顶点表示影响力的一级指标,指标数值代表该项指标的具体分值。
通过对当前科研人员发表的学术论文进行文本分析,统计分析其论文中高频关键词,采用轮播滚动的可视化方式展示其近十年来的学术关键词,结合学术关键词,构建科研人员的研究兴趣图谱,揭示科研人员研究方向变化,如图8所示。科研人员学术成果图谱展示了当前科研人员按不同年度所产出的不同成果的数量和类型,如图9所示。图中不同颜色代表科研人员不同的成果类型,结合时间轴和数据说明,可以更加直观地显示科研人员的学术成果。
图8 烟草科研人员研究兴趣图谱
图9 科研人员学术成果图谱
科研人员合作社区发现是基于梳理整合的烟草科技信息资源,通过分析挖掘科研人员间项目及成果的合作关系,发现并识别合作紧密的科研人员团体。当通过导航进入科研人员合作社区发现页面后,页面自动分析加载默认的全部合作类型的社区发现。社区网络图谱由不同簇区分不同的合作社区,网络图谱中节点大小和连线边的粗细具有实际意义,节点大小代表科研人员影响力的大小、连线的粗细表示两个科研人员合作关系的强弱,合作关系越强的科研人员在图谱中的位置越靠近,子网络图中核心人员为科研学术高活跃度的科研人员,网络图右侧表示总共发现的社区数量及各个社区人数。烟草科研人员合作社区如图10所示。
图10 烟草科研人员合作社区
学术关键词之间的相关性往往揭示不同研究方向或视角的内在联系。研究热点知识发现图谱通过关键词共现关系来分析和判断烟草科研热点的发展变化。在平台系统中,国内烟草科研热点图谱是基于对国内发表烟草科技文献的关键词频次及共现关系进行分析挖掘。图谱中所有节点的大小表示当前关键词共现频次的多少。图谱中的连线表示两个关键词间有共现关系,连线的粗细位置表示两个关键词间关联度的强弱,关联度越强的关键词在图谱中聚合得越紧密。国内烟草科研热点图谱如图11所示。
图11 国内烟草科研热点图谱
在烟草科研热点搜索功能模块中,用户输入需要查询的烟草领域热点词汇,即可获得该热点词汇的详细信息并借助可视化图形展示。主要包括四类信息:该热点关键词年度出现次数统计图、关键词共现关系网络图、关键词研究贡献的top10机构和top10科研人员。烟草科研热点搜索如图12所示。
图12 烟草科研热点搜索
知识图谱用来描述现实中的概念、实体与关系,它是一种基于图的数据结构,由节点和边组成。其中节点即实体,由一个全局唯一的ID标示,关系(也称属性)用于连接两个节点。通俗地讲,知识图谱就是把所有不同种类的信息连接在一起而得到一个关系网络,提供了从“关系”的角度去分析问题的能力。
本平台采用Neo4j作为图模型的存储方式,Neo4j是高性能的NoSQL图数据库,是目前知识图谱系统中使用率最高的图数据库[8]。Neo4j的数据存储形式主要是节点(node)和边(edge)来组织数据。node可以代表知识图谱中的实体,edge可以用来代表实体间的关系,关系可以有方向,两端对应开始节点和结束节点。
为了更好地呈现基于烟草科技信息资源构建的烟草科技知识图谱平台,使用D3.JS等底层可视化开发库,设计基于网络查询、挖掘分析结果的交互式可视化方法。平台采用“Overview+Detail”和“Focus+Context”相结合的交互式可视化分析模式。“Overview+Detail”的交互式可视化分析模式首先考虑使用可视化方法进行整体的探查,在发现感兴趣的内容之后,通过过滤、缩放等交互技术进一步探查细节,从而发现数据的详细情况;“Focus+Context”的交互式可视化分析模式则强调在关注某个特定的可视化区域的同时,对区域的上下文信息也要给予关注。在烟草科技知识图谱平台构建过程中,结合交互式技术对图谱的形状、大小、颜色等进行可视化展示,为烟草科研人员提供直观生动的用户体验。
关键词是代表文本重要内容的一组词,关键词抽取是指抽取目标文本中的主要信息,涉及实体识别、属性抽取、因果关系抽取等多项关键技术[9-10]。关键词提取是知识图谱领域的一个重要任务,在信息检索中,准确的关键词提取可以大幅提升检索效率;在智能问答中,机器可以通过关键词来理解用户意图;在知识推荐中,关键词的发现有助于获取主题思想。
在对烟草领域的科技信息资源进行文本预处理阶段,本平台采用TextRank、LDA等关键词提取算法通过抽取实体对象、属性关系、主题词等构建了领域知识网络,为科研人员学术关键词提取及研究热点相关词分析提供技术保障。
融合各类烟草科技知识实体的人员合作关系网络同其他实际网络具有相同特性及社区结构,即整个网络由若干个社区构成,每个社区内部的节点之间联系相对紧密,各个社区之间的连接相对稀疏。在烟草科技知识图谱服务平台中,合作社区发现主要实现从科研人员出发,基于烟草知识图谱的图数据,通过分析挖掘科研人员基于项目及成果的合作关系,从而实现发现合作紧密的科研人员社区团体。
本平台采用Louvain算法作为实际的社区发现算法,实现了控制网络规模及边界情况下的合作社区发现,并在最终的可视化展示中取得了很好的可视化效果。Louvain算法是基于模块度的社区发现算法,该算法在执行效率和效果上都表现较好,且能够发现层次性的社区结构,实现最大化整个社区网络的模块度的目标[11]。
共词分析法是内容分析法的一种,通过对文献中共现的词对(主题词或关键词)的关联性进行运算,将关系密切的词聚集归类,进而分析这些词所代表的学科和主题的结构变化趋势[12]。针对文献主题词来说,文献主题词共现次数越多则代表两主题关系越紧密,采用聚类分析等多元统计方法,将众多分析对象之间错综复杂的共词网状关系简化为若干群之间的关系并直观地表达出来,可以准确地归纳出该学科的研究热点[13]。
在本平台中,从烟草领域学术文献中提取出关键词或主题词,设定阈值高于一定频率的关键词或主题词作为代表某一学科或研究方向的高频词,通过统计高频词同时出现在同一篇学术文献中的次数,构建共词矩阵,进而围绕共词矩阵进行相关分析。
知识图谱是提高知识获取能力的有效服务手段,针对烟草领域科技信息资源的数据特点以及烟草科研工作知识获取的工作需求,设计并实现了烟草科技知识图谱服务平台。该平台梳理整合了分布在烟草行业不同科研系统中的科技信息资源,基于知识图谱技术构建了包含科技项目、科技成果、科技论文、技术专利、技术标准等烟草科技信息资源知识网络,结合烟草科研大数据知识画像、关联挖掘、烟草科研知识图谱分析等,完成了烟草科技信息资源的深入挖掘分析和多角度多层级的可视化展示。烟草科技知识图谱服务平台的建设应用可为烟草科研人员准确把握研究方向、寻找潜在合作伙伴、提高科研活动效率提供智力支持,对烟草科研领域的知识发现也具有十分重要的意义。