赵志耘,刘 耀,朱礼军,吴欣雨
(中国科学技术信息研究所,北京 100038)
当前的复杂信息环境中,知识数据呈现一种“不稳定状态”,来自开源情报的大规模非结构化数字资源需要经过先进的知识组织建设才能成为高质量的知识来源,为实现需求导向的知识服务奠定基础[1]。数字资源建设的核心是知识组织模式[2],知识组织模式根据建设需求的变化,经历了从数字资源整合向数字资源聚合的转变[3],数字资源整合一般采用自顶向下的“分类”的知识再组织理念,近期的数字资源聚合则采用自底向上的“聚类”的知识再组织理念,形成集概念主题、学科内容和科研对象实体为一体的立体化知识网络。资源聚合的发展方向,一是基于增强语义,主要研究方向有基于概念关系分析的数字资源聚合[4]、基于本体的数字资源语义聚合与可视化[5-6]、基于关联数据的数字资源聚合[7-8];二是基于发现关联,发现关联又可细分为基于计量分析和基于社会网络分析[9]。
数字资源建设的目的是知识服务,通过不同的服务平台与服务模式实现知识的共享和再利用[10]。知识共享与再利用的对象可分为两类,一类是基于特定需求对原始资源进行加工处理后形成的知识库,可以直接再次服务于相同需求;另一类是基于需求进行知识组织加工的业务流程,可以再次用于处理类似需求的不同资源。主流知识利用模式有学科信息门户服务模式、专业化知识服务模式、个性化定制知识服务模式、数字化参考咨询服务模式和自助式知识服务模式[11]。大部分知识服务系统融合了多种服务模式,但目前的解决方案侧重于支持第一类对象的建设与利用,而缺少对第二类对象的关注[12]。
近年来,有关知识组织与利用模式的国家社会科学基金项目多集中于对知识库、知识图谱和知识服务的研究,充分调研后,发现这些研究项目在领域泛化能力和知识服务自动化方面存在一些不足和问题。中医知识组织模式创新研究(19AZD018)[13]、机构知识库可持续发展研究(17BTQ024)[14]、基于大数据分析技术的中医信息服务知识库研究(17BTQ063)[15]、科技论文全景式摘要知识图谱构建与应用研究(19BTQ061)[16]、融合知识图谱和深度学习的在线学术资源挖掘与推荐研究(19BTQ005)[17]等项目的主要研究领域是语言学、图书馆和情报学,存在领域限定性强、知识组织工程量大、周期长等不足,无法灵活解决工程需求。而针对知识服务的研究,如基于媒体融合的图书馆知识服务优化机制研究(19CTQ008)[18]和用户交互与知识构建双重驱动的知识服务平台评估研究(19BTQ081)[19],主要是对服务形式的分析,未能很好解决业务驱动下的知识组织与再利用的自动化问题。业务组织模型也仅在管理学领域的面向健康数据的认知图谱研究(15BGL191)[20]中得到较为全面的利用。
根据上述对知识组织模式与利用模式的介绍,可以得出现有知识服务存在的两大问题:①现有知识库构建不够灵活,没有基于认知模式进行智能化知识结构构建[21-22],导致知识体系的构建不仅昂贵,还机械呆板,无法对现有知识体系进行二次组织,因而不能灵活响应日益增加的个性化服务需求[23-25];②现有研究多集中于单一领域内的语义结构化、知识图谱和知识库构建方式,且关于知识服务的研究局限于系统功能设计,知识组织与知识利用脱节,缺少突破领域壁垒进行知识再利用的能力,无法在业务和问题驱动下实现知识组织和知识再利用的有机整合,使知识组织和资源加工面向需求、面向服务。
针对知识服务领域现存的两大问题,本文从业务需求入手,将研究内容分为四个部分,其中业务组织模型的理论与方法研究是指导知识组织与再利用的中心思想,业务自动生成与业务再利用能力从业务层面进行知识再利用的方法研究,敏捷的专业知识组织能力从资源层面进行知识组织的技术研究,新型知识服务模式研究则主要解决知识再利用的实践问题。
复杂信息环境对知识组织和再利用方法都提出了更高的要求,之前针对单一领域结构化资源的处理方法不再适用于来自开源情报的大规模非结构化数据,固定的业务模型也无法满足日新月异的知识服务需求。在新环境下,为了解决知识服务领域现存的两大问题,本文提出图1所示的整体研究框架,重点研究建设一个理论、两种能力和一套服务模式。“一个理论”是指复杂信息环境下业务组织模型的理论与方法;“两种能力”是指敏捷的专业知识组织能力,用于资源的快速解析,以及业务自动生成与业务再利用能力,用于业务模型的快速构建;“一套服务模式”指的是基于PaaS(platform as a service,平台即服务)模式和SaaS(software as a service,软件即服务)模式的新型知识服务模式,该新型知识服务模式由业务再利用方法和知识组织技术支撑,能够为不同需求提供对应的知识服务组配路径,形成灵活敏捷的知识服务平台。本文形成的新型服务模式给予了SaaS用户一定的业务定制能力,并降低了PaaS用户的使用门槛,为知识再利用提供解决方案。
图1 研究框架
在知识服务领域中,业务即为用户提出的知识服务需求,业务组织即为调配各类资源,从分析需求、开发工具到完成需求的完整流程。业务组织和业务组织得到的结果都被称为知识,是知识服务的素材。在复杂信息环境下,现有的业务组织模型无法根据需求高效利用资源,导致在解决个性化任务时力有不足。为了弥补这一缺陷,首先要形成系统的业务认知体系,并对业务流程中节点的资源构建机制建模,从而形成整体的业务组织模型,指导知识组织与再利用建设。业务组织模型理论与方法研究按照流程可以分为业务认知体系构建、基于业务的需求解析模型和业务驱动的代码组配模型。
软件项目研发流程中沉淀的业务认知,需要有一个具备存储及推理能力的载体,即认知图谱。业务资源数据可分为两大类:文档类资源和代码类资源。文档类资源代表各个业务节点形成的知识,代码类资源则代表着数据流转的全部过程。
为了赋予软件资源解决问题的能力,本文提出构建认知的两个维度(图2)。首先,通过模拟软件开发的流程,得到软件开发的一般步骤,作为纵向的认知方式;其次,通过从资源中挖掘知识关联,得到横向的领域知识认知。
图2 业务认知体系
通过分析业务流程可以得出,需要建立起的认知联系有以下两个方面:需求与实现方式,即功能之间的认知联系;流程节点之间的认知推导,即流程相联依据。以文档类资源为核心,以代码类资源为补充,对于每个业务节点形成业务资源深度协同的认知结构,通过需求-功能-代码的方式进行连接,图3为定制爬虫业务基于认知体系构建的认知图谱。虚线框表示同级的任务节点拆分,即横向认知关联;箭头连接的是按照软件设计流程上一环节与下一环节的对应关系,体现了纵向的认知关联。
图3 定制爬虫业务认知图谱
需求阶段是软件研发中的重要初始环节,需求的表示方式通常为自然语言的文本形式,存在于各种项目需求文档、概要设计书、详细设计书中。需求文本具有两个特征:存在某一概念为业务的预期呈现结果;存在某一概念为达到这一结果的处理描述。
本文将业务划分为三种需求处理类型,通过定义每种需求类型的概念结构特征,确定业务所属的需求处理类型。本文假设研究的无结构需求文本都具有“需求-处理”式结构,即在需求文本中至少包含一个“需求”类概念与一个“处理”类概念。在研究构建的需求概念结构中,针对具体业务,将“需求”类概念细分为“词汇”“句子”和“篇章”类概念。构建相应的需求文本概念结构模型如表1所示。
表1 需求文本概念结构模型
本文将业务需求文本对插件代码所使用的自然语言处理工具建立映射关系,映射路径为“需求文本-需求处理类型-代码库-细分代码库-代码检索”。需求文档的解析结果示例如图4所示。
图4 需求文档解析结果示例
业务驱动的代码组织即跨过手动调试的步骤,使代码能够根据需求追踪到符合业务需求的代码组件,从算法代码库中构建出面向业务的代码组件。在这个过程中,将与业务需求相关的代码检索出来,基于检索到的面向业务的代码,通过算法资源库中与代码组件所关联的丰富的文档与论文资源,在组配后能实现算法的正常运行。
代码组配有两种具体使用场景,一种是需求直接匹配单一代码块,在该场景中,输入需求已被拆分为代码步骤的最小颗粒度。此时,组配重点是确保多个需求对应代码的输入输出、运行环境、解释器版本等信息的一致性,通过在候选代码中筛选符合条件的代码块进行重组,从而确保代码的可运行。
另一种场景表现为输入需求颗粒度比现有代码颗粒度大。此场景的处理机制是输入需求,以需求为关键词检索到代码资源库中所有相关的经过扩充语义和包含结构信息的代码组件,随后将检索到的代码组件进行聚类,根据聚类结果判断该需求所需步骤以及各步骤间的顺序,即每一需求内部形成小型组配任务。该使用场景需要实现两层组配,第一层组配是外层需求代码间的组配,该层组配与第一种场景一致,重点在确保代码组合后可以正常运行。第二层组配是单一需求拆分后的内部代码的组配,在内部组配时需要考虑到筛选出的代码间的适配问题,只有运行环境、输入输出等符合要求,才能实现组配。两层组配完成后,最终实现代码的可运行。具体模型如图5所示,图中的需求1为第一种场景的处理流程,需求2为第二种场景的处理流程。
图5 算法路径组织模型
形成的算法代码库和组织路径如图6所示。
图6 算法代码库和路径组织示例
在复杂信息环境下,研究业务自动生成与业务再利用能力的目的是解决业务知识组织与知识再利用之间存在的断层问题,为应用示范提供业务知识资源及模型依据,也为下文的新型知识服务模式赋能。
按照业务的处理流程,自动生成与再利用方法研究主要包括单业务资源解析、多系统知识关联和业务资源再利用路径自组织,整体框架如图7所示。
图7 业务模型自动生成整体框架
单业务资源解析是根据Schema规范对业务知识进行形式结构化处理,再利用各类知识抽取手段进行内容结构化处理,形成单业务知识库,同时指导内容结构化生成。单业务解析的关键流程如下。
(1)形式结构化:提取业务文档、代码,以及相关软件规范、论文等资源中的结构,作为多系统功能知识关联的前提。
(2)内容结构化:对业务文档进行概念提取、概念关系标引,提取需求与功能对,对代码进行语义分析,提取功能与流程对。
(3)知识资源库构建:利用单业务资源的结构形式及内容结构的解析结果构建单业务知识资源库。
单业务资源解析中形式和内容语义会随着资源本身而改变,例如,代码资源的形式语义为代码的编写规范,如图8所示,其中每个类(class)是一个功能模块,可以当作一个任务,每个方法(meth‐od)可以实现一个完整的小流程,而代码资源的内容语义为代码实际的功能描述,需要通过特征抽取与关联挖掘获得,解析流程如图9所示。
图8 代码结构
图9 代码业务资源解析流程
多系统知识关联要对完成解析的单业务资源进行关联,形成业务知识网络,关键流程如下。
(1)关联特征提取:分析提取业务资源结构、内容中的需求功能关联特征。
(2)业务知识关联:关联具有相似资源与特征的资源,判断单业务的功能及流程节点间的链接关系,形成多系统关联的业务知识网络。
以文档和代码资源关联为例,如图10所示,业务知识网络构建的具体步骤为:①业务知识层级向量表示(文档层级结构、需求分析-软件设计流程、概念及其关系提取);②对需求文档在业务层级上进行映射;③对候选代码组合在业务层级上进行映射(函数命名原则拆解、注释信息、特征代码等);
图10 文档+代码知识关联流程
④根据相似度进行排序。
业务资源再利用路径自组织基于单业务解析与多系统知识关联的结果,以期通过业务路径自组织实现业务资源的再利用,关键流程如下。
(1)多源融合的业务与功能关联网络构建。基于需求与业务资源库,使用网络表示方法对业务知识网络进行向量表示。
(2)业务流程与功能关键节点发现。通过特征工程以及图数据挖掘,构建需求与功能、功能与流程对应的关键节点关系判定模型,作为新需求指导业务生成的路径构建基础。
(3)业务路径自组织。划分需求对应的功能与子功能,自动获取各功能下业务资源,对业务节点进行关系判定,实现相关资源、技术、工具和模型的自动组织,进而实现从新需求自动构建功能流程的路径方法。
敏捷的专业知识组织能力研究目的是形成以自然语言处理及深度学习技术为壁垒的、将数据资源向显性知识转换的敏捷组织能力,赋予模型解决实际问题的能力。单篇文本是业务资源里知识的最小单元,通过对单篇文本的知识结构完全挖掘并结合多篇文本关联的知识自组织模型,可在资源有限情况下提供快速针对具体问题进行知识组织的能力,作为技术能力为业务模型赋能。
单篇文本全解析主要研究专业文本的知识结构全解析,解决单篇文本中知识结构的全标引、全解析问题。
单篇解析能否全面、准确,是敏捷知识组织的基础。单篇全解析的主要思路为“先验知识-海量文本-知识体系-单篇文本知识结构”的映射路径,融合先验知识和领域知识,形成领域隐性知识结构,并基于该体系学习无结构语料的隐性结构。数据处理流程如图11所示。
图11 知识结构全解析数据处理流程
单篇全解析的关键技术节点如下。
(1)复杂语境下的知识发现。在不进行显性标注的情况下进行语义单元的识别,利用篇章结构形成语义单元形式语义向量,结合形式语义与内容语义进行先验知识的映射以及实体到实体的解码,通过模板将知识标引任务转化为文本生成任务,实现概念自动标引。
(2)开放关系中的知识发现。提出“先验知识-海量文本-知识体系-单篇文本知识结构”的映射路径,通过先验知识与文本之间相互映射进行知识发现、结构与语义的融合,实现先验知识与文本的相互转化,完成文本知识发现与深度结构化。
(3)知识映射的路径发现。使用大量语料进行任意领域知识体系的发现,对所发现的知识体系进行精炼,确立篇章隐含结构模型,结合概念及其关系标引结果,利用算法识别单篇文本的隐含篇章结构,指导单篇文本知识结构生成,从而实现全解析的目标。具体技术路线如图12所示。
图12 知识结构全解析技术路线
利用单篇全解析技术,对图13所示的无标注的新闻进行解析,解析后的结果如图14所示。处理后的知识结构包含该单篇中的所有实体及其类型、各个实体之间组成的关系以及隐含的主题信息。
图13 未标注新闻
图14 处理后的单篇知识结构
完成单篇全解析目标后,即可从单篇文本的处理转向对多篇文本的处理。多篇文本关联的知识自组织模型主要解决多篇文本中知识自组织模型的构建与路径识别问题,即基于多源数字资源知识,自动组织相关资源、技术、工具和模型,从而挖掘知识结构之间、概念之间的关联和相似关系,进一步揭示知识关联路径规律。
知识关联自组织的关键技术节点如下。
(1)数字资源知识自组织模型构建。通过对单篇文本形成的资源库进行假设分析,分析文本的语义结构和组织结构,构建知识网络,得到数字知识关联的路径。
(2)数字资源知识自组织模型识别。利用知识文本结构化解析技术、主题提取和概念识别技术、知识结构关联技术,对多篇不同文本进行结构计算,进行实验验证与分析,得出自组织模型。
数字资源知识自组织模型的生成。对未标记的开放文本首先进行单篇解析,使用关联模型结合文本和结构进行关联路径判断,实现知识关联路径自动生成。具体技术路线如图15所示。
图15 数字资源知识自组织技术路线
利用数字资源知识关联自组织技术,对图16所示的政策进行扩散路径计算,解析后的部分结果如图17所示。在政策扩散路径图中,有向线段的起始点是作为扩散源的政策,终点为存在扩散关系的政策,线段上标记的数值为该扩散关系的置信度,加粗的一条为置信度最高的扩散路径。
图16 政策文本
图17 政策扩散路径图示(部分)
通过业务组织模型构建的理论与方法研究,探索加强业务模型自动构建技术与敏捷的专业知识组织方法,其目标就是实现传统知识服务模式向新型知识服务模式的转变。其中,新型知识服务模式有两种,分别为PaaS模式和SaaS模式。这两种新型的服务模式各自对应着不同的业务群体,能够根据用户需求、用户技术水平、设施情况等针对性地提供服务。此外,基于SaaS、PaaS的新型知识服务模式要求对业务相关的技术模块进行合理且有效的组件拆分与组件细化,不仅能提高面向复杂业务的处理能力,还可以良好地应对未来开发技术的迭代与更替,在技术日新月异的信息时代站稳脚跟。
SaaS和PaaS是基于云平台的新型服务模式。SaaS服务模式即软件即服务,在这种服务模式下,应用将作为服务提供给客户。在传统的SaaS服务模式下,用户不需要考虑工具开发或者数据库管理,使用封装好的应用获取定制的知识服务。PaaS服务模式即平台即服务,在这种服务模式下,开发平台将作为服务提供给用户。PaaS平台能够帮助用户降低开发成本,提高开发效率。传统的PaaS可以解决一定的个性化需求,但用户门槛较高,用户必须有一定开发基础,才能基于提供的基础设施以及开发平台,调用或改写不同组件,完成业务资源处理。
基于对业务组织的理解,本文提出了SaaS和PaaS在知识服务领域形成的新型服务模式,能够解决个性化需求,给予SaaS用户更高的使用自由度,并给予PaaS用户更低的使用门槛。在知识全解析与知识关联的技术支持下,SaaS用户可以在现有知识模型基础上进行二次建模,通过对数字资源的重组构成新的知识服务并共享给其他用户。对于PaaS用户而言,本文基于拆解组件的知识组织与再利用机制,对知识服务的数据获取、模型构建、工作流编写、可视化展示的全流程进行了工具和技术覆盖,并对流程中的每个节点的工具和技术提供自行开发、改写或重组现有组件、调用现有组件这三种模式,大大降低了PaaS模式的使用门槛。如果用户为特定知识领域的专业人员,需要提供该领域的知识服务,可使用本文中构建的PaaS平台实现。用户基于自身专业知识,在平台构建数据模型,余下流程中均可以采用页面配置的方式使用平台现有组件,最终完成知识服务平台的构建。如果用户具有一定的开发基础,还可以对各个流程组件进行改写或自行开发,新开发的组件可以上传至平台,供其他用户使用。总而言之,用户可以将自身的知识能力和平台能力结合,基于需求进行二次开发,并且将开发完成的知识服务平台作为SaaS服务销售给次级用户,完成从to B(to business)到to C(to custumer)的商业模式转换。
新型的SaaS知识服务模式指基于业务组织模型,整合单业务流程、多系统业务知识关联、业务知识库,实现一整套业务自动化生成流程;搭建便于用户直接从设备访问并使用的软件服务,实现基于业务组织模型的业务再利用。对用户而言,他们可以利用平台现有资源,新增业务模型并进行再利用。
药食同源药方获取是SaaS知识服务模式的一个示范。用户想要在中医古籍资源网站上获得所有药食同源的方剂,在传统的知识服务模式下,针对这一需求,需要首先获取所有药食同源的药方,进行处理并展示。在新型的SaaS服务模式下,可以实现对该个性化需求的灵活响应,即一切都在现有网站上进行,基于当前资源,根据用户输入的业务模型形成展示结果(图18),之后其他用户可以再次使用该模型查看结果(图19),完成资源共享与再利用。
图18 用户自定义业务模型
图19 查看并使用平台上已有的业务模型
PaaS知识服务模式提供了面向开发人员的数字资源知识库的基础平台,允许开发人员根据自身业务对数字资源的需求,构建不同的知识主题和知识场景,其核心在于覆盖业务需求全流程的基础平台以及可复用的插件、工具和接口。
根据业务流程和知识场景,本文将PaaS基础平台构建分为六个部分分别进行搭建,如图20所示。
图20 PaaS平台组成
对于可复用组件,平台以微服务的理念拆解现有的多种数据加工工具,允许PaaS服务模式下开发人员在此基础上进行创造性知识服务建设。所有平台上已有和上传的资源、工具均可以再次使用,并构建从需求到代码的映射模型(图21),实现基于需求的自动化工具推荐。
图21 从需求到代码的映射模型
当前平台已经可以实现从数据到服务平台生成的无代码路径,专业技术人员不需要具备代码知识,即可通过配置(图22)形成服务平台(图23)。
图22 前台配置页面
图23 生成个性化服务平台
情报感知作为PaaS服务模式的服务示范,其目的是对互联网中的信息进行挖掘与整合,对开源情报进行溯源分析和立体式信息提取,实现辅助决策。情报感知的关键技术节点如下。
(1)面向回溯的资源发现。从现有资源中抽取内容语义和结构语义,获取与现有资源类似的新资源列表;对资源可信度进行评价并排序,将排名较高的新资源加入资源库,并计算新的内容语义和结构语义,不断迭代完成面向回溯的资源发现。
(2)多语言感知单元提取。定义情报感知中的感知单元,根据现有的主题知识图谱和形成的资源库,构建包含主题的感知单元模型,解决元素分散以及单个篇章中可能出现多个感知单元的问题;基于网络叙事的生成机制,解决多语言的问题,最终完成主题下的感知单元提取任务。
(3)演化路径与阶段判别。基于分布假设,形成主题下的事理图谱;基于网络舆情演化过程,对包含时序信息的感知单元演化路径进行发展阶段划分,生成演化式摘要。
在PaaS平台中,可以实现上述需求,处理流程如图24所示,形成的知识服务如图25所示。
图24 情报感知PaaS平台处理流程
图25 情报感知知识服务平台
本文提出一个理论、两种能力和一套服务模式,从需求入手,以业务组织模型理论与方法为指导,通过业务模型自动构建研究,形成针对资源特点的个性化业务模型;针对当前知识组织模式中知识库构建成本高昂、缺少灵活构筑资源的个性化解决方案且数据利用程度过低的问题,建立高效敏捷的知识组织机制,利用单篇全解析及多篇路径自组织等技术手段,实现快速解析资源的目的,为真实项目的应用服务提供技术支持;以新型服务平台及具体服务为示范,建立基于技术和工程的知识共享模式示范,形成了两大创新内容。
1)基于技术的颠覆性知识共享模式
形成新型知识共享与服务模式,在技术与工程思想指导下,快速分解业务需求,自动生成业务链条,为业务问题提供智能化、个性化、以业务为驱动的知识组织服务方案。基于扎实的技术与工程能力,基于对实际业务需求的分析与拆解能力,避免了纸上谈兵的知识体系构建研究。
2)快速灵活的业务模型构建技术
在专业知识组织方面,通过单篇文本全解析与路径自组织技术研究,实现高精度的资源解析及知识体系构建。在业务模型构建方面,灵活的资源解析技术避免了大型领域知识库构建的高昂成本,为资源共享与再利用赋能。
本文为相关学术领域提供了思想方法和关键技术上的创新,包括一种新的知识抽取和业务模型自动构建方法,以此拓宽自然语言处理的应用场景,为数字资源知识共享与知识再利用研究丰富先验知识,积累可用资源。未来将按照本文所提出的知识组织和再利用框架,探究新型知识服务模式的优化与具体知识服务场景下的应用能力,从而提升复杂信息环境下数字资源构建对知识服务的支撑能力,不断丰富和拓展知识服务领域的模式和方法。