龚海波 陆渝 刘波 刘小菁
广西产研院人工智能与大数据应用研究所有限公司 广西 南宁 530201
随着人工智能和大数据技术发展日益成熟,以知识图谱为代表的应用模式开始受到广泛关注。知识图谱是以结构化形式描绘实体以及其相关元素之间关系的语义网络,包括语义、逻辑含义和规则,通过三元组即“实体-关系-属性”集合的形式来描述事物之间的关系。知识图谱在多个领域已有应用,如我们日常使用新闻资讯信息流、短视频应用的智能推荐等都运用了知识图谱。本文主要介绍知识图谱的相关技术特点,以及结合柔性数据治理策略下的知识图谱构建过程。
知识图谱(Knowledge Graph)的概念由谷歌在2012年提出,是以结构化形式描述的知识元素及其联系的集合,主要由实体、概念及其之间的各种关系组成的大规模语义网络。
知识图谱的实体可以是现实世界中独立存在的具体对象,也可以是一种抽象概念,对应知识图谱中的节点/顶点(Point/Vertex)。实体与实体之间的外部联系,对应知识图谱中的边(Edge)。属性是指实体内部的本质特征,是实体的固有特性,一般不体现在图表征结构中,而是蕴藏在实体内部或关系内。
知识图谱平台可分为4层结构,即基础服务层、存储服务层、图谱服务层、图谱应用层,基于此模式下构建的知识图谱平台,可以支撑多种业务场景的应用。
1.2.1 基础服务层。基础服务层主要提供平台的服务器资源、网络资源等底层的基础服务能力。根据不同的场景特性,可以使用公有云、私有云或者混合云模式。为更好地与上层服务对接适配,应构建IaaS适配器实现多种服务模式整合与适配。
1.2.2 存储服务层。存储服务层实现知识数据的存储相关服务。根据不同的数据类型,提供多种数据库的存储服务支撑,如非关系型数据MongoDB、关系型数据库MySQL等。基于统一、标准化和规范化的SQL语言,可以实现平台存储服务的国产化适配,如对达梦数据库、人大金仓等国产数据库服务商的数据库产品实现兼容或切换。
1.2.3 图谱服务层。图谱服务是知识图谱平台的核心,实现了完整的数据汇聚处理、知识抽取、知识融合、知识加工等图谱构建和应用过程。在此过程中,知识管理模块实现监控和管理,保障知识图谱构建全流程顺利执行。此外,知识质量评估模块负责对知识在使用过程中进行评估,从而实现知识的迭代更新,持续提升知识图谱的服务质量。
1.2.4 图谱应用层。依托图谱服务层对知识数据进行融合和加工处理,图谱应用层可以提供直观可视化方式或符号形式的应用,支撑不同业务场景的需求。如基于警务大数据构建的知识图谱,可通过链路预测、最短路径等图算法,深度挖掘实体复杂的网络关系,应用在公安系统中实现嫌疑人行为的关联分析。在个人消费者领域,基于知识图谱可以搭建智能客服系统,通过分析用户自然语言问题的语义,进而在已构建的知识图谱中通过检索、匹配和推理等方式,获取正确答案,自动化、智能化解决用户问题。
以政务大数据治理为例,现有政务数据治理和云服务平台在系统构架扩展性、定制性(弹性)方面存在较大问题,使得系统难以修改和扩展,难以快速响应用户/业务部门对功能的修改和功能扩展需求。
现有政务系统存在各部门数据共享及业务互通性差的问题,一是系统开发者对业务不熟悉,缺乏对各部门业务和数据的统一梳理。二是各系统在数据格式和标准上的不一致,导致互通和共享有困难。三是现有系统在技术构架上没有一套能适应各种来源数据共享和互通方面的机制,对新的子系统的增加不能很好地融合。
柔性治理策略为解决数据治理难题带来新的思路。“以人为中心”的政府柔性治理理念,就是减少控制性手段,增加管理弹性。在政务数据领域,多元数据主体标准不一,存在较多模糊与不确定性。通过柔性治理策略,实现构建多元主体之间的动态的,扁平化、网络化的关系结构,可以主动适应变化,支持柔性灵活的治理结构,实现动态平衡的治理生态。
柔性治理技术架构为处理这种柔性关系结构创造条件和平台,有效支撑多主体之间更加快速有效的合作互动,也同时辅助实现多元主体在这种相互依赖关系中充分信息共享,资源交换,保障协作治理过程的开放、透明和包容,既实现协作的协同一致,又保持各自独立性。
柔性治理从3个方面为上述难点提供解决方案:柔性流程管理、柔性功能定制、柔性数据管理。通过将基于流程模板化(及可视化)定制和自动化生成技术,对流程审批等流程管理功能进行快速定制和开发,实现数据治理流程服务的柔性定制开发;基于参数配置和脚本自定义的技术框架,快速实现对功能模块的修改和自定义,实现柔性功能定制[1]。在柔性数据管理上方面建立一套过程数据和知识数据分离的数据存储和管理构架,同时对业务数据进行解耦和关联性分析,在对公用数据和专用数据进行分类的基础上,建立适应各种业务数据的数据结构、数据存储形态和数据交换标准及接口,解决数据交换和共享问题。通过使用柔性治理技术框架,结合微服务和松耦合技术构架,全面提高系统的定制能力、可扩展性和运行性能。
目前传统大数据平台难以真正落到应用的根本原因在于缺少智能化的手段,平台汇聚的大量数据无法有效组织,缺少能像人脑一样能够理解数据内涵的知识引擎。知识图谱则是构建这样的知识引擎来实现大数据应用落地。通过提炼、萃取、关联、整合数据,重组和链接各个数据单元之间的联系,以类似人脑神经元细胞的方式呈现数据实体关系,知识图谱已经成为知识引擎的核心,成为大数据落地应用关键技术之一。
知识图谱构建和应用过程,主要分为4个阶段,即知识汇聚阶段、知识抽取阶段、知识融合阶段、知识加工阶段,最终为各种场景下的应用提供知识服务能力。
数据是知识图谱的基础。数据类型包括结构化数据、半结构化数据和非结构化数据。在知识汇聚阶段的主要工作就是通过数据处理技术实现数据的统一化,标准化和结构化。在实际应用中,多源异构的数据存在歧义冲突、噪声大、质量不高等问题。不同来源的数据有着不同的质量,需要不同的数据加工方式。常用的数据加工技术包括数据结构化、数据识别、数据清洗和数据转换等,如对于政策制度、法律文书、协议合同等长文本类型的半结构化数据,一般采用NLP技术实现关键信息的结构化处理;对于视频、音频等非结构化数据,则需要通过视频分析、语义分割等技术实现结构化转换。
知识抽取是构建知识图谱“实体-关系-属性”三元组的过程。主要包括实体抽取、关系抽取、属性抽取、事件抽取等。通过以下步骤实现:①从数据集中识别出实体;②抽取实体之间的关系,形成关系网络;③从不同的信息源中采集特定的属性信息。目前知识抽取主要采用基于神经网络的方法,如通过构建预训练语言模型BERT进行编码,并结合CNN、RNN等算法进行抽取。知识建模阶段需要行业专家参与支持模式设计、业务场景构建等工作。在专家的指导下进行知识抽取和构建,若涉及文本抽取工作还需要行业专家进行数据标注,整个知识抽取流程不仅涉及知识图谱算法,还涉及底层的图数据存储与数据治理、NLP文本抽取和语义转换,同时各环节都需结合机器学习相关的底层人工智能技术,需要多个技术领域的专业人员协同合作。
因为知识抽取来源多样,不同的来源得到的知识不尽相同,知识融合阶段需要完成实体对齐、属性融合、值规范化等工作,将来自不同的知识源的知识在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新等步骤,达到数据、信息、方法、经验以及人的思想的融合,形成高质量的知识库。主要通过以下步骤进行[2]:①完成指示代词与先行词的合并;②完成同一实体的歧义消除;③将已识别的实体对象,无歧义地指向知识库中的目标实体。实体冲突处理用来判断知识库中的同名实体是代表同一含义、是否有其他实体也表示相同含义,识别不同来源的同一实体。解决同名实体产生冲突和歧义,通常采用聚类法、空间向量模型、语义模型等。属性归一是识别同一属性的不同描述。不同来源的数据值通常有不同的格式、不同的单位或者不同的描述形式。比如日期、地址等表达方式,这些需要规范化到统一格式。
知识加工的主要任务包括知识推理和知识质量评估。主要包括以下步骤:①构建知识概念模块,抽取本体;②进行知识图谱推理,通过知识推理识别和推断出隐藏或未知的语义,并构建新的知识网络;③对知识图谱的可信度进行量化质量评估,评估过关的知识图谱可以流入知识图谱库中存储,评估不过关的知识图谱需要返回数据环节进行调整,而后重复相同环节直到评估过关。
柔性治理的策略在知识加工环节应用尤为重要[3]。对于已经构建完成的知识图谱,其知识网络并非“刚性不变”的,需要实现柔性化机制,以适应知识网络的迭代更新。在知识图谱使用过程中,通过建立反馈模块获取知识更新要素,并结合知识加工流程,将更新的知识要素通过知识推理进行重新识别和推断语义,以更新的知识网络,最终实现知识图谱的迭代更新。
知识图谱在行业的落地应用需要有业务知识和技术背景的专业人员来实现。由业务专家参与支持模式设计、业务场景构建,与技术人员进行深入沟通,依托知识图谱平台,将业务与技术团队协同推进,才能完成知识图谱的构建和应用。
从知识图谱的构建技术看,它经历了由人工构建到自动获取、构建的过程。人工构建是早期知识图谱构建的主要方法,得益于结构化和半结构化数据的积累,结合特征工程机器学习算法,已经能够逐步实现自动化构建知识。在一些数据质量要求较高领域,如医疗、安全和金融等,仍需通过人工审核保证准确性。这是知识图谱技术发展需要经历的一个过程,随着知识图谱持续增大,数据节点同步增加,边和属性同步会带来几何倍增长,人力方式已经无法支撑校验知识图谱的质量,这将要求技术演进逐步实现算法自动进行校验,最终实现自动化构建。
知识图谱目前已经广泛应用于政务服务场景和企业服务领域。如在政务服务场景,依托物联网感知设备构建的对大气、水利、土壤等空天地环境监测网络,通过海量原始数据的采集,构建知识图谱[4]。应用知识图谱实现可视化结构复杂的原始环境数据,梳理挖掘环保对象、环保流程、环保措施等数据之间的关系并转化为知识库,对环境数据进行实时、立体化监控,进行对环境质量趋势的长期跟踪和分析研判,对质量异常波动和各类环境污染事故做出预警,提升管理能力,辅助精准决策。
在企业服务方向知识图谱也有广阔的应用前景。例如针对制造型企业自身业务体系庞大,数据多元且知识结构复杂的特性,通过知识图谱技术,将人力资源、生产车间、生产物料、机械设备、生产工艺等基础数据进行知识抽取、建模、融合和加工,构建知识服务平台,建立企业管理全流程知识图谱,可以提高生产流程中问题的预见和解决能力,提升资源配置效率、生产效率和产品质量。
在个人消费领域,应用大数据进行精准营销和服务的模式已经得到充分验证。从产品设计、销售到售后的过程中,利用信息化系统积累大量的用户数据,基于知识图谱的能力打通并与业务场景结合,利用数据驱动业务增长提高业务效率,是数字化赋能消费行业升级的一种新趋势。随着市场竞争性增加,商家希望通过增强对客户的数据洞察能力,尽可能地准确理解和深度挖掘客户的差异化需求,与自身产品和服务进行匹配,从而实现精准触达,缩短获客时间,降低营销成本。基于知识图谱技术汇聚多源客户信息,构建客户多维画像和标签体系,在个人及零售业务中,能将客户的关系、事件、行为等进行关联,在整个业务周期对客户属性进行动态、实时的描绘,深度分析客户喜好,实现产品的精准匹配推荐,发掘出有价值的营销线索。
综上所述,以柔性治理策略下的知识图谱将有效促进人工智能与大数据、物联网等技术的融合发展,推动数据智能,从而实现产业智能化升级。