新型基础设施建设是为加快国家规划建设推出的重大工程和基础设施建设项目,面向新产业、新业态和新模式,同时助力传统基础设施的智能化改造。当前人工智能的发展仍然处于弱人工智能的状态,研究重心由感知智能过渡到认知智能。知识图谱是一种用图模型来描述知识和建模世界万物之间关联关系的大规模语义网络,帮助机器实现理解、解释和推理的能力,是认知智能的底层支撑。2019年知识图谱相关的融资金额较2018年增长超过200%,逐渐成为人工智能又一热点产业,产业链初具规模,2019年知识图谱核心产品市场规模约65亿元,知识图谱技术带动经济增长规模约391.8亿元。
2020年4月,国家发展和改革委员会将新型基础设施初步定义为:以新发展理念为引领,以技术创新为驱动,以信息网络为基础,面向高质量发展需要,提供数字转型、智能升级、融合创新等服务的基础设施体系。
与传统的基础设施建设相比,新基建体现出“重创新、补短板”的特征:主要面向新产业、新业态和新模式,促进经济结构优化;但同时也对传统基础设施建设形成补充,助力传统基础设施的智能化改造,提高传统基础设施的运行效率。伴随着技术革命和产业变革,新型基础设施的内涵和外延还将不断丰富和延展。
人工智能是新基建的重点领域
人工智能是新一轮科技革命和产业变革的核心驱动力,在新基建的三大领域中,两大领域都直接提及人工智能。在信息基础设施领域,人工智能与云计算、区块链一起被视为新技术基础设施;而在融合基础设施领域中,人工智能则被视为支撑传统基础设施转型升级的重要工具。人工智能新基建的本质不仅仅指向其自身的产业化发展,更是在实体经济中寻找应用场景,赋能生产力升级,即作为重大应用基础设施,推动各行业完成智能化转型,实现新旧动能的转换。
人工智能进入认知智能探索阶段
当前呈现弱人工智能状态,在认知智能领域还处于初级阶段。人工智能的本质是进行生产力升级,因此评判人工智能技术是否有价值,要看其应用是否贴近生产核心。一般认为,人工智能分计算智能、感知智能和认知智能三个层次。计算智能即快速计算、记忆和储存的能力;感知智能即对自然界具象事物的识别与判断能力;认知智能则为理解、分析等能力。当前,数据标准化趋于成熟,以快速计算和存储为目标的计算智能基本实现;在机器学习和深度学习技术的推动下,以视听觉等识别技术为目标的感知智能突破了工业化红线,实现了机器对自然界具象事物的判断与识别。
感知智能呈现的终究是一种弱人工智能状态,还只能在某一方面的人类工作上协助或替代人类。当人们能使用机器识别更多事物,自然引发了对事物的理解和分析等深层次的自动化知识服务的需求,而需要外部知识、逻辑推理或者领域迁移的认知智能领域还处于初级阶段。
知识图谱最常见的表示形式是RDF(三元组),即“实体x关系x实体”或“实体x属性x属性值”集合,其结点代表实体(entity)或者概念(con⁃cept),边代表实体/概念之间的各种语义关系。由于知识图谱富含实体、概念、属性和关系等信息,使机器理解与解释现实世界成为可能。
上世纪七八十年代,传统的知识工程与专家系统解决了很多的问题,但都是在规则明确、边界清晰、应用封闭的限定场景取得成功,严重依赖专家干预,一旦涉及到开放的问题就不太可能实现,因此难以适应大数据时代开放应用到规模化的需求等问题。相对于传统的知识表示,知识图谱具有规模巨大、语义丰富、质量精良与结构友好等特点,宣告知识工程进入了一个新的时代。
知识图谱是认知智能的底层支撑
让机器具备认知智能,具体体现在让机器掌握知识,拥有理解数据、理解语言,进而理解现实世界的能力,拥有解释数据、解释过程,进而解释现象的能力,拥有推理、规划等一系列人类所独有的思考认知能力,而这些能力的实现与大规模、结构化、关联密度高的背景知识是密不可分的。
知识图谱通过对海量结构化和非结构化数据进行知识萃取并关联形成网状知识结构,对概念间的关系属性进行联结和转换,支持非线性的、高阶关系的分析,为描绘物理世界生产生活行为提供有效的方法与工具,是认知智能的底层支撑。知识图谱帮助机器实现认知智能的“理解”和“解释”能力:通过建立从数据到知识图谱中实体、概念、关系的映射,使机器能理解数据,从数据中提炼出行业或领域内高精度的知识;通过利用知识图谱中实体、概念和关系来解释现实世界中的事物和现象,使机器能解释现象。基于知识图谱和逻辑规则或统计规律,机器能推理出实体或概念间深层的、隐含的关系,实现认知智能的“推理”能力。
知识图谱是人工智能应用链条的第一步,是人工智能的底层技术。知识图谱在高效数据处理和知识加工推理方面的能力,推动人工智能既有产品的升级或提供更有效的解决方案,同时也可转化为新的商业产品形式。
知识图谱的产品形式可以分为原图应用和算法支撑两类。原图应用是指基于知识图谱的图结构和丰富的语义关系,直接通过图谱产生价值的服务形式,例如图挖掘、关联分析等。其中,通用知识图谱被视为下一代搜索引擎的核心技术。算法支撑是指通过知识图谱对信息源的数据进行处理,将产出的结构化关联数据用于其他人工智能任务的算法模型训练和应用,进而得到能解决具体场景问题的研判建议,形成产生价值的服务形式。
知识图谱为其他人工智能任务提供算法支撑的典型应用主要包括智能问答、智能搜索和智能推荐、决策分析系统等。基于知识图谱的智能搜索能对文本、图片、视频等复杂多元对象进行跨媒体搜索,实现篇章级、段落级、语句级的多粒度搜索。
智能搜索使计算机能更准确地识别和理解用户深层的搜索意图和需求,在知识图谱中查找出目标实体及其相关内容,对结果内容进行实体排序和分类,并以符合人类习惯的自然语言的形式展示,从而提高搜索体验。
智能问答分为直接回答、统计回答和推理回答。基于知识图谱的智能问答能从实体和短句两个维度进行挖掘,能理解多样问法和有噪音问法,具有较高的准确率、召回率。在对话结构和流程设计上,能实现实体间上下文会话的识别与推理,最终实现更自然的人机交互。基于知识图谱的智能推荐则通过获得用户和物品的精确画像,从而实现准确的匹配和有针对性的推荐,实现场景化、任务型的推荐。
中国城市存在巨大的存量治理和精细化发展需求。随着城市公共管理的数据来源由政务数据不断拓展至交通、视频、环境等其他城市运行感知数据以及企业数据,城市大数据平台也从政务共享交换平台,发展成为多方共建共用共享的大数据平台。基于知识图谱技术,将分散在政府各个部门、生产生活各个领域的相互孤立的数据资源联通共享,实现多源数据集成交换,从而对政务数据和社会数据进行深度挖掘。通过数据融合分析与管控,最大化发挥数据要素的效能,发现不同群体、不同行业的服务需求,实现政务服务的精准化供给、政府科学决策和高效社会治理。
公安大数据是全面助推公安工作质量、效率、动力变革的重要力量。随着跨部门、警种、业务的协同和整合大趋势的到来,知识图谱能通过数据分析、文本语义分析等手段,抽取出人、物、地、机构、虚拟身份等实体,并根据其中的属性、时空、语义、特征、位置联系等建立相互关联,构建多维多层的,实体与实体、实体与事件的关系网络。在解决公安大数据发展中面临的数据缺乏关联性、缺乏全警种智能应用等问题时发挥重要作用,真正激发大数据的价值。
建设公安知识图谱遵循知识图谱搭建逻辑。知识抽取、本体层建设和实战应用开发等环节需要运用分布式储存、关联算法、语义推理等技术,将公安部门多年业务中积累的技战法进行总结和可视化处理,与技术算法相互转换,以集成犯罪和预测模型,实现重点人员场所关联分析、物品关联分析、团伙关系分析、异常事件挖掘、相似案件推理等功能,提升公安信息化的智能化水平,促进公安情报研判的演进,高效服务公安的打防管控工作,做到精准的犯罪预测预警。
医疗健康是典型的数据海量且多源异构的行业,数据专业性强、结构复杂,数据融合在医疗健康行业应用场景中更加困难。利用知识图谱的能力,聚合核心医学概念和医疗生态圈知识,从海量的临床案例中对经验和知识进行提炼整理、录入标注、体系构建,在解决优质医疗资源供给不足和医疗服务需求持续增加的矛盾中产生重要的作用。
当前人工智能技术更多应用在如拍照搜题、口语评测、课堂监控等外围需求的工具上,并未能有效深入到教学场景中。搭建贯穿教材知识体系、教学资源管理和受教育者学习轨迹的知识图谱,将教与学的全过程进行可视化展现,使静态知识点数据与动态教学活动数据产生关联,为算法利用提供支撑环境。
知识图谱在教育领域主要应用场景有:一是将学科教材知识进行本体建模,形成可关联性查询的知识网络;二是以图结构将教学资源以及关系进行语义化组织,以便合理调用;三是在知识图谱的基础上,应用大数据、AI等技术形成面向学习目标的个性化学习路径,实现千人千面的教学方案;四是面对受教育者搭建个人知识图谱,通过对其知识点学习进度和考试反馈数据的实时关联,形成知识掌握状态的可视化个人画像,实现习题推送和老师一对一教学有的放矢;五是将教育领域碎片化、多源异构数据进行处理,形成标准化的关联数据集,为机器学习算法训练提供必要条件。
制造业体系庞大、场景丰富、产品类型多、定制化程度高,具有数据庞大且知识结构复杂的特性,存在着如工序流程和工艺制造等事理知识,同时也存在大量的定量知识。事件之间存在着大量的事理逻辑关系,而不同角色本体构造提出的需求也不尽相同。引入知识图谱技术,将工厂车间、人工资源、物料组件、设备制具、工艺流程、故障等制造业的基础数据进行知识分类和建模,通过对知识的抽取,对定量知识与事理知识的融合以及对实体之间复杂关系的挖掘,构建制造业知识服务平台,建立产品规划、设计、生产、试制、量产、使用、服务、营销和企业管理等全生命周期的互联,还能融合环境、焚烧、水务、模具、能源管理等多个相关行业的知识内容,通过快速搜索和推理关系中的趋势、异常和共性更好地组织、管理和理解制造业体系的内部联系,将知识转化为决策依据,破除产品封闭式的重复研发实现创新,进行全流程多方面的协调管控,提高制造流程中问题的预见和解决能力,提升资源管理能力、生产效率和产品质量。
当前建筑行业仍是劳动力密集型行业,拥有动态且复杂的行业结构。根据不同项目类型、项目阶段和项目目标,将项目过程中不断重复的知识、使用知识本体的方式进行组织化的设计和管理,以实现从图纸设计、审图、施工、验收到楼宇运维全流程内知识的重复使用和组织化管理,是建筑行业实现智能化的目标。当前建筑信息模型(BIM,Build⁃ing Information Modelling)从工程实践到管理理念上都在给建筑业与施工业带来不同程度的变革。作为含有丰富语义信息的三维模型载体,BIM的属性与信息体系包含了建筑的空间几何信息、属性信息等,是实体建筑的数字化表达,具有真实性和全面性的特点,都可以有效分类和聚集成为若干知识本体。结合知识图谱的知识抽取、知识融合及知识加工等构建技术,集合成以BIM数据与规范为主的建筑工程行业知识图谱,从而提升设计阶段BIM审图规范与效率、辅助施工阶段质量管理与决策、改善运维阶段数据流转,进而提高分析能力。
城市是基础设施建设的核心载体,城市智慧化建设是新基建价值实现的重要需求领域。数据是城市治理最重要的资源之一,新基建的各个领域中,5G使数据传输实现跳跃式发展,满足更多应用场景;物联网采集海量数据,并根据反馈提供命令执行支持;云计算提供计算存储等基础服务,为大规模软硬件、数据的操作和管理提供平台。例如,“苏州交警5A计划”依托人工智能、大数据、物联网、视频识别、移动互联网等现代信息技术,使交警自有数据、互联网数据及其他部门数据实现汇聚共享,解决了城市外场设备多、应用效率低、数据独立分散、信控手段单一落后等问题。“苏州交警5A计划”在全市信号控制路口达5887个,联网率达81.1%,实现交通状态精准感知、交通拥堵成因深度挖掘、交通事件预测、交通信号实时优化等功能,2019年全市交通死亡事故起数和死亡人数同比下降13.67%、13.21%。
由此可见,人工智能技术尤其是通过对知识图谱的应用,能对城市生活中的衣、食、住、行,城市管理中的行政管理、公共事业管理、劳动与社会保障、土地资源管理等数据进行分析和挖掘,建成易于组织、管理和利用的动态知识库,提升城市治理效率。