■文/彭宇新
人工智能2.0时代的跨媒体智能,跨越视觉、听觉、语言等不同的感官信息,形成跨媒体认知、分析和推理的模型、方法、技术与计算平台,实现跨媒体智能应用,满足高度个性化的人类社会需求。
随着多媒体、计算机视觉和网络技术的不断发展,信息传播已经从文字、图像、音频、视频等单一媒体形态逐步过渡到相互融合的多种媒体形态,越来越显现跨媒体特性。这些来源于信息、物理、社会三元空间的跨媒体数据相互融合,全面形象地表现综合性知识并反映个体和群体的行为,对于感知与认知客观世界具有重要价值。然而,跨媒体数据多源异构、关联复杂,蕴含的知识具有内隐性和异质性,使得跨媒体智能面临重要挑战。
当今世界,人工智能已成为国际竞争的新焦点。基于已发生重大变化的信息新环境,为提高国家科技竞争力和产业竞争力,我国着眼于发展新一代人工智能。跨媒体智能是其中的重要组成部分,是计算机感知认知世界的重要基础,也是实现联想、设计、概括、创造等智能行为的关键技术。IBM Watson 2016年的报告指出,图像、视频等媒体数据已经占到大数据的80%以上,大数据的真正价值在于内容的理解与利用。针对跨媒体数据的分析与推理已受到广泛关注,成为亟须突破的重大难题,也成为国家的重要战略需求,对于抢占人工智能制高点具有重要意义。
国务院于2017年7月发布的《新一代人工智能发展规划》中将“跨媒体协同处理”列为人工智能的五大发展重点之一,并将“跨媒体感知计算”和“跨媒体分析推理技术”列为新一代人工智能重大科技项目中的基础理论和关键共性技术。通过构建跨媒体智能计算平台,形成在智能城市、智能制造、智能医疗等重要领域的产业应用,将对国民经济、国计民生、国家安全等产生深远的影响。人工智能2.0时代的跨媒体智能不仅能够通过跨媒体大数据的智能分析为政府决策提供重要依据,也能够推进企业智能制造转型,为经济增长注入新的活力,提升中国经济的发展质量。
科学研究表明,人脑生理组织结构决定了其对外界的感知认知过程是跨越多种感官信息的融合处理。而如何借鉴人脑的这一过程,通过视觉、听觉、语言等多种感知通道的协同处理来认知外部世界,成为跨媒体智能的主要研究问题。跨媒体感知认知是跨媒体智能的重要基础,主要研究针对多模态感知通道(视觉、听觉、语言等)的统一感知认知理论和多模态协同技术。然而,一方面计算机特征表示和人类认知之间存在“语义鸿沟”,另一方面不同媒体数据的特征表示不一致导致了“异构鸿沟”,使得跨媒体数据的统一感知认知面临巨大挑战。
为实现跨媒体感知认知,我们首先需要研究跨媒体感知计算技术,包括面向真实世界的主动视觉感知及计算、自然声学场景的听知觉感知及计算、自然交互环境的言语感知及计算等。在跨媒体认知上,针对海量低质、多态异构、多源异质的跨媒体数据,需要探索跨媒体统一表征理论和方法,突破跨媒体数据之间的“异构鸿沟”。具体地,可以采用子空间映射的思想,通过典型相关分析等方法,使用统一表征来表示不同媒体的数据,突破跨媒体的信息表示壁垒。近年来,深度学习在人工智能领域取得了突破性进展,英国伦敦大学学院教授肯尼思• 哈里斯(Kenneth D. Harris)于2013年11月在《自然》(Nature)杂志上发表论文指出,大脑高级皮层能够对不同媒体的感官信息进行整合。这启发我们,模仿人脑神经元结构的深度神经网络模型有望实现跨媒体统一认知。据此,我们可以构建基于深度网络结构的关联分析方法,通过对媒体内部与媒体之间关联关系的共同建模与分析,实现对复杂跨媒体内容的数据表示学习。在此基础上,研究跨媒体关联理解方法,构建跨媒体数据的相似性计算机制,实现跨媒体关联融合与描述生成。此外,在开放的大数据应用环境中,语义类别和数据总量剧增,对计算效率、自适应性、可泛化性等提出了更高要求。因此,需要进一步突破面向大规模跨媒体智能计算的算法复杂度优化理论和方法,通过构建多源异构媒体数据对象的结构化索引等机制,满足实际应用环境中的高效计算需求。
对于跨媒体智能而言,知识驱动方法是一个研究重点。早期的人工智能主要以文本为主,通过谓词、命题和规则等方法在充分定义的前提下进行推理。然而,现实世界中的知识以及推理过程通常会有视觉、听觉、语言等的共同参与,仅仅依靠文本难以利用多种媒体蕴含的丰富语义信息。因此,如何将文本推理扩展到跨媒体推理成为重要的研究问题。跨媒体知识图谱是实现跨越不同媒体的知识表达与推理的关键,现有知识图谱的研究主要基于文本数据,包括关系抽取、知识融合、知识推理等关键技术。近年来,一些知识图谱陆续被构建与开放,如DBpedia、Wikidata等,基于知识图谱的信息检索、智能问答等应用也成为广泛研究的热点问题。然而,针对具有视觉、听觉、语言等多种模态的跨媒体知识图谱的构建,以及如何基于跨媒体知识表达实现跨媒体推理等的研究尚属空白。
因此,如何扩展传统基于文本的知识体系,形成针对跨媒体数据的泛化知识图谱构建与推理技术,成为跨媒体分析走向实际应用的一个关键问题。实体是知识图谱的基本要素,跨媒体语义实体的有效获取对跨媒体知识图谱的构建至关重要。我们需要研究面向跨媒体数据的实体检测机制,通过跨媒体语义特征表示和实体识别等方法,从大规模跨媒体数据中获取语义实体。实体之间的关联关系是知识图谱的另一基本要素,跨媒体实体的关联计算是知识图谱构建的关键技术。在传统人工智能通过谓词、命题和规则等方法进行推理的基础上,我们需要研究演绎逻辑、类比推理等技术手段在跨媒体中的应用和发展,从大规模跨媒体数据中自动推理得到新的关联模式。基于上述研究,我们可以进一步实现知识的持续增量和自动化获取,使得跨媒体知识图谱同时具备概念识别、实体发现、属性预测、知识演化和关系挖掘等能力,能够动态更新与自我完善,实现永不终止的知识获取、挖掘和演化过程。
近年来,计算机和大数据科学的发展方兴未艾,人工智能技术正被越来越广泛地应用于各个行业,深刻改变着人类的生活与思维方式。跨媒体智能作为新一代人工智能发展的重要内容具有广阔的应用前景,将对各个行业产生重要影响。这里我们介绍3个典型的应用领域:内容监管、网络态势分析和智能医疗。
●跨媒体内容监管
互联网已经成为影响社会稳定的重要因素之一。由于互联网跨媒体数据具有语义抽象、复杂多变、孤立分散、海量动态等特点,自动分析与识别的难度很大。多个国家尝试建立智能化的互联网内容监管系统,但跨媒体数据的异构性与分散性导致这些系统时效性差、覆盖面窄。针对这些问题,我们可以通过基于跨媒体协同处理的智能数据识别技术,以及基于跨媒体关联分析的信息融合方法,利用跨媒体语义互补性实现对不同媒体数据的综合分析与识别。通过构建有效的跨媒体内容监管技术,提高我国互联网内容监管的智能水平,维护我国互联网内容安全和促进网络文化健康发展。
●跨媒体网络态势分析
当前互联网环境中,舆情信息已经从文本为主转变为包括文本、图像、视频、音频等的跨媒体形式,跨媒体网络信息态势分析对维护社会稳定、处置突发情况等国家重大需求具有重要支撑作用。针对跨媒体网络态势分析应用,我们需要研究事件热度、用户观点及情感倾向性的演化规律,发展跨媒体跨空间协同分析和事件推理技术,通过基于知识元的跨媒体语义分析方法和基于情感观点的话题追踪方法,实现对海量动态互联网舆情话题的实时监测与传播分析。
●跨媒体智能医疗
医疗行业是一个关系国计民生的重要领域,人工智能新技术对于提高医疗服务的智能化、个性化水平,推动医疗事业的发展具有重要作用。但是,现有智能医疗模型方法着眼于对同源同质医疗数据的分析,无法实现多源异构的跨媒体医疗数据的协同处理。针对这一问题,需要建立多源医疗数据融合与分析机制,通过跨媒体数据的协同分析,实现疫情监测和预警、临床决策、医疗资源管理、药品调配等重要应用,提升医疗服务的质量与效率。
要充分发挥跨媒体智能的应用潜力,关键在于形成集底层跨媒体数据表征、索引、关联和高层知识表达、演化、推理等机制为一体的跨媒体智能计算系统,在智能城市、智能制造、智能医疗等重要领域形成生态圈和产业链。在人工智能2.0时代,跨媒体智能的深度应用将对互联网、医疗、教育、城市管理、环境保护等重要领域产生深远影响,在提升国家实力、改善民生上发挥重要作用。