◆鲜光靖 黄永忠
(1.信息工程大学 河南 450001;2.数学工程与先进计算国家重点实验室 河南 450001)
视觉问答技术(Visual Question Answering,VQA)是人工智能领域的一项新兴课题,该课题结合计算机视觉和自然语言处理(Natural Language Processing, NLP)两个学科领域,其任务是把给定的图像和与图像相关的自然语言问题作为输入,生成一个自然语言答案作为输出,即输入图像和与图像相关的文本问题,输出确定正确的答案,其中答案可以是几个字或短语,例如二值(是/否)答案或各种多项选择00的候选答案。此外,“填空”也是VQA的重要任务,即图像的描述必须用一个或多个缺失的单词填补。
在计算机视觉任务中,所要处理的任务通常在系统运行前确定,例如图像字幕处理,系统的输出由输入的图像决定,图像不变则输出不会改变。然而,在VQA任务中,问题及其所需操作对象都是未知的,问题是在系统运行过程中提出,输出的答案因训练集和操作对象的不同而有所区别。因此,VQA更充满“智能”的味道。首先,与NLP领域文本问答相比,VQA任务面临着图像维度更高,噪声更多,图像缺乏结构化语义和语法规则等挑战。其次,与高度抽象的自然语言相比,现实世界的图像更具丰富多彩性,例如自然语言的短语“黄衬衫”仅高度抽象概括物体“衬衫”,而同样的现实世界的图像“黄衬衫”却有多种不同的描述,例如“衬衫”的“大小”、“位置”、“样式”等一系列属性。最后,与图像字幕相比VQA任务更加复杂,VQA任务通常需要一些额外信息,例如常识、与图像内容相关的专业知识、甚至图像中的特定元素的百科知识等。因此,VQA是一个“知识综合体”,对它的评估更具有开放性。
首先将图像和NLP结合的模型是“SHRDLU”系统,它允许用户使用自然语言命令计算机在“块世界”移动各种对象。此外,会话式机器人代理的研究也是以视觉图像研究为基础。然而,与VQA自由开放式任务相比,这些研究仅限于特定领域,并且语言形式受限。受益于神经网络、计算机视觉和 NLP技术的发展,以及相关大型数据库不断完善,近些年出现大量的VQA研究成果。本文综合该领域研究进展,总结目前相对成熟的VQA模型,并指出VQA任务的下一步发展方向。本文组织结构如下:
第一部分简要总结神经网络在图像处理方面的主要贡献:图像字幕,人脸识别以及视觉跟踪领域的研究情况。
第二部分析基于神经网络的VQA模型,这也是本文的重点。依据现存模型处理VQA任务的贡献情况,将VQA模型分为四类:联合嵌入模型(Joint Embedding Models)、关注机制模型(Attention Mechanisms)、模块化组合模型(Compositional Models)和知识库增强模型(Knowledge Base-enhanced Models)。联合嵌入模型使用卷积神经网络(Convolutional Neural Networks,CNNs)和循环神经网络(Recurrent Neural Networks, RNNs)在共同特征空间学习图像和句子的嵌入,然后馈送到分类器预测答案。关注机制模型受图像字幕研究相关技术启发通过关注输入的特定部分来改进联合嵌入模型,主要思想是用空间特征图代替整体特征,并允许问题与图的特定区域进行交互。模块化组合模型允许对特定问题执行特定的计算。例如Andreas等人使用语法分析器分解给定的问题,然后根据组成问题的各模块构建神经网络。知识库增强方法通过查询结构化知识库来处理外部数据的使用问题,知识库信息涵盖的范围包括常识到百科,并且不必在训练时间内对其进行访问。
本文最后部分总结全文,并给出VQA研究下一步的方向。
神经网络算法在图像处理上与传统的序列处理算法相比具有高度并行处理能力、较强的学习能力,非线性映射功能,以及对噪声或不完全数据处理表现出的泛化功能。因此,基于神经网络的图像处理研究拥有广阔的应用前景,例如,图像字幕,人脸识别,以及视觉跟踪领域的研究等,而相关领域技术的研究也指导了图像问答技术的发展。
Donahue等人研发一套端到端的大型视觉学习循环神经网络模型,并演示了该模型在视频识别、图像描述、问题检索和视频叙述上的应用。Mao等采用多模循环神经网络模型(Multimodal Recurrent Neural Networks,M-RNN)根据给定的前置单词和图像直接模拟生成单词的概率分布图,然后根据此分布生成图像字幕。该模型由两个子网络组成:用于处理句子的深层循环神经网络和处理图像的深层卷积网络。这两个子网络在多模式层中相互作用以形成整个M-RNN模型。
文献[1]提出的 DeepFace模型,以及 Sun等人相继提出的DeepID模型、 DeepID2模型、DeepID2+模型和DeepID3模型都是利用卷积神经网络分层提取图像特征,从而减少信息的丢失,在人脸识别中获得了很高的准确率。Google公司的FaceNet模型采用端到端的学习方法,引入三元组损失函数,并将其应用到多个层中。经户外人脸检测数据库(Labeled Faces in the Wild, LFW)和 YouTube 人脸数据库测试,识别准确率分别为 99.63%和95.12%。在人脸识别领域的研究中神经网络显示出强大的优越性。
文献[2]首先给出基于CNNs的视觉跟踪算法,该算法采用三个3卷积层和若干降采样层的CNN对当前帧和上一帧进行采样,从而获取目标、背景以及时间和空间特征。概率图采用两个采样对,分别输入两个 CNNs,得到两组全局信息和局部信息共四张关键点的概率图,从而提高跟踪的精确度。文献[3]采用VGG-Net深度模型,对输入图片分层提取特征,利用相关滤波器处理各层输出,最后使用粗细转换估算策略,从而得到目标较精确的位置。
Malinowski等人第一次提出“开放世界”(open-world)主题的视觉问答任务。他们采用文本语义解析与贝叶斯公式图像分割相结合的方法,从训练集中最近邻居进行采样。但是该模型需要人工定义谓词,从而导致数据集难以扩展。此外,过度依赖图像分割算法的精度和图像深度信息也是算法的缺陷之一。另一个对VQA任务的早期尝试是Tu等人提出的基于文本和视频的联合解析图方法。Genman等人同样致力于早期的VQA研究工作,他们设计一种在图像上进行训练的自动“查询生成器”,可以从任何给定的测试图像中生成二值问题。这些早期方法的共同特征是将问题限定在预先设定的形式中,缺乏“自由”和“开放”的特性。本章将重点介绍目前具有“自由”和“开放”特性的基于神经网络的视觉问答模型,并将其划分归类。
联合嵌入模型是将图像和文字联合嵌入,即允许模型在公共的特征空间中学习,采用 CNN预训练的方式进行物体识别从而获取图像特征,对问题和图像内容进行推理。文字特征则是在大型文本库上以单词嵌入的方式获取。单词嵌入的实质是将单词映射到反映语义相似性距离的空间中。问题中每个单词的嵌入馈送到RNN以捕获句法模式并处理可变长度序列。
Malinowski等人提出“Neural-Image-QA”模型,该模型采用长短期记忆单元(Long Short-Term Memory cells,LSTMs)实现循环神经网络。使用RNN的优势是可以处理可变大小的输入(问题)和输出(答案)。图像特征是通过物体识别过程中CNN预训练的方式生成,然后将问题和图像特征一起馈送到LSTM编码器产生固定尺寸的特征向量,然后传递给LSTM解码器。该过程中每次迭代一个单词,最后解码器产生可变长度答案。在循环过程中,如果LSTM预测出特殊符号
Gao等提出略有不同的方法,命名为“Multimodal QA” (MQA)模型。该模型使用 LSTM对问题进行编码并产生答案,但与[5]有两点不同。首先,在LSTM编码器和解码器之间使用公共共享权重,而MQA学习不同的参数,并且只共享单词嵌入。其次,作为图像表示的CNN特征在输入问题之前不馈送到编码器中。
Noh等人采用自适应确定权重方法,利用带动态参数层的CNN处理 VQA问题。他们利用门控循环单元(Gated Recurrent Units, GRU)组成单独的参数预测网络将问题作为输入,通过输出端的完全连接层产生候选权重,从而预测自适应参数。与和其相比提高了答案的准确率。
Fukui等人提出一种池化方法联合嵌入视觉和文本特征。他们通过随机地将图像和问题特征投影到更高维空间来执行“多模紧凑双线性池”(Multimodal Compact Bilinear pooling,MCB),然后在傅里叶空间中将两个向量卷积以获得高效率。Kim等人使用多模残差学习网络 (Multimodal Residual learning Networks,MRN) 学习图像和语言的联合表示。Saito等人提出“DualNet”模型,该模型集成两种操作,即元素加法和元素乘法,以嵌入视觉和文本特征。类似,预先设定可能的答案集合,并将答案作为分类问题处理。Ka等人对预期答案类型进行了详细的预测,并在贝叶斯框架中构造答案。
联合嵌入方法中部分模型没有利用RNN对问题编码。例如,Ma等使用CNNs处理问题,图像和文本特征通过多模CNN形成整体均匀的卷积架构嵌入到公共空间。Zhou和Antol等都是用传统的词袋表示问题。
联合嵌入模型在原理上是最简单的,也是目前大多数 VQA研究方法的基础。然而,联合潜入模型存在两个缺陷,首先,该模型只能捕捉到训练集中存在的知识,而对现实世界中众多的扩展数据集外的知识则无能为力。第二,以这种方式训练的神经网络的能力有限,会获取过多“额外”的信息。最新的改进模型,例如MCB和MRN,在VQA领域具有较强的性能,并在特征提取和嵌入空间的投影方面仍具有较大的改进空间,这也联合嵌入模型下一步发展的方向。
尽管联合嵌入模型仍具有较大的发展空间,但是以全局特征作为视觉输入,在预测阶段引入噪声仍是该模型的短板。关注模型的主要目标是通过使用本地图像特征,并允许模型对不同区域的特征赋予不同的重要性来解决此问题。Xu等在图像字幕的研究中提出对视觉任务采用关注方式的早期应用。模型的关注(attention)组件首先识别图像突出区域并做进一步处理,然后在这些区域上生成字幕,所以很容易用此方法关注图像中与问题相关的区域来处理VQA任务。
文献描述了怎样在标准 LSTM模型中增加空间关注度。“关注增强”(attention-enhanced)LSTM模型计算过程如下:
其中, C(I)表示图像I的卷积特征图。at是在第t步为每个卷积特征设置的贡献值,at值越大表示与问题对应区域的相关性更高。在该公式中,标准LSTM可以认为是at值均匀分布的一个特殊情况,即每个区域的贡献值相等。Jiang等人也采用了类似的机制。
Chen等提出与上面描述的单词引导(word-guided)关注不同的模型。他们通过在空间特征图中搜索与输入的问题语义相对应的视觉特征来生成“问题引导关注图”(Question-guided Attention Map,QAM)。模型把问题嵌入从语义空间转换到视觉空间生成卷积核,然后用视觉特征图与可配置卷积核进行卷积实现搜索,卷积核中包含由问题决定的视觉信息。Yang等也采用这种方案并与堆叠关注网络(Stacked Attention Networks, SAN )结合迭代地推断答案。Xu等提出空间记忆网络 VQA模型(Spatial Memory Network VQA, SMem-VQA),SMem-VQA采用多跳图像关注架构,第一个hop采用单词引导关注,第二个hop采用问题引导。在文献中,作者使用对象策略生成图像区域,然后选择与问题相关的区域生成答案。Ilievski等人使用现成的对象检测器识别与问题关键词相关区域,然后利用LSTM融合这些区域的全局特征信息。上述模型研究的重点聚焦在视觉关注上,而Lu等把重点拓展到图像的表示上,他们结合图像推理和问题关注,提出了“HieCoAtt ”模型,对称地处理图像和问题。
此外,一些研究人员将关注机制模型与其他模型结合,提出组合创新式的模型,例如Fukui将关注机制模型与MCB结合处理VQA任务,Xu等将记忆网络与关注机制结合以解决VQA问题。
总的来说,关注机制模型使用全局图像特征提高了模型性能。例如,文献的研究表明,本章描述的关注增强型LSTM模型在“Visual7W”数据集上执行“Telling”和“Grounding”任务表现的都比“VIS+LSTM”模型优秀。关注机制模型在现存数据集上都有较高的准确性,但是对于二值(是/否)问题没有太多优势,因为二值问题需要更长的推理链,而开放式式问题通常仅需要从图像中识别一个概念即可,因此,对于二值问题的处理,关注模型可能需要从其他方面进行改进创新。
上述讨论的模型使用CNNs和RNNs提取图像和句子表示,模型的性能与CNNs和RNNs有关。在人工神经网络中,模块化架构成为越来越受欢迎研究的方向,该方法包含并且连接不同功能的模块,例如记忆能力或者特殊类型推理能力的模块等。模块化的潜在的优势是可以更好地利用监督机制。一方面,它有助于传递学习,可以在不同的架构和任务中使用并训练相同的模块;另一方面,它允许使用深度监督机制,即对目标的优化取决于内部模块的输出。考虑其在模块化方面的贡献,本章重点关注两类特殊模型,即神经网络模块(Neural Module Networks,NMN)和动态记忆网络(Dynamic Memory Networks,DMN)。本文中第2.2节和2.4节讨论的部分模型方法也可以划分为组合模型类别,本节将不再详细介绍。
(1)神经网络模块(NMNs)
Andreas等人首先将NMNs引入VQA任务,旨在探索问题的语言组织结构,处理各种复杂问题。对于简单的问题仅需从图像中检索一条信息即可回答,而对于复杂且抽象的问题可能需要多个处理步骤,故NMNs反映了网络中每个问题实例的复杂性。
NMNs使用NLP中的工具对问题进行语义解析,解析树变成预制集合模块的组合,然后用于回答问题。该模型中所有模块都是独立且可组合的,每个问题实例执行不同的计算,而且在实验期间可以使用一系列在训练期间彼此不可见的模块。输入和输出模块有三种类型:图像特征,图像区域和标签(用于分类)。根据输入和输出类型可以预定义一系列模块,但是抽取行为需要在特定的问题实例上进行端到端训练,因此训练不需要额外的监督。
Andreas等人在文献中采用“standford”依赖关系解析器进行问题解析,从而确定句子各部分间的语法关系,然后使用特殊手写规则,以模块化的组合形式将解析树转化为结构化查询。此外,在文献中Andreas等人还额外学习了排名函数从候选解析器中选择最佳结构。
NMNs的局限性是解析问题期间形成的固有瓶颈:该阶段确定了网络结构,而且错误不可恢复。此外,模块的组装使用简化的问题,舍弃了一些语法提示。而作为临时解决方案,NMNs的作者将其输出与经典LSTM问题编码器的输出取均值来获得最终答案。在实践中,因为VQA基准测试集缺少复杂的问题,NMNs的潜力没有得到充分发挥。
(2) 动态记忆网络(DMNs)
动态记忆网络是具有特定模块化结构的神经网络。Kumar等应用动态记忆网络处理自然语言问题,随后0000基于该算法陆续进行改进,并将其应用于文本问答任务,而Xiong等人首先将其应用到 VQA 任务。DMNs属于广义的记忆增强(memory-augmented)网络,在输入的内部表示上执行读写操作。这种机制与关注模型类似,旨在通过对数据的多个部分之间的多次交互进行建模来处理需要复杂逻辑推理解决的任务。
动态记忆网络由四个相互独立的模块组成。输入模块将输入数据转化到“facts”向量,其因输入数据类型变化而异。问题模块使用GRU计算问题的向量表示。情景记忆模块检索回答问题所需的facts向量,在VQA任务中,情景记忆模块也包括关注图像特定区域的关注机制模型。DMNs模型结合关注机制,选择相关向量和更新策略,从当前状态和检索到的 facts向量之间的相互作用中生成新的记忆表示。最初由问题模块的表示初始化,最后,答案模块使用问题和记忆的最终状态预测单词的多分类输出。
文献的输入模块在VGG CNN数据集上采用小图像切片方式提取特征,然后以句子的形式将这些特征馈送到GRU,并以蛇形方式遍历图像。该方法是对原始输入模块使用GRU处理句中单词的改进。
DMNs模型与NMNs模型相比,在处理二值(是/否)问题上相差无几,但在数值问题上DMNs表现略逊色,但是在其他类型的问题上DMNs模型更具优势。
VQA任务包括对图像内容的理解,但通常需要先验知识,包括“常识”、“专业知识”甚至“百科”等。例如,回答“图像中有多少个哺乳动物?”这类问题,“回答者”首先要知道“哺乳动物”是什么,并且哪些动物属于哺乳动物的范畴。因此,这就要求VQA模型具有丰富的外部知识库来处理这类问题。基于此需求出现了大量关于知识的结构化表示的研究,这也推动了大型知识库的发展,例如DBpedia,Freebase,YAGO,OpenIE,NELL,WebChild和 ConceptNet等知识库。这些数据集以机器可读的方式存储先验知识和事实知识,每个事实知识通常表示为三元组(arg1,rel,arg2)的形式,其中arg1和arg2表示两个概念,而rel表示两个概念间的关系。这些事实性知识的集合形成一个互连的资源描述框架图(Resource Description Framework, RDF),并可通过查询语言,例如SPARQL,进行访问。
Wang等使用DBpedia知识库提出一个VQA模型,并将其命名为“Ahab”。该模型首先用 CNNs从给定的图像中提取视觉概念,然后将它们与DBpedia中表示类似概念的节点关联。虽然联合嵌入模型学习了从图像/问题到答案的映射,但是作者们提出了学习从图像/问题到构建的知识图查询的映射,最后总结查询结果获得最终答案。虽然可以用自然语言提供问题,但是模型使用了人工设计的模板进行分析,所以导致该模型能处理的问题类型有限,这也是主要缺陷。提出的改进模型--FVQA,该模型使用两个额外的知识库:ConceptNet和WebChild,采用LSTM和数据驱动的方法学习图像/问题到查询的映射。上述模型使用推理链或支持推理过程的事实来获得答案。与神经网络相比,他们在产生答案过程中需要较少的计算量。
Wu等提出一种与外部知识库相结合的联合嵌入式模型。首先对给定的图像用 CNNs提取语义属性,然后从简版描述的DBpedia中检索与这些属性相关的外部知识,并用Doc2Vec把外部知识嵌入到固定大小的向量,然后将嵌入向量馈送到LSTM模型编译问题,最后产生答案。
Ahab模型和FVQA模型都可处理需要先验知识的视觉问题,然而,目前大部分现存的VQA数据集中的问题几乎不需要外部知识,因此在这些数据集上进行测试并不能彰显出两个模型的优势,而且两个模型只能处理手工编码的模板和预先定义的数量有限的问题类型。使用Doc2Vec对检索到的信息进行编码,但编码过程与问题无关,而且可能产生与问题无关的信息。
记忆增强神经网络的概念可以为外部知识库模型提供可扩展的框架,用于合并和自适应地选择VQA的相关外部知识,这将是外部知识库模型努力的方向。
本文对视觉问答任务的最新技术进行了全面的总结,并将现存模型依据其处理VQA任务的贡献情况分为四类。VQA中常用的方法是利用神经网络将问题和图像映射到公共特征空间中进行向量化表示(联合嵌入模型)。基于联合嵌入模型众多学者提出很多的改进方法,综合分析后可将它们划分为三类,即关注机制模型,模块化组合模型和基于外部知识库的方法。通过对各种模型的研究可以发现,各模型在利用神经网络处理VQA任务上优势与缺陷并存,仍存在较大的改进的空间。扩展结构化知识库,应用文本问答和自然语言处理等成熟技术处理VQA问题是VQA模型未来的发展方向。
[5]Li S, Kulkarni G, Berg T L, et al. Composing simple image descriptions using web-scale n-grams[C]// Fifteenth Conference on Computational Natural Language Learning. Association for Computational Linguistics,2011.
[6]Hodosh M, Young P, Hockenmaier J. Framing Image Description as a Ranking Task: Data, Models and Evaluation Metrics[J]. Journal of Artificial Intelligence Research, 2013.
[7]Vedantam R, Zitnick C L, Parikh D. CIDEr:Consensus-based image description evaluation[J]. Computer Science, 2014.
[8]Winograd T. Understanding natural language.[J].Cognitive Psychology, 1972.
[9]Kollar T, Krishnamurthy J, Strimel G. Toward Interactive Grounded Language Acqusition[C]// Robotics: Science and Systems,2013.
[10]Cantrell R, Scheutz M, Schermerhorn P, et al. Robust spoken instruction understanding for HRI[C]// ACM/IEEE International Conference on Human-Robot Interaction. IEEE Press, 2010.
[11]Matuszek C, Fitzgerald N, Zettlemoyer L, et al. A Joint Model of Language and Perception for Grounded Attribute Learning[C]//Proceedings of the 29th International Conference on Machine Learning (ICML-12),2012.
[12]Roy D, Hsiao K Y, Mavridis N. Conversational robots:building blocks for grounding word meaning[C]// Hlt-Naacl 2003 Workshop on Learning Word Meaning From Non-Linguistic Data. Association for Computational Linguistics,2003.
[13]Gao H, Mao J, Zhou J, et al. Are you talking to a machine?Dataset and methods for multilingual image question answering[J].Computer Science, 2015.
[14]Malinowski M, Rohrbach M, Fritz M. Ask Your Neurons:A Neural-Based Approach to Answering Questions about Images[C]// IEEE International Conference on Computer Vision.IEEE Computer Society, 2015.
[15]Ma L, Lu Z, Li H. Learning to Answer Questions From Image Using Convolutional Neural Network[c]//AAAI'16 Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence,2016.
[16]Xu K, Ba J, Kiros R, et al. Show, Attend and Tell: Neural Image Caption Generation with Visual Attention[J]. Computer Science,2015.
[17]Xu H, Saenko K. Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering[C]// European Conference on Computer Vision.Springer International Publishing, 2015.
[18]Chen K, Wang J, Chen L C, et al. ABC-CNN: An Attention Based Convolutional Neural Network for Visual Question Answering[J]. arXiv preprint arXiv,2015.
[19]Jiang A, Wang F, Porikli F, et al. Compositional Memory for Visual Question Answering[J]. arXiv preprint arXiv,2015.
[20]Andreas J, Rohrbach M, Darrell T, et al. Neural Module Networks[C]// IEEE Conference on Computer Vision and Pattern
[1]Antol S, Agrawal A, Lu J, et al. VQA: Visual Question Answering[C]// IEEE International Conference on Computer Vision. IEEE,2015.
[2]Zhang P, Goyal Y, Summers-Stay D, et al. Yin and Yang:Balancing and Answering Binary Visual Questions[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society,2016.
[3]Zhu Y, Groth O, Bernstein M, et al. Visual7W: Grounded Question Answering in Images[J],2015.
[4]Yu L, Park E, Berg A C, et al. Visual Madlibs: Fill in the Blank Description Generation and Question Answering[C]// IEEE International Conference on Computer Vision. IEEE,2015.Recognition. IEEE Computer Society, 2016.
[21]Yang Z, He X, Gao J, et al. Stacked Attention Networks for Image Question Answering[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2015.
[22]SimonHaykin, Haykin, 叶世伟.神经网络原理[M].机械工业出版社,2004.
[23]Andreas J, Rohrbach M, Darrell T, et al. Learning to Compose Neural Networks for Question Answering[C]//north american chapter of the association for computational linguistics,2016.
[24]Wu Q, Shen C, Liu L, et al. What Value Do Explicit High Level Concepts Have in Vision to Language Problems[C]//Computer Vision and Pattern Recognition. IEEE, 2016.
[25]周飞燕, 金林鹏, 董军.卷积神经网络研究综述[J].计算机学报, 2017.
[26]贾静平, 覃亦华.基于深度学习的视觉跟踪算法研究综述[J].计算机科学, 2017.
[27]Donahue J, Hendricks L A, Rohrbach M, et al.Long-term Recurrent Convolutional Networks for Visual Recognition and Description.[M]// AB initto calculation of the structures and properties of molecules /. Elsevier, 2015.
[28]Mao J, Xu W, Yang Y, et al. Deep Captioning with Multimodal Recurrent Neural Networks (m-RNN)[J].EprintArxiv, 2014.
[29]Taigman Y, Yang M, Ranzato M, et al. DeepFace:Closing the Gap to Human-Level Performance in Face Verification[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2014.
[30]Deep Learning Face Representation from Predicting 10,000 Classes[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2014.
[31]Sun Y, Chen Y, Wang X, et al. Deep learning face representation by joint identification-verification[C]// neural information processing systems, 2014.
[32]Sun Y, Wang X, Tang X, et al. Deeply learned face representations are sparse, selective, and robust[C]//computer vision and pattern recognition, 2015.
[33]Sun Y, Liang D, Wang X, et al. DeepID3: Face Recognition with Very Deep Neural Networks[J], 2015.
[34]Schroff F, Kalenichenko D, Philbin J, et al. FaceNet: A unified embedding for face recognition and clustering[C]//computer vision and pattern recognition, 2015.
[35]Fan J, Xu W, Wu Y, et al. Human tracking using convolutional neural networks[J]. IEEE Transactions on Neural Networks, 2010.
[36]Ma C, Huang J B, Yang X, et al. Hierarchical Convolutional Features for Visual Tracking[C]// IEEE International Conference on Computer Vision. IEEE Computer Society, 2015.
[37]Malinowski M, Fritz M. A multi-world approach to question answering about real-world scenes based on uncertain input[C]// International Conference on Neural Information Processing Systems. MIT Press, 2014.
[38]Tu K, Meng M, Lee M W, et al. Joint Video and Text Parsing for Understanding Events and Answering Queries[J]. IEEE Multimedia, 2013.
[39]Donald G, Stuart G, Neil H, et al. Visual Turing test for computer vision systems[J]. Proceedings of the National Academy of Sciences of the United States of America, 2015.
[40]Mikolov T, Chen K, Corrado G, et al. Efficient Estimation of Word Representations in Vector Space[J], 2013.
[41]Pennington J, Socher R, Manning C. Glove: Global Vectors for Word Representation[C]// Conference on Empirical Methods in Natural Language Processing,2014.
[42]Ren M, Kiros R, Zemel R. Image Question Answering:A Visual Semantic Embedding Model and a New Dataset[J].LitoralRevista De La Poesía Y El Pensamiento, 2015.
[43]Noh H, Seo P H, Han B, et al. Image Question Answering using Convolutional Neural Network with Dynamic Parameter Prediction[C]// computer vision and pattern recognition, 2015.
[44]Fukui A, Dong H P, Yang D, et al. Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding[J]. arXiv preprint arXiv:1606.01847, 2016.
[45]Kim J H, Lee S W, Kwak D H, et al. Multimodal Residual Learning for Visual QA[J]. arXiv preprint arXiv:1606.01455, 2016.
[46]Saito K, Shin A, Ushiku Y, et al. DualNet:Domain-Invariant Network for Visual Question Answering[J].arXiv preprint arXiv:1606.06108, 2016.
[47]Kafle K, Kanan C. Answer-Type Prediction for Visual Question Answering[C]// Computer Vision and Pattern Recognition. IEEE, 2016.
[48]Zhou B, Tian Y, Sukhbaatar S, et al. Simple Baseline for Visual Question Answering[J]. arXiv preprint arXiv:1512.02167,2015.
[49]Shih K J, Singh S, Hoiem D. Where to Look: Focus Regions for Visual Question Answering[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2016.
[50]Ilievski I, Yan S, Feng J. A Focused Dynamic Attention Model for Visual Question Answering[J]. arXiv preprintarXiv:1604.01485, 2016.
[51]Lu J, Yang J, Batra D, et al. Hierarchical Question-Image Co-Attention for Visual Question Answering[J]. arXiv preprint arXiv:1606.00061, 2016.
[52]Wang P, Wu Q, Shen C, et al. Explicit Knowledge-based Reasoning for Visual Question Answering[J].arXiv preprintarXiv:1511.02570, 2015.
[53]Wang P, Wu Q, Shen C, et al. FVQA: Fact-based Visual Question Answering[J]. arXiv preprint arXiv:1606.05433 ,2016.
[54]Marneffe M C D, Manning C D. The Stanford typed dependencies representation[C]// Coling 2008: Proceedings of the workshop on Cross-Framework and Cross-Domain Parser Evaluation. Association for Computational Linguistics, 2008.
[55]Kumar A, Irsoy O, Ondruska P, et al. Ask Me Anything:Dynamic Memory Networks for Natural Language Processing[C]//international conference on machine learning,2015.
[56]Weston J, Chopra S, Bordes A. Memory Networks[J].arXiv preprint arXiv:1410.3916, 2014.
[57]Sukhbaatar S, Szlam A, Weston J, et al. Weakly Supervised Memory Networks[J]. arXiv preprint arXiv:1503.08895,2015.
[58]Bordes A, Usunier N, Chopra S, et al. Large-scale Simple Question Answering with Memory Networks[J]. arXiv preprintarXiv:1506.02075, 2015. 2015.
[59]Peng B, Lu Z, Li H, et al. Towards Neural Network-based Reasoning[J]. Computer Science, 2015.
[60]Xiong C, Merity S, Socher R, et al. Dynamic Memory Networks for Visual and Textual Question Answering[C].international conference on machine learning, 2016.
[61]Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition[J]. arXiv: Comp.Res. Repository, 2014.
[62]Auer S, Bizer C, Kobilarov G, et al. DBpedia: A Nucleus for a Web of Open Data.[C]// The Semantic Web, International Semantic Web Conference, Asian Semantic Web Conference,ISWC 2007 + Aswc 2007, Busan, Korea, November. DBLP, 2007.
[63]Bollacker K, Evans C, Paritosh P, et al. Freebase:a collaboratively created graph database for structuring human knowledge[C]// ACM SIGMOD International Conference on Management of Data, SIGMOD 2008, Vancouver, Bc, Canada,June. DBLP, 2008.
[64]Hoffart J, Suchanek F M, Berberich K, et al. YAGO2: A spatially and temporally enhanced knowledge base from Wikipedia[C]// International Joint Conference on Artificial Intelligence. AAAI Press, 2013.
[65]Mahdisoltani F, Biega J, Suchanek F M, et al. YAGO3: A Knowledge Base from Multilingual Wikipedias[C]. conference on innovative data systems research, 2015.
[66]Banko M, Cafarella M J, Soderland S, et al. Open information extraction from the web[C]// International Joint Conference on Artifical Intelligence. Morgan Kaufmann Publishers Inc. 2007.
[67]Fader A, Christensen J, et al. Open Information Extraction: The Second Generation.[C]// IJCAI 2011,Proceedings of the, International Joint Conference on Artificial Intelligence, Barcelona, Catalonia, Spain, July. DBLP, 2012.
[68]Fader A, Soderland S, Etzioni O. Identifying relations for open information extraction[C]// Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2011.
[69]Carlson A, Betteridge J, Kisiel B, et al. Toward an architecture for never-ending language learning[C]//Twenty-Fourth AAAI Conference on Artificial Intelligence.AAAI Press, 2010.
[70]Tandon N, Melo G D, Suchanek F, et al. WebChild:harvesting and organizing commonsense knowledge from the web[C]// ACM International Conference on Web Search and Data Mining. ACM, 2014.
[71]Tandon N, Melo G D, Weikum G. Acquiring comparative commonsense knowledge from the Web[C]// AAAI Conference on Artificial Intelligence,2014.
[72]Liu H, Singh P. ConceptNet — A Practical Commonsense Reasoning Tool-Kit[J]. Bt Technology Journal,2004.
[73]R. W. Group et al. Resource description framework,2014. http://www.w3.org/standards/techs/rdf.
[74]Prud'Hommeaux E, Seaborne A. SPARQL Query Language for RDF[J]. W3C recommendation,2008.
[75]Wu Q, Wang P, Shen C, et al. Ask Me Anything:Free-Form Visual Question Answering Based on Knowledge from External Sources[J]. Computer Science, 2015.