实际工程问题的求解往往涉及跨领域、跨模态的海量碎片化知识,这些知识不能仅靠专家提供,而需要从环境中动态学习和融合生成.知识工程旨在研究计算机对知识的获取、表征和处理.随着UGC(User Generated Content)模式的兴起,一种新的知识工程范式——大数据知识工程应运而生.
和早期的专家系统相比,大数据知识工程的显著特点是:实现了从以文本、小规模、静态、人工方式的专家知识计算机表示,到多模态、大规模、动态不确定环境下知识的自动获取与表征的跨越式发展.大数据知识工程的核心科学问题是大数据碎片知识的挖掘和融合.
《计算机研究与发展》推出了大数据知识工程及应用专题,以促进该方向新的研究与发展.本专题得到同行的广泛关注,通过公开征文收到18篇高质量投稿稿件,这些论文阐述了大数据知识工程的重要研究成果和发展前景.特邀编委先后邀请了20余位相关领域的专家参与评审,历经初审、复审、终审等阶段,最终遴选出3篇高质量的论文入选本专题.内容涵盖了零样本学习、表示学习等大数据知识工程的关键技术,在一定程度上反映了当前国内学者在大数据知识工程的典型应用.
零样本学习旨在识别具有少量、甚至没有训练样本的未见类,这些类与可见类遵循不同的数据分布;已有方法通过共享生成器和解码器,通过深度神经网络联合传统生成对抗网络和变分自编码器来实现样本的合成.然而,由于这两种生成网络产生的数据分布不同,联合模型合成的数据不再满足单一的模型分布,而是遵循复杂的多域分布,即生成器域分布和解码器域分布.为此,刘欢等作者的“基于跨域对抗学习的零样本分类”一文提出跨域对抗生成网络(CrossD-AGN),将传统生成对抗网络和变分自编码器有机结合起来,基于类级语义信息为未见类合成样本,从而实现零样本分类.
知识图谱的核心为三元组形式的实体和关系,因此,如何通过实体关系抽取方法来补全或者构建新的知识图谱显得至关重要.传统流水线式的实体关系抽取方法会导致误差传递,而已有的联合抽取没有充分考虑命名实体识别与关系抽取之间的联系,从而降低抽取效果.针对上述问题,黄培馨等作者的“融合对抗训练的端到端知识三元组联合抽取”一文提出了一种融合对抗训练的端到端知识三元组联合抽取方法.首先采用了一种实体关系联合标注策略,通过端到端的神经网络抽取文本语义特征,并对文本进行自动标注;其次,模型在神经网络中加入自注意力机制增强文本信息的编码能力,并通过引入带偏置项的目标函数提高关系相关实体的辨识能力,最后,模型融合了对抗训练以提高鲁棒性,改进模型抽取效果.
杜治娟等作者的“TransNS:基于邻域和语义亲和力的开放知识图谱表示学习”一文针对允许新实体存在的开放知识图谱(knowledge graph,KG),提出一种表示学习方法TransNS.它选取相关的邻居实体作为实体的属性来推断新实体,并在学习阶段利用实体之间的语义亲和力选择负例三元组来增强语义交互能力.
承蒙各位作者、审稿专家、编辑部各方面的全力支持,本专题得以顺利出版.在审稿过程中难免出现不尽人意之处,希望各位作者和读者包容谅解,同时也请各位同行不吝批评指正.
特别感谢《计算机研究与发展》编委会和编辑部,从专题的立项到征稿启事的发布,从审稿专家的邀请到评审意见的汇总,以及最后的定稿、修改和出版工作,都凝聚了他们辛勤的汗水.本专题的出版期望能给广大相关领域研究人员带来启发和帮助.