前 言
随着互联网的快速普及与发展,互联网数据以惊人的速度在全世界范围内呈现出指数级增长的态势.而数据作为客观世界在信息世界中的抽象表达,其必然带有普遍的关联性.如何从海量的异构数据中挖掘实体及其语义关联和属性,并进行知识的融合,进而构建大规模的知识图谱,为语义搜索、深度问答、文本理解等应用提供有力支撑,已成为数据管理、数据挖掘和信息抽取等领域的一个重要研究方向.相比于传统的数据集成,在面向大规模的数据和知识融合过程中,融合算法的效率、多源数据的数据质量评估和基于语义的数据和知识融合等都给现有的数据集成和知识融合技术带来了巨大的挑战.
2016年《计算机研究与发展》数据融合与知识融合专题侧重大规模数据和知识的抽取、融合及应用等诸多方面,涉及到数据管理、信息抽取和知识工程等多个交叉学科领域,研究主题包括数据与知识抽取技术、歧义性消除、数据与知识融合技术、数据与知识建模、关联知识库的应用等.本期专题经过公开征文收到43篇投稿,并最终收录了7篇论文,内容涉及实体抽取、实体链接、数据融合与溯源、短文本理解、数据查询、知识表示等主题,为相关领域的研究者探讨面向大数据的数据融合与知识融合的基础理论研究及其应用、讨论该领域内最新的突破性进展、交流新的学术思想和新方法以及展望未来的发展趋势提供了很好的沟通和交流机会.
随着大规模数据的关联、交叉和融合,当下亟待解决的问题是如何利用数据的关联、交叉和融合实现大数据的价值最大化.“大数据融合研究:问题与挑战”(孟小峰等,中国人民大学)一文认为,解决这一问题的关键在于数据的集成或融合.该文提出了大数据融合的概念,并以Web数据、科学数据和商业数据的融合作为案例分析了大数据融合的需求和必要性,同时总结分析了现有数据融合技术.最后针对大数据融合可能面临的挑战进行了展望.最近,以深度学习为代表的表示学习技术受到广泛关注.表示学习旨在将研究对象的语义信息表示为稠密低维实值向量,知识表示学习则面向知识库中的实体和关系进行表示学习.该技术可以在低维空间中高效计算实体和关系的语义联系,有效解决数据稀疏问题,使知识获取、融合和推理的性能得到显著提升.“知识表示学习研究进展”(刘知远等,清华大学)介绍知识表示学习的最新成果,总结该技术面临的主要挑战和可能解决方案,并展望该技术的未来发展方向与前景.
图灵在1950年的论文“计算机器与智能”中提出了图灵测试的概念,期望从行为主义角度来定义机器智能,而人机对话也成为人工智能领域的目标.“短文本理解研究”(王仲远等,微软亚洲研究院)正是把这一重要但又充满挑战的任务作为目标,针对短文本的不遵循语法规则、长度短、信息量小等特点,将短文本分析的方法分为了隐性语义、半显性语义、显性语义3种语义分析方法,总结并提出了文本粒度和词粒度模型,并提出了2种可行的解决方案.
实体链接是文本分析会议(TAC)知识库构建领域设定的基本挑战,其目标是将从文本中提取到的实体指称项正确地链接到知识库中对应的实体对象上.“基于图的中文集成实体链接算法”(刘峤等,电子科技大学)提出一种新颖的基于图的中文集成实体链接方法,