刘瑞宝
目前,在市场中的知识图谱有很多,这些知识图谱给我们的应用带来大量的数据基础,同时我们利用这些知识图谱的过程,也会给我们带来巨大的价值。市场中对知识图谱的定义有很多,而我们认为知识图谱是AI进步的阶梯。人类的进步其实也是知识的积累过程,而知识图谱也需要通过神经网络技术,让机器自动学习,但是只建立知识图谱的自动学习还远远不够。
我们发现在无监督的情况下,知识圖谱的自动学习有可能会出现学习错误的情况。所以我们建立了有监督的知识图谱器学习,并添加固定模型专家系统,形成人与机器相互合作的闭环状态。提到知识图谱就不得不提知识体系,而知识体系的搭建需要从知识获取开始,然后过渡到知识图谱的建设。在建设知识图谱体系之初,需要工具对它进行编辑,但是依靠工具无法完成知识图谱的建设,还需要提出一个动态体系理念。对于动态本体而言,我们需要找到两个部分。第一,属性。第二,关系。通过属性和关系来产生知识,这是我们建立知识图谱的主要流程。
拓尔思在建立知识图谱体系的过程中,也遵循了这一路线,先从知识获取开始。同时我们开发了自己的产品,包括内容抽取、ETL等,并且我们知识图谱中添加了知识理解,包括自然语言处理、自动抽取、自动分类、自动聚类等,同时建立关联图谱。
那么知识图谱系统应当如何构建?我们构建系统的过程中,采用多层结构的方法,包括各种数据来源,在体系中进行融合和整合,最终形成数据中心和知识中心,我们通过数据中心和知识中心进行图谱的应用。同时,我们依靠多年的经验积累建立了一整套体系。比如我们针对知识图谱系统的构建,应用了NLB和自然语言处理等技术。在案件侦破方面,机器可以自动对案件笔录进行知识抽取,并抽取案件发生的时间、地点、人物、作案手段等信息。然后机器会自动定位地址信息,再通过机器学习的方式将案件类型和级别进行分类。
什么是开源情报?在互联网中有很多信息是公开的,而这些公开的信息就可以作为我们的情报,所以我们可以针对这些情报,将它们转变成知识,最后我们会建立图谱。我们开发了知识图谱的工具—水晶球。该工具可完成从知识到图谱的建立过程。比如水晶球可随时进行知识拖动、知识抽取、知识感知、知识统计、知识分析以及建立时间轴等。该工具可以使我们建立知识图谱的流程变得更加便利,在建立知识图谱过程中它可以将知识合并和融合形成新的知识。
那么是否可以将所有信息放在图谱中?其实并没有必要。我们在管理知识图谱时,第一需要建立汇聚库。在汇聚库中存储了大量数据,我们并不是把大量数据直接存储在知识图谱中。第二我们在中间环节建立了动态体本建模系统。在该系统中我们可以进行建模,在建模后我们将有价值的数据,导入到知识图谱系统中最终形成闭环。比如知识图谱一定以目标为中心,然后将数据进行加工,并建立数据之间的关系,后通过水晶球对目标进行分析。除此之外,我们针对社交软件也建立了图谱,该图谱可以分析社交软件中人与人之间的关系和关键点,最终形成情报。
比如在媒体领域,各种信息都是以文本的方式构成,我们可对文本信息进行抽取,最后将时间点和关键的信息形成图谱。同时我们针对金融企业,开发了自动关联和自动分类系统,我们可以通过机器学习技术,来抽取该行业的知识点,并建立企业与企业之间的关系,最后将金融企业进行分类,并将该项应用作用到打击金融犯罪等领域。
此外,我们也开发了专业的智能审查系统,众所周知专利是以文本的方式构成的,但是文本中的知识较为分散。我们可以把文本、图像抽取出来,之后按照专利的需求进行自动分析,形成专利的自动审查。在知识点关联方面,我们开发了知识图谱问答系统,来完善如税务、银行等专业领域系统内部的知识汇聚和统计。
同时我们也开发了中医知识挖掘系统,在中医的文本中,很多散落的文本对于计算机而言很难理解。所以我们把中医所有文本让计算机进行分析,让计算机寻找出病理与症状之间的关系,同时寻找出治疗某种病理所需要的药物和药方,最后分析出药物之间的相通性。而且我们还开发了网络态势感知,可以针对网络中的信息种类、来源和访问进行分析。
介绍一下水晶球的使用方法。当我们得到一份邮件时,便可以交给水晶球。水晶球可以识别出发件人与收件人之间的关系,并可以显示出某一个人的属性,以及邮件中的知识点,来分析知识与知识之间的联系,最后将其他行业的相关数据全部关联起来,形成数据融合。通过这项操作,我们便可以追踪某个人的活动情况与活动范围,并建立该人物的时间轴,同时我们可依靠邮件来发现所追踪的对象与其他人的关系,然后寻找出人与人之间的共同点包括时间、地点、属性等,最终形成知识图谱,可随时进行点击查看。
(根据演讲内容整理,未经本人审核)