消歧
- 基于多特征因子融合的中文短文本实体消歧
,中文短文本实体消歧成为自然语言处理(Natural Language Processing,NLP)领域中众多下游任务的基础工作,如基于搜索引擎的实体搜索任务[1]、基于知识库的问答任务[2]、知识图谱构建[3]等,并且起到了越来越重要的作用。实体消歧是指将一段文本中指定的指称映射到知识库中某个实体的过程,其难点主要在于知识库中一般存在多个与指称同名的实体且每个实体又存在多种表示方式。长文本具有丰富的上下文语境和充足的语义信息,有利于长文的实体消歧。然而
计算机与现代化 2023年1期2023-03-21
- 融合多特征图及实体影响力的领域实体消歧
步的关键便是实体消歧技术。实体消歧指的是识别文本中的歧义实体指称(命名实体),并为这些实体指称在众多的候选实体中匹配出最终的目标实体[2],其在智能问答[3]、语义搜索[4]以及推荐系统[5]等诸多领域都有广泛应用。实体消歧可分为基于无监督聚类的实体消歧[6],其把所有实体指称按其指向的目标实体进行聚类;以及基于实体链接的实体消歧[7],此类方法利用知识库获取候选实体列表,并将实体指称链接到与之最相似的实体上。近年来,随着知识图谱的广泛应用,基于实体链接的
计算机工程与应用 2023年5期2023-03-13
- 基于主题关系的中文短文本图模型实体消歧*
的实体内容。实体消歧(Named Entity Disambiguation)技术的出现为解决这一问题提供了有效途径。近年来中文知识图谱的构建为人工智能的发展带来了新的机遇,作为命名实体识别的后续任务,实体链接和消歧任务也是知识图谱构建和补全的重要一环。知识图谱技术的发展对实体消歧工作也提出了更高的要求。实体消歧是指将文档中识别出的实体指称链向特定知识库中某个目标实体的过程,其对应着自然语言中的一词多义[1],即实体消歧要解决的是同名实体存在的一词多义问题
计算机工程与科学 2023年1期2023-02-08
- 基于多粒度双向注意力机制的词义消歧深度学习方法
)0 引 言词义消歧(Word Sense Disambiguation,WSD)是自然语言处理中的基本任务,也是长期存在的挑战,有着广泛的应用。目前的词义消歧方法主要可以分为基于知识的方法和基于监督的方法。基于知识的方法主要依赖于知识库的结构和内容,例如,词义定义和语义网络,它们提供了两种词义之间的关系和相似性。基于监督的方法通常根据其使用的特征可分为两类,使用周围单词嵌入、PoS标签嵌入等常规特征的基于特征的监督方法和使用Bi-LSTM等神经网络编码器
计算机应用与软件 2022年11期2022-12-03
- 融合多特征和由粗到精排序模型的短文本实体消歧方法
越多[1]。实体消歧是中文知识图谱问答系统(Chinese Knowledge Based Question Answering,CKBQA)中的关键技术,目的是构建问句中实体指称的候选实体集合,并将实体指称链接到正确的实体上[2-4]。现有的实体消歧方法主要有三类:基于分类的方法、基于图的方法和基于深度学习的方法。基于分类的方法将实体消歧看作二分类问题,利用分类器对候选实体分类[5-6],然而在分类过程中可能有多个候选实体被标记为真,所以还需要其他的方法
青岛大学学报(自然科学版) 2022年3期2022-09-05
- 基于特征编码和图嵌入的姓名消歧方法*
的实体。作者姓名消歧是实体消歧中的一个重要应用,已知同名作者的所有文章集合,需要通过文章的一些属性特征对文章进行聚类,使每一个聚类仅包含一个作者的文章。作者姓名消歧任务在作者文献检索、学术画像分析中有着重要的价值。例如,在学术检索时,研究者需要在文献数据库中寻找名为“Charles”的学者的文献,但是由于“Charles”在数据库中对应着很多不同的实体,系统返回了所有名为“Charles”的作者撰写的文献,这会大大降低文献检索结果的有效性和准确性,从而降低
中国科学院大学学报 2022年3期2022-05-23
- 基于先精确后召回策略的作者名消歧模型研究
集,即实现作者名消歧(author name disambiguation,AND) 已成为学界的迫切需求。鉴于AND 提供的重要数据支撑作用,学界已经对其开展了相当丰富的研究,研究成果的概貌可见之于 Smalheiser 等[2]、Elliott[3]、Hussain 等[4]、San‐yal 等[5]学者的综述。不过,现有研究与实践尚难以支撑后继应用的需要,比如,ORCID、ResearchID等作者身份标识码存在普及率不高的问题;个人或研究团队主页等
情报学报 2022年4期2022-05-19
- 一种基于树分解的图上点区间编码方法及应用
进行一部分的实体消歧,提高整个智能问答的效率,对于在智能问答上的应用,本文后面的实验部分通过实验验证了本文方法的有效性与实用性。本文的贡献可以总结如下:(1) 本文提出一种基于树分解的图上点区间编码方法,用来表示图上节点的位置特征。(2) 本文提出针对YAGO数据集的问答问题100句,并使用这些问题进行了消歧实验,证明了本文提出的区间编码在实际应用中的有效性。1 图上的树分解1.1 基本定义树分解是一种将一幅图映射到一棵树上的图上算法,通过这种算法,一些图
计算机应用与软件 2022年3期2022-03-18
- 半监督卷积神经网络的词义消歧
50080)词义消歧 (word sense disambiguation,WSD)是自然语言处理领域的一个重要研究问题.Michael将歧义词的上下文内容分别与每个语义类在词典中的定义进行匹配,将匹配覆盖率最高的语义类视为真实语义[1].因此,歧义词上下文与歧义词之间的相似性可以作为一种有效的判别条件,其中:杨安和Franco等[2-3]提出了一种基于特定领域关键词信息的消歧方法,将上下文语境词汇向量化,与不同领域关键词向量作相似度判别,找到语境词汇所属
西南交通大学学报 2022年1期2022-02-11
- 基于关联图和文本相似度的实体消歧技术研究*
本中的信息。实体消歧任务是实体链接中最为重要的一个阶段。因为实体识别后的结果很难直接加入到知识图谱当中。必须要对实体识别的结果进行消歧,才能找到文档中实体指称在知识图谱中所对应的实体。本文对实体消歧技术进行研究,提出一种文档级的实体消歧技术。本文的主要贡献如下:1)提出一种文档级实体消歧技术,在局部消歧的基础上,增加了文档中实体之间的关联信息。2)局部消歧采用BiLSTM+Attention模型提取文本中实体指称的上下文特征向量,利用TransE[1]模型
计算机与数字工程 2021年12期2022-01-15
- 一种基于深度学习的实体消歧技术
019)命名实体消歧在自然语言处理领域发挥着十分重要的作用,其目的是解决文本中实体歧义问题。一般而言,命名实体在文本信息传输过程中发挥着关键作用,但命名实体通常以简称的方式存在,这可能导致多个实体指向一个相同的实体名称,也就是所谓的实体歧义。实体消歧的任务就是将文本中的实体正确地链接到实体语义中。实体消歧作为自然语言处理领域的基础性研究,对后续的语言处理任务十分重要,相关任务包括:智能问答[1]、信息降噪[2]、人工智能翻译[3]等。近些年,实体消歧技术在
南通大学学报(自然科学版) 2021年4期2022-01-13
- 基于图卷积半监督学习的论文作者同名消歧方法研究
义问题仍然是同名消歧的主要手段,也是国内外学者的研究热点之一。常用的作者消歧方法往往将问题转化为机器学习的聚类问题或分类问题,如利用SVM[3]、层次聚类[4]、谱聚类[5]等机器学习算法进行处理。随着深度学习技术的发展,越来越多研究人员采用网络嵌入方法(Network Embedding)进行作者同名消歧[6,7],从论文数据中抽取特征以便于聚类或分类任务。此外,具有表征学习能力的卷积神经网络(Convolutional Neural Networks,
电子与信息学报 2021年12期2022-01-04
- 基于混合卷积网络的短文本实体消歧
上下文短缺给实体消歧带来了巨大的挑战。实体消歧的结果对信息检索[1]、智能问答[2]等一系列自然语言处理任务具有重要意义。因此,如何在面临上述困难的情况下取得较好实体消歧结果备受科研者关注。实体消歧(Entity Disambiguation,ED)是将自然语言文本中存在歧义的实体正确地连接到外部知识库的工程。目前的实体消歧任务分为两种类型: 基于聚类的实体消歧方法和基于实体链接的实体消歧方法[3]。基于聚类的方法面对的是目标实体列表没有给定的情况,而基于
中文信息学报 2021年11期2021-12-27
- 自然语言处理背景下的“PP〈被〉+VP1+VP2”格式消歧问题再探
b式以后的进一步消歧及“我被他拦住不让走”问题和“我被砍头吓晕了”问题的思考。三、总结出该格式的消歧流程图。四、提出该格式消歧中仍待解决的问题。文章对上述进行了细化研究,并尝试提出解决方案,以期能对自然语言处理中的歧义句问题尽微薄之力。【关键词】 歧义;消歧;“被”字短语;动词性短语【中图分类号】H109 【文献标识码】A 【文章编号】2096-8264(2021)45-0112-03自然语言处理是语言学与计算机科
今古文创 2021年45期2021-11-24
- 基于局部注意力机制的中文短文本实体链接
为实体识别和实体消歧2 个部分。在实体识别过程中,识别实体指称项,是指源于待链接文本中的实体。在实体消歧过程中,先根据识别出的实体指称项从知识库中选择待消歧实体信息,以生成该实体指称项的候选实体集,再以实体指称项的上下文信息为依据对候选实体集中的实体进行消歧。传统的实体链接任务主要对长文本进行处理,长文本中有更多更丰富的上下文信息,因而也更有利于链接[2]。相比长文本,短文本的实体链接则更具挑战性,加之中文自身的灵活性、表达会意性、语法结构多样性等特点,使
计算机工程 2021年11期2021-11-18
- 基于SVM和CRF双层模型的FrameNet框架消歧
构进行抽取。框架消歧任务是框架语义分析的一个子任务,同时它也是框架语义分析中必不可少的中间环节,具有非常重要的作用。其主要任务是在例句中根据给定目标词的上下文语境,自动识别出该目标词所属的框架。框架消歧任务可以解决自然语言当中的“一词多义”现象,在一定程度上为机器翻译、信息检索等领域提供了语义支持。目前的框架消歧研究都是将其看作一个传统的单模型分类问题。虽然框架消歧任务在单个模型中都取得了较好的结果,但是仍然存在以下几方面的问题。首先,其结果比较依赖统计模
计算机工程与应用 2021年18期2021-09-26
- 基于How Net义原和W ord2vec词向量表示的多特征融合消歧方法
泛应用,命名实体消歧作为自然语言处理的关键环节,在信息检索、知识库及知识图谱构建等方面发挥着越来越重要的作用。命名实体消歧旨在解决实体指称间的歧义性与多样性,例如“冬虫夏草”的别名分别有“夏草冬虫”“虫草”和“冬虫草”,把这种表达相同实体而有多个指称的词语称之为指称多样性。而“螃蟹甲”一词,它一方面指代藏药的名称,另一方面又指代武汉的一个地名。像“螃蟹甲”这类词称之为多义词,本文旨在研究多义词的歧义消除问题。至今,命名实体消歧主要采用联合知识、机器学习和深
计算机应用 2021年8期2021-09-09
- 面向特定科研任务的著者姓名消歧方法
虽然不以著者姓名消歧为主要研究工作,但是著者姓名消歧是其基础性的重要环节。譬如,科学家流动、技术人才迁移、学术评价等人文社科类研究课题[1-4]。这类研究大多数从论文数据入手,依赖于准确的科学家-出版物对应关系,然而,姓名歧义问题始终在两个方面掣肘着相关研究的开展:第一,由于特定研究的最终目的不是为了解决姓名歧义问题,因此,在研究数据中,关于人本身的信息可能十分稀疏,甚至在论文数据中存在缺失著者机构等关键消歧依据的现象;第二,特定研究中的姓名消歧相较于一般
情报学报 2021年7期2021-08-23
- 基于多节点组合特征和模糊聚类的中文词义消歧方法
存在的现象。词义消歧的目的是使系统根据某个歧义词所处的上下文语境识别出该歧义词的正确义项[1]。词义消歧不仅在机器翻译中有重要应用,也在信息检索、语义分析和话题关联检测[2]中有重要意义。词义消歧方法一般包括基于知识库的方法和基于统计机器学习的方法[3]。基于知识库的方法通常借助WordNet[4]、Hownet[5]、《同义词词林》、机读词典等辅助目标歧义词的消歧特征。张春祥等[6]借助《同义词词林》,将窗口大小内的左右词单元对应的语义代码作为消歧特征,
计算机应用与软件 2021年2期2021-02-25
- 基于多节点组合特征和模糊聚类的中文词义消歧方法
存在的现象。词义消歧的目的是使系统根据某个歧义词所处的上下文语境识别出该歧义词的正确义项[1]。词义消歧不仅在机器翻译中有重要应用,也在信息检索、语义分析和话题关联检测[2]中有重要意义。词义消歧方法一般包括基于知识库的方法和基于统计机器学习的方法[3]。基于知识库的方法通常借助WordNet[4]、Hownet[5]、《同义词词林》、机读词典等辅助目标歧义词的消歧特征。张春祥等[6]借助《同义词词林》,将窗口大小内的左右词单元对应的语义代码作为消歧特征,
计算机应用与软件 2021年2期2021-02-25
- 融合k均值聚类与LSTM网络的半监督词义消歧
080)提高词义消歧的准确率是自然语言处理中的一个重要课题。通常,使用图来描述词义消歧问题。利用图中的结点来表示词,使用图中的边来表示词之间的关联关系。此时,词义消歧过程将转化为图的求解问题。文献[1-4]使用图的思想,将词汇单元作为图中的结点,利用边来描述上下文语义距离及关系,达到词义消歧的目的。TRIPODI等[5]提出了一种基于进化博弈论的词义消歧模型。利用分布信息来衡量每个单词对其它单词的影响,利用语义相似性来度量不同选择之间的兼容性。ERK等[6
西安电子科技大学学报 2021年6期2021-02-21
- 基于半监督集成学习的词义消歧
50080)词义消歧的目的是确定歧义词汇在特定上下文环境中的具体含义。词义消歧对机器翻译、话题关联检测、语音识别、文本分类、信息检索和主题挖掘等应用有很大的影响[1-2]。钱涛等[3]、SONAKSHI等[4]和EDILSON等[5]使用图来描述词义消歧问题。ROCCO等[6]根据分布信息来计算语义的相似性,提出了一种新的基于进化博弈理论的词义消歧模型。SALLAM等[7]将蜂群优化元启发式算法应用于词义消歧过程,利用多个人工蜂代理来协同处理该问题。SUL
哈尔滨工程大学学报 2020年8期2020-11-13
- 科学合作网络姓名消歧问题研究*
挑战。为此,姓名消歧成为了近年来国内外学者的研究热点之一[1]。当前科研文献数据量急速增长,如何有效地消除文献著者中文姓名歧义尤为重要。2 姓名消歧方案设计2.1 消歧方案基本流程文献著者姓名消歧是将同名作者发表的文献对应到相应人物实体的过程,该过程也是一篇文献被若干个同名作者认领的过程,最终目的是每个作者认领各自的作品,对于无人认领的作品,在数据库中新增该同名作者。从文献特征消歧顺序和语义指纹的认领决策两个方面进行优化,设计了以下基于语义指纹的姓名消歧方
甘肃科技 2020年16期2020-10-09
- 融合语言知识的神经网络中文词义消歧模型
1)0 引言词义消歧是自然语言处理中的基础任务之一,用于确定目标词在特定上下文语境的词义[1],是信息抽取、机器翻译和阅读理解等任务的基础。词义消歧主要有3种方法:基于知识库的方法、有监督方法和无监督方法。其中有监督词义消歧通常使用传统机器学习模型实现,如支持向量机[2]、最大熵[3]和贝叶斯分类器[4]等,其准确率高于另外2种方法。目前在有监督词义消歧任务中大量使用了神经网络模型[5],并取得了优于传统统计模型的结果。例如,文献[6-7]分别使用双向长短
郑州大学学报(理学版) 2020年3期2020-08-25
- 基于滑动语义串匹配(SMOSS)的汉语词义消歧
)1 引 言词义消歧(WSD)是自然语言处理领域中的一个难点问题[1,2],至今仍没得到很好解决.现在自然语言处理研究已经深入到语义分析层次,因此对于词义消歧技术需求也就更加强烈.随着词义消歧研究不断深入,研究人员提出了很多方法以提高性能,包括采用一些深度学习的方法.Dayu Yuan等人[3]采用LSTM模型的词义消歧取得了较好效果.Alessandro Raganato等人[4]定制了从LSTM到编解码模型一系列的神经结构并在多语种上取得好的效果.杨安
小型微型计算机系统 2020年7期2020-07-13
- BSAED:一种基于双向语义关联的实体消歧算法
)实体链接是实体消歧的基本过程[1],目的是将文本中出现的实体指称链接到维基百科等结构化知识库.实体指称的歧义性是指同一个实体指称在不同的上下文语境中可能指代不同的实体对象. 实体消歧的本质是比较实体指称与候选实体的语义相似性.针对样例:“一首《李白》用乡村摇滚风的率性旋律,写出李荣浩对随性生活的向往.”我们依据“旋律”一词便能判断出这里的实体指称“李白”与候选实体“李白(歌曲)”的相似度比候选实体“李白(唐代诗人)”更高,从而将实体指称“李白”链接到知识
中南民族大学学报(自然科学版) 2019年4期2019-12-25
- 基于上下文词向量和主题模型的实体消歧方法
(歧义性)。实体消歧是海量文本分析的核心技术之一,主要解决实体名的歧义性和多样性问题,为解决信息过载问题提供了有限的技术手段。另外,实体作为知识图谱的基本单元,是承载文本信息的重要语言单位,而消除实体的歧义在知识图谱构建的过程中发挥着承上启下的作用。所以,实体消歧是知识图谱构建和补全的关键技术。1 相关工作目前已经有很多方法被提出用于实体消歧,根据模型的差异,实体消歧方法可以划分成基于机器学习的方法和基于深度学习的方法。1.1 基于机器学习的方法在基于机器
中文信息学报 2019年11期2019-11-18
- 融合语言特性的越南语兼类词消歧
解决越南语兼类词消歧问题是构建高质量的越南语词性语料库的必要条件。近年来,国内外学者对兼类词消歧方法进行了研究,主要有以下3种:(1)基于规则的方法[5,7-8]。根据北印度语语法,Gupta等[7]提出基于规则的方法,对兼类词进行消歧;Liu等[8]提出基于配置的定量分析现代汉语中动词和名词兼类的分类方法来解决汉语中动-名词兼类问题,根据句法和语义特征对动-名词兼类进行研究;Li等[5]针对中-英专利机器翻译中的动词和介词的兼类,提出基于规则的识别方法,
数据采集与处理 2019年4期2019-09-06
- 引入词性标记的基于语境相似度的词义消歧
实际含义,即词义消歧,简称WSD,是自然语言处理领域中历史久远的问题,有着广泛的应用。目前可分为有监督方法、无监督方法和基于知识的三类方法。虽然已发表的有监督词义消歧系统在提供特定语义的大规模训练语料时有很好的表现,但缺乏大规模标注语料是其存在的主要问题。使用预训练的词向量可以在一定程度上解决这个问题。因为使用预先在大规模语料上训练的词向量,包含了较多的语义语法信息,用它来训练有监督系统,会使性能得到提升。而想要对句中的词义做推断,目标词和目标词的语境都需
中文信息学报 2018年8期2018-09-18
- 基于三元纠错输出编码的偏标记学习算法*
问题的基本策略是消歧。消歧思想是消除偏标记对象候选标记中伪标记引起的歧义性。现有的消歧策略算法主要包括基于辨识的消歧(disambiguation of identification-based)和基于平均的消歧(disambiguation of averaging-based)。基于辨识的消歧将样本的真实标记当作隐变量,通过迭代方式优化内嵌隐变量来实现消歧。基于平均的消歧对偏标记样本的各个候选标记赋予相同的权重,通过综合学习模型在各候选标记上的输出来实
计算机与生活 2018年9期2018-09-12
- 面向科技人才情报的多策略组合模型同名消歧方法*
同名歧义数据不做消歧处理,那么将无法保证搜索结果的准确性。当前的同名消歧方法主要有以下三种。一是基于向量空间模型的聚类消歧方法,如杨欣欣通过抽取网页中与人名相关的特征及命名实体,利用二阶段聚类算法实现同名消歧[1];辛涛提出利用待消歧人名的组合特征,通过层次凝聚聚类(Hierarchical Agglomerative Clustering,HAC)算法来实现同名消歧[2]。二是基于社会网络的聚类消歧方法,如郎君利用检索结果中共现人名构建社会网络,并结合谱
通信技术 2018年8期2018-09-03
- 基于词义消歧的短文本情感分类方法研究
尤关必要了。词义消歧是自然语言处理中一项重要的工作,同一个的词汇在不同的语境之下含义不同的现象在自然语言的语境中普遍存在,所以消除词汇之间的歧义,在文本情感倾向分析中,有着至关重要的作用。为了获取文本内容向下文相关联的文本特征信息,Graves[3]提出一种BLSTM模型,该模型采用双向的LSTM(长短时记忆网络)对文本信息和特征进行双向识别。Zhou[4]介绍了带注意力机制的BLSTM模型,该模型能够在没有太多干预的情况下依靠自己来获取文本特征信息。在2
现代计算机 2018年20期2018-08-01
- 汉语复句中基于依存关系与最大熵模型的词义消歧方法研究
高质量的统计词义消歧的方法和技术受到了广泛关注。中科院算机所的鲁松、白硕[2]等提出基于向量空间模型中义项词语的无导词义消歧方法。杨陟卓、黄河燕等提出了基于词语距离的网络图词义消歧方法[3],该方法改进了传统网络模型,将距离信息添加入网络模型中,取得了较好的效果。北京信息科技大学的张仰森提出了基于最大熵模型的汉语词义消歧与标注方法[4],该方法从特征类型、窗口大小以及是否考虑位置特征三个方面设计特征模板,依据特征模板获取模型参数文件,进而进行词义消歧。电子
计算机与数字工程 2018年1期2018-02-09
- DBpedia Spotlight上的命名实体识别优化*
于主题向量的二次消歧方法,进一步增强了标注准确率。通过在广泛使用的开源命名实体识别系统DBpedia Spotlight上进行多种比较实验,验证了所提优化方案与已有系统相比具有较优的性能指标。命名实体识别;链接数据;DBpedia Spotlight1 引言作为信息提取领域的任务之一,命名实体识别能够在给定的文本中识别出所有实体的命名性指称,并链接到其在知识库中的参照,从而搭建起知识库与自然语言文本之间的桥梁。随着维基百科的发展以及包括DBpedia[1]
计算机与生活 2017年7期2017-07-31
- 基于特征加权重叠度的中文实体协同消歧方法
度的中文实体协同消歧方法线岩团,余正涛,洪旭东,张 磊,郭剑毅(昆明理工大学 信息工程与自动化学院,云南 昆明 650500)该文针对中文实体消歧中的特征项部分匹配和协同消歧问题,提出基于特征加权重叠度的中文实体协同消歧方法。该方法利用实体指称上下文中多种特征的加权重叠度计算实体指称相似度,针对实体链接与消歧聚类约束,分类定义实体指称相似度计算方法,构建待消歧实体相似度矩阵,采用近邻传播聚类算法实现中文实体协同链接与消歧。基于CLP-2012评测数据的实验
中文信息学报 2017年2期2017-06-01
- 基于语义规则的词义消歧方法的研究
于语义规则的词义消歧方法的研究张婷婷 辽宁锦州渤海大学信息科学与技术学院本文基于WordNet现存的词义结构以及词义对用的上下文语义关系,词义消歧之后通过语义选择完成消歧工作。本文最后使用Senseval-3中的全英文文段作为该算法的实验测试集,词义消歧算法使得测试集中的选择多义词最佳语义结果较好,本文的消歧方法经过与其他词义消歧算法进行数据比对分析,能够有效完成全英文文段单词的词义消歧任务。WordNet 语义规则 多义词 词义消歧 Senseval-3
数码世界 2017年3期2017-03-28
- 多策略中文微博实体词消歧及实体链接
略中文微博实体词消歧及实体链接向宇郭云龙徐潇曾维刚李莉*(西南大学计算机与信息科学学院重庆 400715)在社交网络迅猛发展的今天,如何对有歧义的微博实体进行消歧和如何将微博实体连接到知识库已成为当今研究热点。对实体消歧和实体链接提出了多种策略方案。首先利用ICTCLAS对微博文本进行分词处理,利用百度百科、实体专家库对实体进行规范化处理。然后利用由爬虫爬取的百度百科信息、微博数据、网络词语构建了消歧文本数据库,再结合TF-IDF算法和Fast-Newma
计算机应用与软件 2016年8期2016-09-08
- 地名知识辅助的中文地名消歧方法
识辅助的中文地名消歧方法马 雷 雷1,2,李 宏 伟1,连 世 伟1,梁 汝 鹏1,龚 竞2(1.信息工程大学地理空间信息学院,河南 郑州 450052;2.四川省应急测绘与防灾减灾工程技术研究中心,四川 成都 610041)地理空间中对位置的描述可以基于形式化的地理坐标,也可以利用自然语言文本中的非形式化地名来表达。文本中的同一地名可能指向很多地理位置,这就引起了地名歧义,地名消歧就是消除概念指称上的认知分歧,为地名分配唯一的地理位置。该文从地名知识的角
地理与地理信息科学 2016年4期2016-06-05
- 一种结合词向量和图模型的特定领域实体消歧方法
型的特定领域实体消歧方法汪沛1,线岩团1,2,郭剑毅1,2,文永华1,2,陈玮1,2,王红斌1,2(1.昆明理工大学 信息工程与自动化学院,云南 昆明 650500; 2.昆明理工大学 智能信息处理重点实验室,云南 昆明 650500)摘要:针对特定领域提出了一种结合词向量和图模型的方法来实现实体消歧。以旅游领域为例,首先选取维基百科离线数据库中的旅游分类下的页面内容构建领域知识库,然后用知识库中的文本和从各大旅游网站爬取到的旅游文本,通过词向量计算工具W
智能系统学报 2016年3期2016-06-02
- 一种基于特征映射的中文专家消歧方法
征映射的中文专家消歧方法潘 霄1,2,余正涛1,2,郭剑毅1,2,毛存礼1,2,杨秀贞1(1. 昆明理工大学 信息工程与自动化学院,云南 昆明 650500;2. 昆明理工大学 智能信息处理重点实验室,云南 昆明 650500)针对中文专家页面特点,以及用于消歧的基准专家页面中信息涵盖不全的问题,该文提出一种基于特征映射的中文专家消歧方法。首先,采用条件随机场模型,从基准专家页面和待消歧页面中提取出所定义的12维人物属性特征,并利用最大熵分类模型,结合已有
中文信息学报 2016年2期2016-05-04
- 上下文边界可变的词义消歧
引 言通常词义消歧方法可分为基于统计的方法和基于知识的方法[1]。传统的基于知识的方法[2-4]针对文本中出现的多义词,不管是什么词性,均选取固定上下文来进行消歧的,这样一定会引入不同程度的噪音,影响消歧效果。归其原因,该方法从根本上忽略了不同词性的多义词制约其含义的上下文语境范围应是不同的。通常,词语含义的差别一定会在语言运用中得到体现,词的不同含义会在句法或词汇搭配层面上表现出不同的组合特征,并且不同词性词语的这种彼此独立且呈互补分布的特征是不一样的
计算机工程与设计 2015年10期2015-12-23
- 国际场域的建设性对话
——联合国消除对妇女歧视委员会第59届会议观察记录
约》(以下简称《消歧公约》)的报告进行了审议。审议期间,被审查各国的政府代表团参加会议。中国国务院妇女儿童工作委员会副主任宋秀岩率领包括香港、澳门特别行政区政府代表在内的45人中国政府代表团参加了会议。中央政府代表来自15个部门,香港特区政府代表来自4个部门,澳门特区政府代表来自6个部门。同时,根据《消歧公约》的审查机制,大多数被审查国家的非政府组织代表也参加了会议,其中来自中国大陆和香港的非政府组织有20多个。本文将从中国非政府妇女组织的视角,简要介绍会
妇女研究论丛 2015年1期2015-04-17
- 基于知网义原词向量表示的无监督词义消歧方法
大量多义词,词义消歧对于具有认知能力的人类来说并不是一件困难的事情,但是对计算机自动识别构成了困难。词义消歧(word sense disambiguation,WSD)就是指计算机根据多义词上下文及其他信息进行词义确定的过程。词义消歧在自然语言处理中是一个较为基础且困难的问题,而且会直接影响到信息检索、机器翻译、文本分类、语音识别等上层任务。目前主流词义消歧的方法有基于知识库的方法和基于语料库的方法。基于知识库的方法覆盖面较大,可以对知识库中所有词进行消
中文信息学报 2015年6期2015-04-12
- 中国科学技术信息研究所在“发明人名称消歧竞赛”中取得优异成绩
所在“发明人名称消歧竞赛”中取得优异成绩【本刊讯】 2015年9月24日,美国专利与商标局(USPTO)首席经济学家办公室在美国弗吉利亚州USPTO总部举办了旨在提高现有专利发明人名称数据精度的“PatentsView专利发明人名称消歧技术研讨会”。会议期间,举行了“专利发明人名称消歧竞赛”。此次竞赛的目的是通过设计专利发明人名称消歧算法,对USPTO收录的近40年(1976—2014年)的美国专利发明人数据(约1239万条记录)进行唯一标识,以改进现有的
中国科技资源导刊 2015年5期2015-01-28
- 基于图排序的词汇情感消歧研究
判断。目前在词义消歧上,国内外已有不少成熟的方法。其中,何径舟等[3]在分析了特征模板对消歧结果影响的基础上,提出一套基于最大熵分类模型的自动特征选择方法来实现词义消歧。张仰森等[4]针对最大熵原理只能利用上下文中的显性统计特征构建语言模型的缺点,提出了隐最大熵原理构建词义消歧模型;通过构建面向词义消歧的条件随机场模型库,车玲等[5]通过实验证明,低频义项可以取得较好的消歧效果。与此同时,Mihalcea[6]提出了基于Wikipedia进行词义消歧的方法
中文信息学报 2014年6期2014-02-28
- 基于语言模型的有监督词义消歧模型优化研究
1)1 引言词义消歧是确定多义词在给定上下文语境中的意义,它是自然语言处理领域中重要的研究课题之一。相关研究表明,词义消歧对机器翻译、信息检索、文本分析、自动文摘、知识挖掘等多方面都具有十分重要的作用。目前,基于语料库的词义消歧方法可分为有监督和无监督方法[1]。无监督方法无需训练语料,可以有效克服数据稀疏问题,但是该方法的消歧效果却不尽如人意,很难达到实用的目的。有监督方法的消歧效果要远远优于无监督方法,但是该方法需要大量的高质量的训练语料支持,而获取大
中文信息学报 2014年1期2014-02-27
- 基于Word Embedding语义相似度的字母缩略术语消歧
究字母缩略术语的消歧具有实际应用价值。字母缩略术语的语料资源稀少,义项专业性强,因此本文选择基于知识库的无监督方法实现消歧。在这方面,传统语义消歧(WSD)方法常选取歧义词上下文语境作为特征,用向量空间模型(VSM)表示文档[1]。其实质上是根据领域特征划分歧义词所在的文档,缺乏对歧义词语义信息的挖掘和利用。使用词义网络如WordNet、HowNet中的语义知识辅助词义消歧能够取得较好的效果[2-3]。然而对于缩略术语而言,词义网络更新慢、覆盖度低,无法满
中文信息学报 2014年5期2014-02-27
- 基于动态规划的简单语义单元词义消歧
维基的两阶段语义消歧方法;文献[4]研究了基于词语距离的网络图的语义消歧;文献[5]研究了基于知网的中文信息结构消歧研究;文献[6]研究了基于知网词汇语义相关度计算的消歧方法;文献[7]研究了基于语义相关度的语义模型求解;文献[8]研究了基于Word Net的词汇语义消岐模型;文献[9]研究了基于Word Net语义树的语义消岐方法;文献[10]研究了基于Word Net语义关系网的信息处理。这些研究虽然取得很多成果,但并没有形成一个比较成熟、有效的计算方
计算机工程与设计 2014年4期2014-02-09
- 利用优化的DBSCAN算法进行文献著者人名消歧
进行文献著者人名消歧●任景华1,2(1.武汉大学新闻与传播学院,武汉430072;2.昌吉学院中文系,新疆昌吉831100)人名歧义;人名消歧;DBSCAN;文献著者通过对文本聚类算法DBSCAN算法优化对文献著者人名进行消歧,结果表明,相对标准文本聚类算法来说,优化后的算法能取得更好的人名消歧效果。人名歧义是一种身份不确定的现象,指的是文本中具有相同姓名的字符串指向现实世界中的不同实体人物。该现象普遍存在于文献数据库与网页中,即不同的用户拥有同一姓名的现
图书馆理论与实践 2014年12期2014-01-16
- 自然语言处理中的语义消歧研究
存关系分析、语义消歧等等。要真正理解句子的含义,这些最基本的处理是必须的。语义消歧是比分词、词性标注、句法分析更高级的自然语言处理技术,但面临的困难也更大。例如,“我是她的粉丝”,要理解这句话,首先必须对句子进行分词和词性标注,得到这样的结果“我/代词 是/动词 她/代词 的/助词 粉丝/名词。 /句号”。其次需要对这句话做句法分析,也就是说必须让计算机知道,这句话的主要成分是“我是粉丝”,“她的”是用来修饰和限定“粉丝”的。然后从语义的角度上分析,“我”
淮南师范学院学报 2013年5期2013-08-15
- 对外汉语教学中歧义与消歧探析
歧义现象很普遍,消歧已成为对外汉语教学的重要研究课题。汉语的歧义有存在于口语中的同音歧义、重音歧义,有存在于书面语中的多音歧义、结构歧义和功能歧义等等。针对不同原因的歧义,其消歧的方法和途径也各有不同。关键词:汉语;歧义;消歧;汉外教学中图分类号:G42 文献标志码:A 文章编号:1002-2589(2013)08-0233-02所谓歧义是指同一表层结构的语句对应着两种或两种以上的深层含义,简单地说,就是一种形式对应着两种或两种以上的解释[1]。也就是说,
学理论·中 2013年3期2013-04-22
- 基于序列标注的全词消歧方法
3)1 引言词义消歧,即在特定的上下文中确定歧义词的词义。根据词义消歧的范围,可将其分为词样消歧(Lexical-Sample WSD)和全词消歧(All-Words WSD)。词样消歧对给定文本中的某些指定词进行消歧,而全词消歧对给定文本中的所有开放词(包括名词、动词、形容词和副词)进行消歧。词样消歧是一个典型的分类问题,可使用各种成熟的有监督分类算法,如朴素贝叶斯[1]、最大熵算法[2]和支持向量机[3]等。对于全词消歧,目前通常的做法是将其当作词样消
中文信息学报 2012年2期2012-07-09
- 基于《知网》的中文信息结构消歧研究
CMS,因此对其消歧是应用的必要前提之一;文献[5]应用了CMS的消歧,但没有说明如何对其进行消歧;文献[6]构建了基于《知网》的中文信息结构抽取器,但其规则形式不简练且规则中忽略了动态角色,其次消歧策略不明了;鉴于此,本文首先以《中文信息结构库》为蓝本形式化了CMS;然后根据CMS的构成形式对其进行优先级划分,并提出了不同的消歧方法: 如词性序列消歧法、图相容匹配消歧法、图相容度计算消歧法及基于实例的语义相似度计算消歧法;最后描述了信息结构集的消歧流程。
中文信息学报 2012年4期2012-06-29
- 基于隐最大熵原理的汉语词义消歧方法
于汉语词汇的语义消歧研究一直是中文信息处理领域的研究热点。词义消歧从研究方法上讲主要有基于规则的方法、基于词典知识的方法、有指导的统计消歧法、无指导的统计消歧法[1]。其中有指导的统计词义消歧法是目前WSD领域的主流,它将词义消歧问题作为分类问题来考虑,将机器学习领域里广泛流行的算法用于词义消歧,包括决策树(Decision Tree)方法(Black,1988)[2]、决策表(Decision List)方法(Yarowsky)[3]、Naïve Bay
中文信息学报 2012年3期2012-06-29
- 基于贝叶斯分类器和条件随机场模型的词义消歧对比研究
10097)词义消歧就是在某个特定的上下文中,确定某个多义词在该上下文中特定义项的过程[1]。词义消歧作为一个中间任务,对自然语言处理十分重要,很多应用都需要经过词义消歧才能更好地发挥作用,比如机器翻译、信息检索、自然语言内容语义分析、语法分析、语音识别和文语转换等都需要词义消歧的结果。词义消歧是一种自然语言处理技术,它根据知识获取的方法可分为两种:一是基于词典的消歧方法,指把机读词典(语文词典或义类词典)作为外部知识源,它本质上是一种基于规则的方法,有时
文教资料 2011年36期2011-12-31
- 基于社会网络的跨文本同名消歧
。跨文本人名同名消歧是判断不同文本中的相同人名是否指称现实中相同实体的过程。跨文本人名消歧是准确获取感兴趣人物相关信息的基础,对多文本摘要(Multi-text summary)、信息融合(Information fusion)等具体应用也有重要的作用。但跨文本人名消歧是一项具有挑战性的任务,主要有以下几个方面的原因。其一,重名的人数具有随机性,有的名字的重名人可能成百上千,有些可能没有重名;其二,不同名字重名不遵循统一的分布;其三,文本中存在与人物实体无
中文信息学报 2011年5期2011-10-15
- 汉语框架自动识别中的歧义消解
框架),这就需要消歧。即,给定一个句子中的目标词,要求计算机能够根据上下文环境,自动识别出该词所属的框架,这个任务称为框架识别。事实上,框架识别任务可以分为三个子任务[1],其完整提法如下: 1)词元检测: 即判断句子中给定的词语是否激起框架。因为,有的词语虽然作为词元被收录在框架中,但是,在某些句子中,该词只作为一个概念名称来表达,并不激起框架,如: 听见并不代表听懂。其中,词“听见”在本句中不激起框架。因此,我们首先要检测出能够激起框架的词语;2)未知
中文信息学报 2011年3期2011-06-14
- 语义指向理论及其在中学语文教学中的应用
键词】语义指向 消歧 中学语文教学20世纪80年代以来,我国汉语语法研究中出现了一种新的语义分析方法——语义指向分析。所谓语义指向指的是句中某一成分在语义上跟哪一个成分直接相关,例如“砍光了”的补语“光”在语义上指向“砍”的受事(杂草砍光了);“砍累了”的补语“累”在语义上指向“砍”的施事(他砍累了);“砍钝了”的补语“钝”在语义上指向“砍”的工具(斧头砍钝了);“砍慢了”的补语“慢”在语义上指向“砍”这一动作本身(他砍慢了,没能在规定时间内完成任务);“
中学语文·大语文论坛 2008年11期2008-12-18