词干
- 面向音素序列的黏着语词干提取研究
来更多困难.由于词干单元比其他附加成分长些且结构相对稳定,因此从语言随机序列中确定和提取词干单元是较有效的处理方法.维吾尔语是派生类语言,句子由一个个分离的词构成,词可以通过词干缀加若干词缀派生.在派生和缀加过程中会产生语音协调等变化,并在文本中体现出来.词干本身是一个词,表达词的固有词义,而词缀独立时没有含义,但功能强大.词缀可分为构词词缀和构形词缀两个部分[1].构词词缀跟词干连在一起改变词义,而构形词缀只会改变词形,却改变不了词义.由丰富且复杂的多种
小型微型计算机系统 2023年10期2023-10-18
- 二语写作衔接手段动态发展个案研究
块中选取所有句子词干重叠指标,因为词干重叠有助于构建连贯的语篇,可帮助读者在命题、从句和句子间建立联系,并且与名词和论元重叠相比,词干重叠放松了前两者施加的名词约束,可通过分析不同句子中的单词形态来衡量衔接性;(2)根据梁茂成[12]的研究发现,与局部衔接手段相比,整体衔接手段与作文质量的相关性更显著,因此本研究将选取整体连词和整体句子语义相似度标准差,作为连词和潜语义分析衔接指标;(3)根据Crossley和McNamara[13]的研究发现,时体一致可
临沂大学学报 2022年6期2022-12-20
- 哈萨克语形态构词形式与功能刍议
缀是缀接在词根或词干上增添新的抽象的词汇意义的附加成分,也叫构词附加成分[2]。该文主要讲述在哈萨克语中比较能产的形态构词词缀,包括名词构词形式与功能、动词构词形式与功能、形容词构词形式与功能、 外来构词词缀和部分词性的演变等几部分内容。1 名词构词形式及功能名词的构词形式主要有两种,由体词构成名词和由动词构成名词。1.1 由体词构成名词的词缀由体词构成名词的词缀主要附加在名词、 动名词、形容词和数词之后。(1)名词/动名词+“ʃə/ʃi”表示以词根所指事
文化创新比较研究 2022年14期2022-12-06
- 面向检索服务的词干提取与相关排序优化研究
处理的效率,其中词干提取是词形归一化的核心技术之一。然而现有的词干提取算法普遍存在词干提取不足、词干提取准确率不高等问题,无法有效改善庞大的文本词汇量与关键词特征缺失的矛盾问题,导致搜索引擎的时空复杂度偏高而查询效率偏低。为解决文本查询处理面临的“高维-稀疏”问题,通过优化词干分析算法对文本向量空间进行降维处理,以减少词项的数量,从而提高文本处理效率。此外,为了减少系统在相关排序过程中的时间及硬件资源消耗,查询优化技术逐渐受到学术界及工业界的重视。其中,t
桂林电子科技大学学报 2022年5期2022-11-05
- 事件框架下英德动词的异同分析
由可分前缀和动词词干两部分组成。在单独记录可分动词时,一般用符号“/”将可分前缀和动词词干隔开,且在没有完成时、情态动词等构成的框型结构时,通常需要将可分前缀置于句末。根据实际需要,德语的可分动词可以体现一层或两层“路径”信息。在德语谓语动词只体现一层“路径”信息的情况下,可以按照是否额外需要介词辅助分为两类。如表3所示,在体现一层“路径”信息的德语动词中,有些仍需要介词辅助,以使“路径”信息更为明确。在表3的两句德语例句中,动词“zurück/gehen
文化创新比较研究 2022年23期2022-10-08
- 基于构式语法理论的德语“-bar构式”研究
”的词义,由动词词干“analysier-”和后缀“-bar”派生而成,analysieren是及物动词,有“分析”的词义。annehmbar有“能够被接受”的词义,由动词词干“annehm-”和后缀“-bar”派生而成,annehmen是及物动词,有“接受”的词义。anwendbar有“能够被使用”的词义,由动词词干“anwend-”和后缀“-bar”派生而成,anwenden是及物动词,有“使用”的词义。ausdrückbar有“能够被表达”的词义,由
内江科技 2021年2期2021-12-29
- 满语中动词类汉语借词的词法研究
的关键。以“n型词干”为例,满语中一部分动词词干原本以辅音n结尾,但这部分动词在经历平准化后被重新构拟为以元音结尾的动词词干,即辅音n脱落的同时词尾音韵融合致使词尾成为语素变体。如jempi、jengke、jembumbi、jendere中的词干je-可构拟为“jen-”,其发音和语义都与汉语“忍”具有很高的一致性,本文将其判定为汉语借词。二、派生动词类借词派生动词类借词指与派生词缀结合而成动词的借词,该类动词在其他论文里也有探讨,如möllendorff
东北师大学报(哲学社会科学版) 2021年6期2021-11-17
- 维吾尔语形态分析研究综述
义单位[16]。词干则是由多个词根或词根和构词词缀构成[17],有时不会区分词干和词根。通过有限的词干和词缀不同组合,理论上维吾尔语能够产生无限词汇,表达出不同的语义,同时由于多数词汇出现次数较少造成了严重的数据稀疏性现象[18],从而导致严重的OOV问题[7]。维吾尔语词汇的一般形态结构是:词干+词缀1+词缀2+…+词缀n。同一单词在不同的语境条件下会有不同的切分结果[19]。在维吾尔语中,词缀根据位置分为前缀和后缀。前缀(Prefix)数量较少,共有6
计算机工程与应用 2021年15期2021-08-06
- 托河路鄂伦春语的几种音系过程及规则分析*
根内部,更常见于词干与词缀(或附缀)的交界处,包括:弱化、同化、脱落、增音等。其中,同化现象(特别是逆同化现象)较多,这个特点在满—通古斯语族其他语言中也较为明显。由于不同音系过程只能用于特定的位置,为此,本文在概括托河路鄂伦春语音段音位系统的基础上,主要从词根内部的音系过程和词干与词缀边界的音系过程两个方面,对托河路鄂伦春语语音变化的音系过程进行归纳探析。文中例词均来源于笔者在内蒙古自治区鄂伦春自治旗托扎敏乡希日特奇猎民村和木奎猎民村的田野调查材料。二、
黔南民族师范学院学报 2021年1期2021-04-22
- 汉语名词与维吾尔语名词的词缀对比研究
而是联结在词根或词干上表达一定词汇意义或语法意义的语言成分都叫附加成分。该文以汉语名词词缀和维吾尔语名词词缀为研究对象,分别从常用名词词缀种类、名词词缀构成方式及名词词缀数量3 个方面入手,将汉语名词词缀及维吾尔语名词词缀进行对比并得出相关结论。1 汉维语常用名词词缀种类对比汉语名词词缀和维吾尔语名词词缀按不同的分类标准可以划分出不同的类别,该文根据词缀在词中所处位置,分别对汉语名词词缀及维吾尔语名词词缀进行了分类。1.1 汉语常用名词词缀种类根据词缀在词
文化创新比较研究 2021年10期2021-03-07
- 词干单元和卷积神经网络的哈萨克短文本分类
词是由后缀所附的词干构成,因此,哈萨克语中构词和词性变化较复杂,词汇量巨大.其中,词干是具有实际意义的词汇单元,词缀提供语义和语法功能,因此,通过对哈萨克文本的词素切分以及词干提取等预处理操作来我们可以保留有意义的和有效的文本特征,并能够有效地降低特征的反复率和维数.因此,词干提取是哈萨克文本分类任务中重要的基础性工作,如以下例子所示:(原型)jaresta jaresneN soNGe jares nomeren alep,taNdaw jarestan
小型微型计算机系统 2020年8期2020-09-07
- 基于机器学习方法的哈萨克语词干切分研究
可以分为:词根、词干、构词附加成分、构形附加成分(附加成分也称为词缀)。一般而言,黏着语的每一个词缀都只表达一种意思或只具有一种语法功能。词根后面附加构词附加成分,形成新的词汇意义从而构成新词;而词干后面附加构形附加成分,形成与词干意义相同,语法含义不同的单词。哈萨克语单词的构造形式是通过将不同的构形附加成分按照一定的规则缀接在词干后来实现的。根据这些规则,构形附加成分是可以层叠的。哈萨克语单词的这种构形方式使哈萨克语单词的形态变化丰富而且复杂。哈萨克语单
计算机技术与发展 2020年4期2020-04-30
- 论柯尔克孜语词干提取方法
克孜语形态特征对词干提取的作用,之后探讨柯尔克孜语词类划分、词类的形态特征。介绍基于规则、词典以及词典和规则相结合的方法和柯语语料构建工作。讨论柯语基于词典、基于规则及词典与规则方法的设计工作。最后以柯尔克孜文微信公众号的新闻语料作为验证对象,对利用三种不同的方法进行词干提取试验,并对数据进行统计与分析,验证词干提取方法的可行性。[关 键 词] 柯尔克孜语;形态分析;词干提取;方法[中图分类号] H215 [文
现代职业教育·高职高专 2020年22期2020-03-24
- 基于词干单元的维-哈语文本关键词提取研究*
开的词组成,词由词干追加词缀来派生,因此维-哈语中词汇量巨大。其中,词干是具有实际意义的词汇单元,词缀提供语义及语法功能,因而词素切分和词干提取能够使我们获取有效的、有意义的特征,并减少特征的重复出现率和特征位数,如以下例子所示:(维语原型)musabiqidA musabiqiniN vaHirqi musabiqA numurini velip,tallanma musabiqidin GAlbilik vOtti.(维语词素切分后)musabiqA+
计算机工程与科学 2020年1期2020-03-04
- 维吾尔语复杂形态对汉维机器翻译的影响研究
语,其词汇是通过词干(词根)和词缀连接而衍生的,该属性使其生成大量的语素组合,呈现出丰富且复杂的形态变化,大幅增加了词汇量的规模,从而在汉语与维吾尔语之间的机器翻译中造成了未登录词的增多和统计模型的数据稀疏性问题,为降低数据稀疏度,词干、词尾分解后只保留词干而无条件地丢弃词尾会失去很多有用的信息,相反若保留所有的词尾则导致句子过长,会被词语对齐工具过滤掉[1]。对维吾尔语词尾粒度的切分采取选择性的保留方法,可以降低因不同形态带来的数据稀疏性问题,尽可能地增
计算机工程 2020年2期2020-02-19
- 汉哈语否定词对比及其互译研究
表达形式:“动词词干+mɑ/-me/-bɑ/-be/-pɑ/-pe+谓语性人称词尾”例如:“ol bɑrsɑ,men bɑrmɑjm?n.” (他要去的话,我就不去了。)3.1“emes-”的常见用法由哈语“emes-”构成的否定形式有许多种。(1) 表达形式:动词词干后加“-?ɑn/-ɡen/-qɑn/-ken+emes”。表示过去或曾经未曾经历某事或做过某事。例如:bɑr-+-?ɑn+emes-+-pin----bɑr?ɑn emespin (
知识文库 2019年19期2019-10-21
- 基于Android的维吾尔文词性标注、词干提取APP的开发与设计
开发过词性标注与词干提取工具,主要功能是自动分析文本中的句法结构和分词。百度AI 的工具仅仅适合于中文词法与句法分析,不适合维吾尔语的句法与词法分析,且对兼类词进行标注时,结果不太理想。因此,本文研究适合维吾尔语的标注平台,并充分考虑系统的可行性,开发出了Android 的应用APP 软件,将依赖于PC 机的标注平台转移到了智能手机上。该应用软件提供手动词性标注和词干提取功能,最主要的特色是功能齐全、操作简单、界面友好,为广大研究员提供了必不可少的自然语言
现代电子技术 2019年18期2019-09-23
- 基于Bi-LSTM-CRF模型的维吾尔语词干提取的研究
黏着语种的单词由词干和词缀组成,词干主要表达词的意义,而词缀提供语法信息(所属性,形态,复数)。作为维吾尔语自然语言处理中的基础性研究,词干提取的质量会直接影响维吾尔语言处理的其他任务,如词性标注、命名实体识别等[1]。除此之外,维吾尔语中词干与词缀相连接时,连接处由于结合的不规则性,会发生一系列的音系现象[2],这种音系现象对词干提取带来了一定的困难。维吾尔语自然语言处理技术还处于发展初期[3],目前维吾尔语中的词干提取大致可以分成基于词典/规则的方法[
中文信息学报 2019年8期2019-09-05
- 维吾尔语词缀变体搭配规则研究及算法实现
基础,从维吾尔语词干结构特征和词缀结构特征出发,归纳总结维吾尔语语音和谐律。在充分考虑基本搭配规则和特殊规则的前提下,提出一种通用的维吾尔语变体搭配算法。结合大规模词库,一方面验证已有规则是否覆盖词库中所有单词,另一方面筛选出所有具有词缀特殊使用方法的单词。更深入地研究这些词缀特殊使用方法,揭示其内在规律奠定基础。1 维吾尔语词缀变体搭配规则目前已有众多文献对语音和谐律做了总结[1-3, 9-13],其中《正字法词典》对规则的总结最全面。《正字法词典》针对
中文信息学报 2018年11期2018-12-20
- 巴利语中若干特殊保留性
。2.2 -a词干的复数、具格结尾为-ebhi?吠陀梵语中出现-a词干的复数、具格结尾为-ebhi?,而在古典梵语都变为-ai?例如《梨俱吠陀》第10章82节5颂中的devebhi?(天神;阳性、复数、具格)。这一词在古典梵语用的是devai? 如《摩诃婆罗多》第1章71节16颂中,但巴利语中可以用devebhi(在巴利语中?脱落)。另一例子如《梨俱吠陀》第10章125节5颂中的mānu?ebhi?(人;阳性、复数、具格),这一词在古典梵语用的是mānu
知识文库 2018年23期2018-10-20
- 基于多策略的乌孜别克语名词词干识别研究
中发生语音变化的词干本身的特征,设计音变现象的还原模型,并结合词干库配对方法来实现自动还原[1]。祖日古丽、玉素甫等人对乌孜别克语的音节结构进行分析,在前者的研究基础上,归纳了乌孜别克语词汇的音节变化规律[2]。阿西穆·托合提提出了基于词典和规则相结合的维吾尔语和乌孜别克语机器翻译方法[3]。文献[4]利用维吾尔语和乌孜别克语之间的这种相似关系,设计并实现了乌孜别克语-维吾尔语双语语料库构建平台。本文构建一定规模的乌孜别克语西里尔文生语料库,将其转换为对应
中文信息学报 2018年9期2018-10-19
- 基于支持向量的最近邻文本分类方法
重要意义。合理的词干有助于提高文本分类的性能和效率[17-18],特别是对于哈萨克语这样的构词和词性变化较复杂语言的文本分类而言,词干的准确提取极其重要。从同一个词干可以派生出许多单词,因此通过词干提取还可以对语料库规模进行降维。文本文档数量的巨大化和包含特征的多样化,给文本挖掘工作带来一定的困难。目前,众多文本分类研究都是基于英文或中文,基于少数民族语言的文本分类研究相对较少[19];但是国外对于阿拉伯语的文本分类工作比中国少数民族语言文本分类工作成熟[
智能系统学报 2018年5期2018-09-18
- 基于统计的蒙汉机器翻译中词对齐方法研究
,本文给出了基于词干词缀粒度的蒙汉词对齐方法,并利用IBM模型3和模型4,通过实验证明了词干词缀的切分能够有效提高蒙汉词对齐模型的对齐质量。本文还进行了基于对数线性模型的蒙汉词对齐研究,并通过融入词干词缀切分后的IBM模型特征,实验证明词对齐效果明显提升,并且本文对比了基于交集、并集以及采用启发式方法的IBM双向特征融合方式对蒙汉对数线性词对齐模型对齐质量的影响。本文将在第一节中介绍蒙古语的特点以及词对齐模型,并对IBM模型和对数线性词对齐模型以及启发式I
中文信息学报 2018年6期2018-07-18
- 再谈「ラ抜き言葉」
节数来看,一音节词干动词共有5个 (見る·来る·寝る·出る·着る),二音节词干动词有7个(食べる·起きる·借りる·受ける·生きる··かける·逃げる)。从词例的数量计算,二音节词干动词居多,但从各词例的使用例数量计算,一音节词干动词占有绝对的优势,仅「見る」一词的使用例数量就高达53.%,超出半数。另外,一音节动词的排位名次也相对靠前,前七位中,二音节词干动词中只有「食べる」、「起きる」跻身其中。在全部2133个使用例中,一音节词干动词的「ラ抜き言葉」的使用
山东农业工程学院学报 2018年2期2018-05-03
- THUUyMorph:维吾尔语形态切分语料库
及维吾尔语分词、词干提取等任务。在建立过程中本文参考了Ryan Cotterell的工作[18]。建立和公开的维吾尔语形态切分语料库的开源网址为:http://thuuymorph.thunlp.org/。该研究不仅对维吾尔语语料库的建设具有参考意义,而且为维吾尔语自然语言处理研究提供了有益的资源。1 研究背景1.1 维吾尔语形态切分的特点世界上语言分类包括:孤立语、屈折语和黏着语等。孤立语的特点一般不通过词形变化来表达语法作用,如汉语。屈折语和黏着语的共
中文信息学报 2018年2期2018-04-16
- 比较分析英语词汇学研究中的形态结构术语
体 词根 词缀 词干一、前言在中国和西方的语文研究中,“词”一直是不可或缺的内容。英语中的lexicology(词汇学)这个名称是Noah Webster于1828年创造的。21世纪以来,随着计算机科学的发展和语言学研究的深入,词汇研究在西方,尤其是欧洲,引起了越来越多的重视,相继出版了一系列的词汇学著作。词汇学习也越来越受到师生的重视。了解词汇学知识,尤其是关于词汇形态结构方面的知识,有助于加深对词汇的理解,提高语言运用能力,也可以加强词语的释义和辨析,
校园英语·上旬 2017年15期2017-12-28
- 维吾尔文初中数学教材词干分析研究
尔文初中数学教材词干分析研究艾孜尔古丽1,艾孜海尔江1,2,玉素甫·艾白都拉1,祖力克尔江1,2,米尔夏提3(1. 新疆师范大学 计算机科学技术学院,新疆 乌鲁木齐 830054;2. 新疆师范大学 文学院,新疆 乌鲁木齐 830054;3. 新疆大学 信息科学与工程学院,新疆 乌鲁木齐 830046)该文将初中数学维吾尔文教材作为研究对象,根据维吾尔语的特点和统计学原理理论,从计算语言学角度调查初中数学维吾尔文教材用词干情况。该文主要研究维吾尔语词干、教
中文信息学报 2017年5期2017-11-27
- 谈维吾尔语动词语态
体关系,就是动词词干上最先出现的语法范涛,表示动词所表示的行为动作与语法主语之间的各种关系。动词词干是只有一个实语素构成如:maŋ走,tur站/站起来,uč飞等。对维吾尔语动词语态无论传统语法或者转换生成语法里动词语态的五类分法:基本态,使动态,被动态,反身态,交互态是学者们都认可的普遍观点。维吾尔语动词的语态变化是动词词干后加特定的语态语缀而构成这并不表示维吾尔语中的所有动词词干上可以附加语态语缀能够形成每个动词的五种语态变化的现象,有些动词有被动态形式
长江丛刊 2017年28期2017-11-25
- 对现代日语活用形的几点思考
五段动词:書く,词干“書”,未然形①か②こ,连用形き,终止形く,连体形く,假定形け,命令形け。一段动词:教える,词干“教”,未然形え、连用形え、终止形える、连体形える、假定形えれ、命令形①えろ②えよ。サ变动词:する,未然形①し②せ、连用形し、终止形する、连体形する、假定形すれ、命令形①しろ②せよ。カ变动词:来る,未然形来(こ)、连用形来(き)、终止形来る、连体形来る、假定形来れ、命令形来い。イ形容词:暑い,词干“暑”,未然形かろ、连用形①く②かっ、终止形い
中国校外教育(上旬) 2017年13期2017-09-14
- 日语「る」系派生动词研究
る」系派生动词的词干来源非常丰富,除了名词以外,还包括形容词、サ変动词以及外来语等,显示出极强的构词能力。与传统动词相比,「る」系派生动词在意思特征及音声特点方面也都具有明显特征。日语;派生动词;接尾词;词干1 日语「る」系派生动词现象日本文化厅2014年3月[1]以2028位年龄在16岁以上人群为对象,对 「名詞·外来語+ル·スル」这类新生词的认知度进行调查发现,排名前10位的词中有8个为「る」系派生动词,按照使用频率高低来划分,最高的5个词依次为「チン
重庆电子工程职业学院学报 2017年3期2017-08-08
- 论构词与经贸英语词汇记忆
词素意义、词缀、词干、复合词、派生词及其词汇场等一联想记忆,经贸英语也就不是那么特别难了。1 词素对于经贸英语词汇,如果我们掌握了表示意义的最小单位:词素,那么在经贸英语词汇习得过程中,通过分析词汇的各组成部分之间的意义,或者是通过横组合和纵聚合关系构词所形成的词汇场这样的联想记忆方法,有助于我们对经贸英语的掌握。当我们习得自由词素port表示“港口”之后,通过添加不能单独使用的粘着词素im-,ex-或trans-前缀,分别构成import(进口),exp
读与写·教育教学版 2017年1期2017-02-05
- 基于规则的维吾尔语、哈萨克语机器翻译∗
种语言,对于某个词干缀接其中哪个复数词尾完全取决于语音和谐规则[8].如表1所示.表1 维吾尔语、哈萨克语词尾缀接对比表从表中可以看出,维吾尔语词干需接复数词尾只从“-lar或-ler”中选一即可,哈萨克语词干需要从6个表示复数的词尾中选一.同时,维吾尔语名词复数词尾“lar”的连接规则与哈萨克语名词复数词尾“-lar,-tar,-der”相似;维吾尔语词尾“-ler”的连接规则与哈萨克语词尾“ler,-ter,-dar”相似.两种语言词尾之间的这种一对多
新疆大学学报(自然科学版)(中英文) 2016年3期2016-11-28
- 俄语重音的变化和原因探究
尾,转移到现在的词干部位了。2、无前缀反身动词过去时的重音变化在一部分无前缀反身动词过去时中,阳性重音化体现在词干上。也有一些无前缀反身动词的重音形式体现在尾缀上。甚至十九世纪的一些语言规范词典,还会给这些尾缀重音添加上注脚。到了现代,这种重音形式已渐渐被人们弃用。所以,无前缀反身动词过去时阳性词干重音形式的使用方法也因此得到了巩固。(二)俄语形容词重音的改变1、俄语形容词短尾的重音变化单音节词干的形容词短尾阴性的重音在词尾部分,而且,相对而言比较稳定。而
长江丛刊 2016年30期2016-11-26
- 汉蒙机器翻译中译文动词后处理研究
、构形都是通过在词干后缀接不同的词尾而实现,而且可以层层缀接,层层派生。文献[4]中给出了297个蒙古文构形附加成分。其中我们选择了142个动词构形附加成分。 蒙古语动词构形附加成分分为三类,分别为:第一类:祈使式、陈述式、副动词和形动词附加成分,共113条;第二类:态附加成分,共20条;第三类:体附加成分,共9条。我们在蒙古文动词词干库基础上,按缀接规则,在词干后面缀接动词构形附加成分,生成了蒙古文动词库。针对句尾出现的错误词形动词,我们设计了动词后处理
中文信息学报 2016年2期2016-05-04
- 基于词干的蒙古语语音关键词检测方法的研究
10021)基于词干的蒙古语语音关键词检测方法的研究飞 龙,高光来,王宏伟(内蒙古大学 计算机学院,内蒙古 呼和浩特 010021)为了提高蒙古语语音关键词检测任务中的集内词检测性能,该文结合蒙古文的构词特点提出了基于词干进行检测的蒙古语语音关键词检测方法。首先,该文采用基于分割识别的蒙古语语音识别系统将语音解码成了网格文本,并对网格文本进行了混淆网络的转换;其次,采用关键词的词干部分对混淆网络文本进行了关键词的检测。实验结果表明,基于词干进行检测的蒙古语
中文信息学报 2016年1期2016-05-03
- 根据药名识别抗生素
类药物都有共同的词干或词头。熟记常用于抗生素药物命名的几个词干或词头就能识别是否抗生素了。以下是一些主要的词干(或词头),用于常用的大部分抗生素药物。磺胺——用于磺胺类抗菌药,如磺胺嘧啶、磺胺甲恶唑。霉素——各类抗生素都有用这个词干的。大环内酯类如红霉素类的药物用的就是这个词干。西林——用于青霉素类药物,如阿莫西林。头孢——用于头孢菌素类药物,如头孢拉定、头孢地尼。培南——用于碳青霉烯类药物,如美罗培南。环素——用于四环素类药物,如替加环素。沙星——用于喹
保健与生活 2016年5期2016-04-21
- 浅析新型网络中英语码混合词汇的构词过程
以拼音化的汉语为词干及英语黏着词素结合成词,并加以使用,成为风潮。本文旨在从语码混合理论及优选论的角度研究这些新型的语码混合词的形成方式与过程,并探讨当中涉及的词干、黏着词素及额外构词成分的功能与作用,证明其造词过程、词素选取具有其系统性。关键词: 语码混合 优选论 词干 黏着词素 额外构词成分随着网络技术的发展及全球化的推进,各种语言背景的人们联系越来越紧密。语言接触现象普遍存在,并衍生各种语码混合的现象,一种新型的网络用语语码混
考试周刊 2015年57期2015-09-10
- 基于词典、规则的斯拉夫蒙古文词切分系统的研究
新蒙古文。蒙古文词干和词缀包含着大量信息,斯拉夫蒙古文词切分是斯拉夫蒙古文信息处理众多后续工作的基础。该文尝试了将词典和规则结合的方法对斯拉夫蒙古文进行词切分。首先预处理部分蒙古文词,然后基于词典切分高频和部分不符合规则的词。最后对剩余的词,用切分规则生成多个候选的词切分方案,然后在这些方案中选出最优方案。通过两种方法的有机结合,发挥各自的优点,得到了性能较好的斯拉夫蒙古文词切分系统。斯拉夫蒙古文;词切分;词典;规则1 引言蒙古语是黏着性语言,黏着语语言是
中文信息学报 2015年1期2015-04-25
- 融合多策略的维吾尔语词干提取方法
多策略的维吾尔语词干提取方法赛迪亚古丽·艾尼瓦尔1,向 露2,宗成庆2,艾克白尔·帕塔尔1,艾斯卡尔·艾木都拉1(1. 新疆大学 信息科学与工程学院,新疆 乌鲁木齐 830046;2. 中国科学院自动化研究所 模式识别国家重点实验室,北京 100190)维吾尔语是形态变化复杂的黏着性语言,维吾尔语词干词缀切分对维吾尔语信息处理具有非常重要的意义,但到目前为止,维吾尔语词干提取的性能仍存在较大的改进空间。该文以N-gram模型为基本框架,根据维吾尔语的构词约
中文信息学报 2015年5期2015-04-21
- 基于维吾尔语词干词缀粒度的汉维机器翻译
)基于维吾尔语词干词缀粒度的汉维机器翻译米莉万·雪合来提1,2,3,刘 凯2,吐尔根·依布拉音1(1. 新疆大学 信息科学与工程学院,新疆 乌鲁木齐 830046;2. 中国科学院大学,北京 100190;3. 乌鲁木齐市工商局,新疆 乌鲁木齐 830002)汉语到维吾尔语的自动机器翻译有着重要的现实意义。目前对于汉维统计机器翻译方法的研究相对空白。该文提出了一种以维吾尔语为词干词缀粒度的汉维机器翻译方法。该方法利用维吾尔语形态分析后的词干词缀作为翻译的
中文信息学报 2015年3期2015-04-21
- 基于形态分析的现代维吾尔语名词词干识别研究
现代维吾尔语名词词干识别是自然语言处理领域的重要基础性研究,主要目的是从句子中提取名词词干。现代维吾尔语名词具有丰富的句法和语义信息,识别的结果可以被广泛应用于维吾尔语名词短语分析、词性标注、命名实体识别、句法分析、机器翻译等领域。现代维吾尔语名词词干识别还被应用在平行语料的对齐上,以提高词对齐的效果;由于维吾尔语歧义切分问题导致句法分析的任务变得十分复杂,维吾尔语名词词干的识别能部分消解这些歧义;随着新事物的不断涌现,新词术语的识别、统计分析、翻译也是亟
中文信息学报 2015年6期2015-04-14
- 浅谈日语敬语
连用形(サ变动词词干)+になる例:課長は何時ごろご出勤になりますか。科长是几点上班啊。先生はもうお帰りになりますか。老师您要回去了吗?1.4.2 お(ご)+动词连用形(サ变动词词干)+なさる例:先生は何時ごろお帰りなさいますか。老师几点回来啊。どうぞこちらでお休みなさいませ。请在这边休息。2 自谦语自谦语是说话人通过谦卑地表现自己或己方及其所属的行为、性质、状态和事物,向听话人表示谦虚或行为对象的涉及对象间接表示敬意的表达形式。2.1 作自谦语的动词いたす
职业技术 2015年11期2015-01-31
- 融合形态特征的最大熵维吾尔语词性标注
来说,如果在一个词干的后面加上不同词缀的附加成分,那么这个单词就可以构成不同的单词。采用上述方法尽管取得了较好的成绩,但仍然有大量的未登录词无法避免,而且也使得维吾尔文的词性标注出现了更加严重歧义的现象,如果不能使用足够的特征信息来进行处理,就会对兼类词消歧产生很大的影响,并且也会在对未知词进行标注时影响它的词性标注的准确度,一般采用猜测的方法对上述模型中未登录词的词性进行标注。本文充分利用维吾尔文形态特征建立了一个基于最大熵理论的维吾尔文词性标注模型,由
西北大学学报(自然科学版) 2015年5期2015-01-01
- 一种基于改进KNN的哈萨克语文本分类
哈萨克语本分类;词干提取;向量空间模型;相似度;KNN0 引言文本分类(Text Categorization)是一项基本的数据挖掘技术,是依照实现定义好的特定类别,为语料集中的每篇文档确定一个所属类.在文档的组织和管理、搜索引擎对网页的排序、数字图书馆、邮件的过滤、文本过滤、信息安全保密、自动文摘、分类新闻组等领域里文本分类发挥着重要的作用.在文本自动分类技术方面,不同文种存在许多共性,但由于各语言语法结构之间的差异,使得基于其他语言文本分类的研究成果,
东北师大学报(自然科学版) 2014年2期2014-06-27
- 论现代维吾尔语形态手段中的零形式
形式:一个是名词词干后加(ni),如:adilni dadisi“阿迪力的爸爸“,另外一种是隐性形式—零形式。领属格零形式词尾的构成形式:{名-数-数-人称-Ø(领属格)},例如:ulR aØ alm isi(伊犁苹果)i nR a Ø x εlqi(新疆人民)领属格零形式的用法:(1)作为专名的固定词组中的领有者定语的领属格词尾一般表示零形式,这种形式使整个词组具有专名的身份作用。表达形式是:{名词1数—属人称—Ø+名词2数—属人称—Ø(主格)},例如:
语言与翻译 2014年4期2014-05-25
- 基于词典和统计相结合的维吾尔语拼写检查方法
有鲁棒性不高,对词干提取无法检查连接的词缀是否有效等不足,结合维吾尔语的特点,我们提出了词典与统计相结合的方法。2 维吾尔语拼写检查维吾尔语属于黏着语言[1],因此在拼写过程中难免会出现拼写错误,而且拼写错误率较高。在实际使用过程中,有些单词的拼写检查根本不会影响读者对内容的正确理解。但是,拼写错误不仅对出版行业重要,对语言自身的健康发展也很重要。拼写错误一般指的是键入的文本,即人们键入文本时,无意识或不知正确拼写的情况下,根据发音拼写单词而产生的错误。拼
中文信息学报 2014年2期2014-04-14
- 英语词缀对英语学习的影响
加在词基上构成新词干的语素,或是提供曲折成分的词素。从形态变化的角度,词缀可分为曲折词缀和派生词缀;从词缀所处的位置,课氛围前缀、中缀、后缀。词缀知识对于提高英语阅读水平和扩大词汇量意义重大。单词是语言中最小的自由形式。而词素是语言中最小的意义单位或元素。词素可以是一个单词,也可以是一个词缀。英语词缀是英语形态构词中的一种黏附语素(boundmorpheme)。它常常附在自由语素(freemorpheme)的前面或后面或嵌在其他语素中间,只表示附加意义和语
文艺生活·中旬刊 2014年1期2014-03-24
- 以学生为中心的基础医学英语词汇的教学方法探索
y,可以告诉学生词干部分来自于希腊词cyte,意思是细胞,而后缀-logy的意思是学科。而现在表示细胞的cell(源于拉丁文cella原意为空隙、小室)一词是1667年R.胡克在观察软木塞的切片时看到软木中含有一个个小室而以之命名的,可以构成表示细胞的形容词cellular。2 学生参与的构词法则的教学与实践医学单词数量众多,冗长拗口,难以识记。构词法有助于学生分析和理解冗长的单词,促进有效的记忆,达到事半功倍的效果。因此,构词法是学习的关键。在单词的教学
医学教育研究与实践 2014年2期2014-03-06
- 面向维吾尔语电话交谈式语音识别的词典设计方法研究
语中,可以通过在词干后不断结合附加成分构成新的词语。如果从文本语料中选择高频词语构成词典,识别系统的集外词比例将远大于相同词典规模的英语系统。为了缓解黏着语语音识别中集外词过多的问题,通常选择分解词语得到的子词作为语言模型建模单元。近十年来,在黏着语一遍识别系统的开发中,围绕词语分解方法和子词单元选择出现了大量的研究。对于匈牙利语,Szarvas[1]等使用该语言的形态分析器将词语分解为语素,并采用这种语法语素作为识别单元。对于芬兰语,Hirsimäki[
重庆邮电大学学报(自然科学版) 2013年3期2013-12-14
- 维吾尔语词法中音变现象的自动还原模型
黏着语,其特点是词干可接多层(可以是零层)词缀,呈现出丰富而复杂的形态变化。维吾尔语词干在接词缀时按维吾尔语语音和谐规律有些语音会发生弱化、脱落、增音等现象,例如,mektep(学校),mektipim(我的学校),mektipidin(从他的学校),mektipiningki(是他的学校的)等,都是同一个词干mektep(学校)后分别接_im(第一人称单数)、_i(第三人称单数)+din(从格)、_i+ning(领属格)+ki(替代人(物))等词缀而来,
中文信息学报 2012年1期2012-10-15
- 论日语中敬语的使用
(或ご+サ变动词词干)+になる②お+动词连用形(或ご+サ变动词词干)+なさる③お+动词连用形+くださる④お+动词连用形+です形容词(形容动词):①お∕ご+形容词(形容动词词干)+です②お+形容词+くていらっしゃる③お+形容动词+でいらっしゃる(2)谦让语(謙譲語)是用于说话人本身或者说话人一方的用语,目的是来降低自己的身份来抬高对方的身份,以达到尊敬对方。谦让语的种类名词:体言的谦让语通过前缀构成。例如:わたくし、せがれ、お手紙、お返事、お話、お祈り、ご相
电大理工 2012年2期2012-04-02
- 蒙古语领属格词缀研究
用于以元音结尾的词干后;-un、-ün 和-u、-ü 为又一类,它们接用于以辅音结尾的词干后。但是,-un、-ün 和-u、-ü 之间又有区别。依据辅音性质的不同而这两种词缀的接用方法也不一样。-un、-ün接用在除鼻辅音-n以外的其他辅音结尾的词干后;-u、-ü则接用在以鼻辅音-n结尾的词干后。因此,这两种词缀的接用条件构成了互补关系,它表明这些词缀的区别是基于接加词缀的语音环境而出现的不同变化形式。例如:-ü — kümün-ü yaγuma“别人的东
山西大学学报(哲学社会科学版) 2012年5期2012-01-11
- 关于「~さ」与「~み」的异同
形容词、形容动词词干后接结尾词「さ」、「み」可以构成相应含义的名词。这一规则是否任何情况下都成立?两者在具体使用时有哪些异同?笔者从语法方面入手,对其进行了分析,希望能为日语教学者提供一份参考,同时也能对广大日语学习者有所帮助。「~さ」;「~み」;异同日语中,存在一些词尾可以添加「さ」与词尾可以添加「み」的成对的词。例如「重さ」与「重み」、「厚さ」与「厚み」、「おもしろさ」与「おもしろみ」、「新鮮さ」与「新鮮み」等等,感觉两者之间有微妙的差异。那么它们之间
湖北开放大学学报 2011年6期2011-10-26
- 蒙古语词法分析的有向图模型
语言的词语通常由词干和若干起修饰作用的词缀组成树状结构,词法分析的任务就是解析出词语的词干和词缀构成,并且标定好它们的类别标注。这样一来,在汉语上效果良好的序列标注模型[12-14]在这里变得不太适用,而研究者往往直接借用这些现成的线性序列模型,同时将任务限定为粗切分或标注[7-10],这使得系统的理论价值和实用性大打折扣。另一方面,传统的基于规则的词法分析模式需要专门的语言学人才,往往耗费大量的精力调试搭建后,准确率和稳定性并不尽人意。因此,我们有必要构
中文信息学报 2011年5期2011-10-15
- 蒙古语有向图形态分析器的判别式词干词缀切分
语言的词语通常由词干和若干起修饰作用词缀组成树状结构,形态分析任务需要解析出词语的词干和词缀构成。我们之前提出了一种针对蒙古语构词特性的形态分析模型。该模型将蒙古语语句的词法分析结果描述为有向图结构,图中节点表示分析结果中的词干、词缀及其相应标注,而边则表示节点之间的转移或生成关系。为这些转移或生成关系赋以合适的概率形式,则形态分析的过程就是寻找其所有概率乘积最大的有向图。该模型取得了较高的性能,但它存在致命的缺点。模型依据从人工语料库中抽取出的词干表和词
中文信息学报 2011年4期2011-06-28
- 基于短语统计机器翻译模型蒙古文形态切分
单位,本文指的是词干、词缀的集合)。形态丰富的语言,例如蒙古语、土耳其语、俄语、西班牙语等,通常语言构形成分承载着大量的语法信息。形态切分成为自然语言处理中的很多领域,包括语音识别[1]、机器翻译[2-3]、信息检索[4]等重要研究方向,因而形态分析是蒙古文信息处理诸多应用系统的一个不可或缺的模块。蒙古文形态分析属于序列标注问题,当前所采用的主要方法有: (1)词典和规则相结合的分析方法[5];(2)统计和规则相结合的分析方法[5]。基于词典的方法通过查词
中文信息学报 2011年4期2011-06-28
- 一种改进的维吾尔语句子相似度计算方法
着语。它是通过在词干上附加各种构词和构形词缀而改变词汇意义和语法意义的一种语言。这种特点对于维吾尔语句子相似度计算带来了一定的困难。文献[2]提出了一种计算维吾尔语句子相似度算法,先基于词形特征选出粗选相似句子,然后进一步精选并计算相似度。该方法虽然考虑了维吾尔语单词词频特征对不同的单词给予不同的权值,但没有考虑维吾尔语的黏着性,即没有进行词干提取,并且对较长的句子或组成词频低的句子相似度计算的偏较差大,这反而降低了系统的翻译质量。我们的学校你们的功课有时
中文信息学报 2011年4期2011-06-28
- 一种基于汉维对齐的双语语料库的获取方法
首先针对维文进行词干提取、词性标注,在此基础上,对汉维文本进行对齐,最后基于对齐方法由已有的汉文语料库构建维文语料库,其原理如图1所示。图1 对齐语料自动获取原理1.1 维文的词干提取维吾尔语中词切分包括音节切分、词根切分和词干切分,本文主要采用词干切分。所谓词干就是指维吾尔语文本中的表示完整词汇意义的整体,维文中词干提取包括2个步骤:从维文中提取出词,并去除词中的构形附加成分;将去除了构形附加成分的部分还原为词典中的原形词。(1)词干切分方法。由于维吾尔
合肥工业大学学报(自然科学版) 2011年11期2011-06-05
- 浅议在校大学生国际日语四级速成教学法
“た形”“形容词词干い”变成“形容词词干くて”、“形容词词干かった”。6.形容动词接“て形”、“た形”“形容动词词干だ”变成“形容动词词干で”、“形容动词词干だった”。7.名词接“て形”、“た形”名词比照形容动词词干,变成“名词で”、“名词だった”。学生事先了解到这些固定的变化规律后,对第15、16、17课灵活运用“て形”,进而对第21、22课运用“た形”,以及第23课直到最后的第24课的学习,乃至今后中、高级日语的学习,大有益处。四、课程后期以综合运用为
中国校外教育(下旬) 2009年15期2009-11-20
- 让记忆开花结果
李池红一、词干生枝,节节开花利用一个单词变换出更多的单词,从中我们会感觉到新词其实并不陌生,而且也有利于我们巩固和记忆学过的单词。基本做法:利用含有一个单音节的单词或者只含有一个元音字母的单词做词干,根据单词中元音部分的发音,在这个单词的词首、词中或词尾处逐步增加新字母,从而生成新的单词。学的单词越多,记忆的就越多。例如:canmanfananandantanyband hand want manyahatcatbatmateatfatatthat wha
初中生学习·低 2009年3期2009-04-14