语料
- 基于双判别器的汉泰伪平行语料生成方法
译模型获取伪平行语料,这种方式需要额外训练一个将目标语言翻译为源语言的翻译模型,该翻译模型可以由少量平行语料或单语语料训练得到。但在汉泰语言对中,由于缺乏平行语料,故而不能训练出高质量的回译模型,因此得到的伪平行语料也较差。文献[2-3]中使用迭代回译的方式改进回译模型,对两个翻译方向相反的翻译模型进行回译,并将回译得到的伪平行语料与干净平行语料混合,共同输入到另一个翻译模型进行训练,以这样的方法来迭代提高两个回译模型的性能。其生成的伪平行语料质量有所提升
现代电子技术 2023年20期2023-10-19
- 基于回译和比例抽取孪生网络筛选的汉越平行语料扩充方法*
缺少高质量的双语语料,效果并不理想。因此,如何高效地扩充语料规模,成为低资源神经机器翻译研究中亟需解决的问题。针对此问题,研究人员提出了多种数据增强方法,通过有限的语料资源扩充双语语料规模。早期的工作主要利用人工的方式进行语料扩充,但效率较低。近年来,随着深度学习技术的发展,利用深度学习方法来扩充双语语料成为有效途径。基于深度学习的数据增强方法主要分为生成式和抽取式。生成式数据增强方法包括:回译(back-translation),将目标端的单语语料通过反
计算机工程与科学 2022年10期2022-10-28
- 英语电影中的“四语”
语音 语境 语料 语感 英语核心素养英文电影作为融视、听、说于一体的媒介,能为学生创造最佳的英语学习环境。英文电影语言内容丰富、地道、通俗,是最接近生活的会话语言,它弥补了一些课本、语言教学片刻意为教学编排的语言材料的不足,为学生提供了更为广泛、生动、逼真的视觉直观情景,使学生有身临其境的感觉,充分调动了学生视听说的积极性,提高英语听说能力;有利于学生的英语思维和理解;有利于学生感受真实的交际语言,提高交际能力;有利于学生增强跨文化学习的意识。英文电影
快乐学习报·教师周刊 2022年34期2022-07-16
- 扩大汉语中介语语料库语料来源的途径*
育研究院提 要 语料分布是语料平衡性的集中体现,与语料库的功能与使用价值密切相关,是语料库建设中一个十分重要的问题。以往的汉语中介语语料库建设并未很好地解决这一问题,对基于语料库的汉语教学与研究产生了相当程度的影响。这一问题的产生与语料库建设者对语料库的认识和建库经验有关,也与国际中文教育形势的发展有关,与不同国家和中国的地缘距离、历史、政治、经济、贸易、外交、文化、教育等因素密切相关。该问题可从国内、国外两方面加以解决:通过国内汉语教学单位广泛收集目的语
国际中文教育(中英文) 2022年2期2022-07-14
- 蒙古文日常问答语料数据集
在约 2万条问答语料上使用序列到序列(Sequence to Sequence,Seq2Seq)框架实现的。谭铭言[2]利用构建的蒙古文知识图谱以及命名实体识别系统和关系抽取系统,搭建了面向旅游领域的蒙古文问答系统。王光义[3]构建了32156条纪检监察领域的蒙古文问答语料,并通过问句意图识别和问答匹配两个模块实现了蒙古文问答系统。问答语料资源的稀缺是影响蒙古文自动问答技术发展的重要因素之一。因此,本文通过获取开源中文问答语料库并通过筛选、翻译、校正等方法
中国科学数据(中英文网络版) 2022年2期2022-07-03
- 历时追踪性英语学习者语料库的建设研究
)一、英语学习者语料库的建设现状语料库(corpus)是指以电子文本形式收集和存储的语言材料,可以通过计算机进行标注、检索和分析,为研究语言使用规律提供重要的语料基础。现代信息技术的发展极大地促进了语料库的研究,出现了各种专门用途的语料库。英语学习者语料库收集英语学习者的语言输出材料,是研究英语中介语(interlanguage)[1]特点的重要数据。通过定量分析大量的英语中介语语料,可以对英语学习机制有更深刻的理解。英语学习者语料库在过去30年里迅速发展
安顺学院学报 2022年2期2022-05-12
- 普通话语句音强变化模式—基于SCS 和DBS 语料的分析
nce,SCS)语料与中文标准女生音库(Data-Baker Sentence,DBS)语料两种句子录音材料,使用语音分析软件提取出每个句子100 个点位上的音强,对句子音强的整体变化模式、变化速率、最值等进行量化考察,以期促进对句子音强变化模式的认识。1 语料与方法1.1 SCS 语料与DBS 语料SCS 语料的句子多为日常生活内容,其中包括陈述句40 个,疑问句38 个,感叹句和祈使句各11个,共100 句;单句音节数量最少7 个,最多32 个(均值1
智能计算机与应用 2022年2期2022-05-11
- 基于索引功能的英语词汇语料微本设计
变化,有了丰富的语料支持和教师的合理引导,词汇学习变为学生自己的探索过程。笔者所教的非英语专业大二学生大多为工科,英语基础中等,自主学习能力较强,基于语料库索引功能的词汇教学可以有效提高学生的学习积极性和效率,让学生更加有语境意识、词汇搭配意识、自我有效验证意识。在20世纪80年代末期John Sinclair提出外语教学可以从学习词汇入手。他认为以往的词汇教学仅仅是语法教学的附属品、词的选择没有代表性和科学性。Tim Johns开创性地提倡数据驱动学习,
当代教研论丛 2022年12期2022-02-14
- 需求导向的汉语继承语学习者语料库建设研究*
要 建立学习者语料库并基于语料库进行多维研究,是近年来国内外第二语言教学和外语教学研究的热点内容。国内外已建立的学习者语料库不少,但都无法满足汉语继承语的教学及研究需求。本研究着眼于语料库的使用需求,从汉语继承语学习者语料库建设的必要性,语料的追踪性、同质性、真实性、共享性、可比性以及平衡性等方面探讨汉语继承语学习者语料库的建设,以期能为汉语继承语学习者语料库的建设提供参考,为中介语对比分析提供新的角度和数据。一、引言近年来,学习者语料库的作用日益受到重
国际中文教育(中英文) 2022年2期2022-02-04
- 基于归一化点向互信息的低资源平行语料过滤方法*
互信息算法;平行语料;对齐信息0 引言神经机器翻译是数据驱动模型,提高平行语料的规模和质量是提升神经机器翻译性能最简单有效的方法。然而,通过非人工方式得到的平行语料,其规模足够但质量不佳。平行语料质量不佳的情况下,提高其规模并不会让模型有较大的性能提升甚至存在性能下降的情况,因此提高平行语料的质量成了提升模型性能的关键,这使得平行语料过滤方法变得越来越重要。语料过滤方法是从一个大规模的、含有噪声的平行语料中,过滤出一个较高质量的子语料,并以此来提高翻译模型
通信技术 2021年12期2022-01-25
- 海量标注语料库智能构建系统的设计与实现
术的进步以及大型语料库的不断丰富,中文信息处理领域取得了丰富的研究成果。这其中尤为突出的是基于机器学习、深度学习等方法的深入应用,在中文分词、词性标注、语义分析、主题提取、自动问答系统、机器翻译、文本聚类等方面都取得了较好的效果。但对于半监督、有监督的算法而言,网络模型的训练往往需要海量正确标注的语料作为样本,通过学习之后才能具备对未知数据的预测能力。例如最新的自然语言深度学习模型GPT-3[1],该模型通过对将近0.5万亿个单词进行预训练,可以很好地完成
现代计算机 2021年33期2022-01-21
- 基于流程控制的汉语篇章结构语料协同标注系统*
模的篇章结构分析语料资源库是进行科学有效的篇章结构分析的基础。现有的篇章语料资源中,英文的主要包括宾州篇章树库(PDTB)[11]、修辞结构理论篇章树库(RST-DT)等[12],中文的主要包括基于连接依存树的汉语篇章树库(CDTB)[13]和借鉴RST标注的汉语篇章语料库(CJPL)[14]等。就中文语料来说,主要存在两个问题。第一,绝对数量不足,相比英文语料的PDTB标注的2304篇文章,CDTB由500个文档组成,标注了7310个关系,而CJPL仅完
计算机与数字工程 2021年12期2022-01-15
- 基于语种相似性挖掘的神经机器翻译语料库扩充方法
大量高质量的双语语料作为训练数据。但是,诸如维吾尔语、哈萨克语等这些小语种,提供足够多的双语数据比较困难。甚至有些语言对几乎没有任何机器翻译双语平行语料,这种情况下通用框架的NMT就显得非常乏力。随着神经机器翻译技术的不断进步,学者们渐渐开始加强对低资源语言机器翻译问题的探索与研究。Zoph等[8]用大量的英法双语语料训练出模型之后,在乌兹别克语-英语和土耳其语-英语双语机器翻译语料上分别进行进一步优化,成功提升了乌兹别克语到英语以及土耳其语到英语的翻译质
计算机应用 2021年11期2021-12-07
- 一种循环迭代的智能语料标注系统
系统研发过程中,语料的标注和校对工作一直需要消耗大量的人力和时间。众所周知,人工智能领域的算法模型需要通过训练大量的语料得到,这些训练语料被事先进行标注,往往通常都是人工标注,标注过程需要耗费大量人力和时间。因为标注的过程实际上是对语料中语言单位的特征进行解释的过程,不同的人可能会有不同的解释结果,所以语料标注带有很大的主观性。不同标注者的知识结构和语法理论也各不相同,如果只以少数人的标注结果作为训练语料,训练出的算法就可能有较大的误差。本文研究旨在积累历
广东通信技术 2021年10期2021-11-08
- 从语料选用特征看文言文阅读命题基本共识
杨和平摘 要 语料,是构成试题的关键元素。以15个省市试卷中的文言文语料为样本,从语料的数量特征、来源特征、内容特征和应用特征四个维度进行数量分析,我们发现文言文命题的语料选择有一些基本特征和基本共识。关键词 文言文;语料;维度;文言文阅读命题语料,即试题的语言材料、阅读材料,是语文学习的核心资源,构成试题的关键元素。语料选用的特征和质量,决定了试题的方向和质量。本文以2021年全国15省市的15套试题中文言文(不含单列诗词阅读)选用语料为例,探讨文言文语
中学语文(学生版) 2021年10期2021-10-31
- 守护语文教学的核心和初心
心和初心;语感;语料;语用;核心素养《普通高中语文课程标准》2017年颁布后,2020年又做了修订。该课程标准继续明确了语文课程的性质,并提出了语文课程的核心素养。其中,核心素养备受关注,不仅高中学段围绕它开展教研活动,初中乃至小学也把它作为组织公开教学的指向标。但是,核心素养的四个要素(语言、思维、审美、文化)之间是什么关系?它们与课程性质又是什么关系?思考的人可能不多。这样就容易出现将核心素养的四个要素简单并列、机械拆分甚至相互对立的现象,以及弱化原有
中学语文·教师版 2021年7期2021-09-13
- 面向低资源神经机器翻译的回译方法
数量的高质量平行语料往往难以获取.相对于平行语料而言,单语数据广泛地存在于互联网上,往往更容易获取,因此利用单语数据提高低资源神经机器翻译质量成为一种常用的手段[4-8].下一个目标语言单词可通过平行语料训练得到的神经机器翻译模型,根据源语言句子和之前的目标语言单词预测得到;而语言模型可以根据之前的目标语言单词给出下一个目标语言单词的概率分布,并且其只需要单语数据训练得到.因此,通过语言模型来利用大规模的单语数据是一个自然的方式.Gulcehre等[4]提
厦门大学学报(自然科学版) 2021年4期2021-06-22
- 关于卞之琳研究的境外语料分析
:卞之琳 境外 语料著名的中国现代诗人卞之琳祈通中西、誉满全球,尤其在西方有大量拥趸和极高的知名度,其名字赫然出现在大英百科全书2010年卷第1页上。作为20世纪中国最具独创性的翻译家之一,卞之琳因翻译莎士比亚(Shakespeare)、艾略特(T.S.Eliot)、奥登(W.H.Auden)、安德烈·纪德(André Gide)的作品而闻名中国。尤其是他的翻译风格深受波德莱尔(Baudelaire)和魏尔伦(Verlaine)的影响,甚至诗歌作品自译也同
文学教育 2021年5期2021-06-15
- 小学英语阅读教学之有效探究
策略;创造思维;语料中图分类号:G623.31 文献标识码:A 文章编号:0493-2099(2021)15-0072-02Effective Exploration of English Reading Teaching in Primary Schools(Tongzhou Primary School, Tongzhou District, Nantong City, Jiangsu Province,China) ZHAO Ch
天津教育·下 2021年5期2021-06-15
- 方言语法研究:语料、方法、体系
:方言语法研究在语料获取、方法选择、体系建立方面都有自己特殊之处。方言语法语料获取包括内省语料、书面语料、网络语料、前人语料。研究者需要在多方获取材料的基础上展开研究。研究者还需要以严谨的态度对待语料,如果对语料没有把握,应该及时调查,力求语料真实可靠。方言语法方法选择包括通用方法、学科方法、专门方法。研究者需要根据特定的需要选择合适的研究方法。方言语法体系应该在理论建设、特色展示以及问题延伸方面体现出优势,尤其是在理论建设方面,既可以验证、补充已有理论,
上海师范大学学报(哲学社会科学版) 2021年1期2021-02-22
- 英语会话中停顿特征的研究
次课堂英语会话的语料进行了研究。通过对比有声停顿及无声停顿,和各个会话者在会话中停顿的频率和位置,研究发现会话过程中无声停顿的频率远大于有声停顿,而口语流利者以及有丰富二语语言经验者的停顿位置更有利于对话的流利性。【关键词】停顿;语料;会话1引言会话分析,也称谈话分析。顾名思义,会话分析是研究人类会话的语言。其研究对象包括日常生活会话和机构性谈话。现在一般所说的会话分析是指对会话的研究,尤其是对日常会话的研究。从语言学的角度来说,会话分析即是指语言学对会话
红豆教育 2021年29期2021-01-21
- 大别山红色资源汉英平行语料库建设的构想
享。经科学取样、语料的校对和修订,及借助计算机分析加工的双语平行语料库,就是很好的语言资源支撑和科技引领。关键词: 大别山精神; 平行语料库; 语料中图分类号: H315.9 文献标志码: A 文章编号: 1671-2153(2020)04-0093-05大别山是中国共产党重要的建党基地,也是中国革命走向全面胜利的战略转折地,创造了“28年红旗不倒”的奇迹,留下了厚重的红色文化遗产,孕育了“坚守信念、胸怀全局、团结奋进、
宁波职业技术学院学报 2020年4期2020-12-24
- 英语课堂应用真实语料之实证研究成果回顾
堂教学中使用真实语料是教师及教育研究者关注的热点之一。从国内外真实语料研究的总体状况来看,绝大部分研究是理论介绍、实践操作或现状反思,实证研究相对较少。鉴于此,我们尝试检索整理国内外有关真实语料在高校英语作为二语习得课堂的应用的实证研究,梳理这些研究的结论,提出研究方向上的建议,以期为真实语料相关研究提供启示。我们回顾分析的实证研究成果包括中文文献和英文文献。中文文献为中国知网收录的2002—2018年的15篇有关真实语料在高校英语作为二语言习得课堂的应用
邵阳学院学报(社会科学版) 2020年6期2020-02-26
- 浅谈视频语料在对外汉语教学中的运用
汉语。二、“视频语料”的理论概述(一)视频语料的定义语料是指生活中真实的语言材料,包括纸质和音像材料中出现的语句篇章,以及日常交际中人们说的句子等等。视频语料是包含特定目的语知识的、以视频形式存在的真实的语言样本,其来源为电影、电视剧、动画片、电视节目、歌曲、舞蹈、广告、宣传片和汉语学习网站等视频资源。(二)对外汉语教学中运用的视频语料的要求网络上的视频语料相对分散、时长不等、良莠不齐,因此,运用在对外汉语教学中的视频语料时要注意以下事项。1、在视频语料的
长江丛刊 2019年25期2019-11-15
- 可比语料库构建与可比度计算研究综述
:论文描述了可比语料库的基本构建方法,包括使用已有语料库、网络资源和复合方法的三种类型。随后对单语种可比语料和多语种可比语料的可比度计算问题进行了阐释和分析。结果认为,可比语料库的构建需要根据具体的应用场景和需求进行设计实施,根据不同应用场景可比语料的可比度需作具体描述和相应规定,并设定合理的度量指标。关键词:可比语料库;可比度中图分类号:G434 文献标识码:A文章编号:1009-3044(2019)23-0224-04开放科学(资源服务)
电脑知识与技术 2019年23期2019-11-03
- 基于置信度的藏文人名识别的主动学习模型研究
-2]。根据标注语料的规模,机器学习又可以分为监督式机器学习(训练语料全部标注)、半监督式机器学习(训练语料部分标注)和无监督式机器学习(无标注语料)三种,其中,基于大规模标注语料的监督式学习方法的命名实体识别性能优于半监督和无监督方法,是常用的命名实体识别方法。主动学习是机器学习的一个子领域,其主要工作是有针对性地选择一些信息量大的语料进行人工标注,进而通过较少的标注语料实现较好的模型学习效果,从而最大限度地降低语料标注成本[3-4]。目前主动学习方法已
中文信息学报 2019年8期2019-09-05
- 从高频词等级相关角度探析《红楼梦》作者
方法”,测量各份语料之间在词型等级方面的相关度,推断“存疑文献”的作者信息。这种算法分为三个步骤:(1) 首先,对于各份语料,词型均按照出现频次(即词型的词例数)递减顺序排列;(2) 然后,对于已经排序的词型按照“频序法”确定等级,把出现频次最高的词型等级定为1,次高的词型等级定为2,……依次类推,频次相等的词型为一个等级,以其在语料中词频序值为等级[18]。(3) 接下来,计算各份语料之间高频词等级的相关度。相关度的计算方法采用“斯皮尔曼等级相关”,如式
中文信息学报 2018年11期2018-12-20
- 濒危语言与汉语平行语料库动态构建技术研究
方位的语言记录、语料处理和语言信息保存。作为低资源语言[2-4],濒危语言很多没有文字,以口语的形式存在,长篇自然话语的记录极为有限,能找到的录音人有限,不足以反映一种语言的基本面貌。同时,自然口语的人工标注、转录、对应通用语言的翻译工作量巨大。从机器翻译的角度上去分析,建立比较好的语言模型,离不开丰富语料库的支持[5]。因此,如何建立濒危语言的跨语言平行语料库是研究人员们面临的又一重要课题。吕苏语作为一种濒危语言,目前只有雅砻和尼亚格楚江沿岸的大约7 0
计算机应用与软件 2018年9期2018-09-26
- 小型英汉平行语料库的建设研究与应用
50021)1 语料库介绍1.1 语料库的分类语料库的英文为corpus,从字面上的意思讲,即收集语料的仓库。早期的语料库规模较小,随着计算机技术的发展和语言词汇数量的增加,其发展规模越来越大,类型也变得更加多样化,常见的语料库分为单语语料库和双语/多语语料库。单语语料库是目前开发和使用最多的语料库,它仅收集一种语言的语料。双语/多语语料库是指由两种或两种以上语言的文本构成的语料库。平行语料库是指由原文文本及其平行对应的译语文本构成的双语语料库,其双语对应
中小企业管理与科技 2018年21期2018-02-07
- 中古汉语分期研究所涉及的语料问题
异性所致。其中,语料观的分殊是其中重要的原因,这涉及中古汉语语料的适用性、口语性和地域性等问题。关键词:中古汉语 分期 语料 适用性 口语性 地域性一、前言汉语史研究中分歧最大的要算是分期研究了,单就语音史的分期而言,就有将近二十种意见。可见,综合考虑了词汇、语法和语音的汉语史,其分期自然是一个异常棘手的问题,更何况汉语史的分期所考虑的还远远不止这三个因素。合理的分期至少还得考虑口语与书面语、通语与方言、文言与白话、旧有语言与新生语言、语言接触与语言感染等
安徽文学·下半月 2017年9期2018-02-03
- 口译自主学习语料库建设研究
以数字化口译教学语料库为代表的资源库建设,如日内瓦大学的“在线共享口译教学资源库(SIMON)”(邓军涛 2015: 78);在口译教学管理领域,以课程管理软件为代表的管理系统的应用,如免费开源的课程管理软件Moodle(Tymczyńska 2009)。从四者的关系看,数字化口译教学语料库更具基础性和先导性作用,因为环境的营造、过程的开展和管理的实施都必须依托高质量资源库的建设。但从我国口译教学的现状看,数字化口译教学语料库,尤其是自主学习语料库建设是一
外文研究 2017年4期2018-01-17
- 基于联合学习的跨语言事件识别方法
和完善的英文事件语料库来帮助完成中文事件抽取任务,提出了一种基于联合学习的跨语言事件识别方法,即利用源语言的标注语料对目标语言的测试语料进行事件识别.利用机器翻译及词对齐技术来保持源语言和目标语言的语言一致性和标注信息一致性.挑选合适的特征组合,使用最大熵分类模型分别实现触发词的识别和分类.通过整数线性规划的联合学习模型将二者结合在一起,加之局部约束和全局约束条件,对结果进行优化处理.实验结果表明,使用源语言的语料及其翻译语料叠加的双语语料时,所用方法可以
郑州大学学报(理学版) 2017年2期2017-04-17
- 如何使用第二外语学习者语料
燕华摘要:学习者语料研究起源于20世界80年代后期。它的起源是基于语料语言学的理论和方法论模式。语料语言学是利用语料来研究语言的,也就是说,研究经电脑处理过的书面或口语文本数据。尽管该领域还是一个非常新的领域,但是该领域已经对语言理论和语言描述做出了巨大的贡献。关键词:第二外语学习;语料库1.学习者语料数据的特异性学习者语料属于一种更加开放的二语习得类型的数据。Ellis将其区分出来,并且命名为自然语言使用数据和诊疗数据。自然语言数据是由学习者产生,并且这
科学与财富 2016年30期2017-03-31
- 对外汉语教学领域可比语料库的构建及应用研究
——以“把”字句的句法语义标注及应用研究为例
4)0 引言可比语料库(comparable corpus)是指内容或形式上具有某些相似属性的语料的集合,可分为多语可比语料库和单语可比语料库。前者多应用于翻译研究、机器翻译、信息检索等,后者常应用于语言对比研究[1]。本文所构建的汉语可比语料库属于后者。在国外,单语可比语料库应用于以下三方面: ①翻译研究。英国曼彻斯特大学构建的英语可比语料库(ECC)包括英文译文语料子库和原创英文语料子库。通过该资源可以更好地考察翻译英语的独特性[2]。②区域语言对比研
中文信息学报 2017年6期2017-03-12
- “全球汉语中介语语料库”的平衡性考虑
“全球汉语中介语语料库”的平衡性考虑李桂梅(北京语言大学语言科学院,北京,100083)汉语中介语语料库;平衡性;原则;措施从影响汉语中介语语料库平衡性的关键因素出发,讨论了“全球汉语中介语语料库”在追求语料库平衡性方面的基本原则和采取的措施。平衡性的基本原则是以汉语国际教育的现实情况为主要参照,兼顾代表性和覆盖范围。“全球汉语中介语语料库”建设者在语料采集、语料属性标注、确定入库语料、语料库检索系统的设计等每个阶段都采取措施努力实现语料库的平衡性,并为实
华文教学与研究 2017年2期2017-03-09
- 汉语盲文语料库语料采集研究
36)汉语盲文语料库语料采集研究钟经华1,朱 琳1,高 旭2,徐洪妹3(1. 北京联合大学 特殊教育学院, 北京 100075; 2. 中国盲文出版社,北京 100165;3. 上海盲童学校,上海 200336)盲文语料库建设在国内外还没有先例。为了建设多功能、综合性的汉语盲文语料库,通过对现行盲文颁布60多年来的盲文出版物语料、非出版物语料以及盲人语料的采集,力图涵盖盲文使用的全貌。从语料调查、语料筛选、语料采集流程几个方面阐述了盲文语料库语料采集的主
北京联合大学学报 2016年4期2016-11-18
- 语料库视野下的现代汉语“龟”字义项分布研究
摘要:本文运用了语料库的方法,并采用定量研究的方式,对“龟”字在现代汉语中的义项分布情况进行了再次描写和研究,最终建议在《现代汉语词典》等词典释义的基础上增收4个义项。关键词:语料库;龟;新义项一、引言《现代汉语词典(第6版)》(以下简称《现汉》)作为辞书经典,随着时代的发展,难免出现义项收录不完全的现象。由于时代的局限性,其在收词立项方面也有待补充和完善。“龟”字在《现汉》中只有1个义项,与其他汉语类中型语文性词典所收“龟”字义项相比大同小异,基本无变化
教育教学论坛 2015年48期2015-12-16
- 潜在语义分析的英汉口译语料库挖掘
义分析的英汉口译语料库挖掘郑丽芳,唐朝辉(厦门理工学院外国语学院,福建 厦门 361024)分析潜在语义分析的理论基础,结合英汉口译语料库的相关特点,提出了基于潜在语义分析的口译语料相似度的度量方法.基于PACCEL英汉口译语料库的实验表明,该方法的检索精度为0.79,召回率为0.59,F1为0.68,检索时间为1.124 s,在检索精度、召回率、F1值以及时间效率上均显著优于实验的参照方法.该方法能为用户提供更有效的检索推荐以及在扩展语料库时自动探析语料
厦门理工学院学报 2015年1期2015-08-17
- PATTIE儿童读物及视听材料英语语料库的创建
物及视听材料英语语料库的创建外交学院 吉 洁本文介绍“PATTIE(Preschoolers- and Teenagers-oriented Texts in English)儿童读物及视听材料英语语料库”的建设概况。PATTIE语料库主要收集由成人所写,面向4岁到10多岁儿童的英文正式出版物,包括儿童文学、小学教材、科普读物、报刊新闻和少儿动画5种体裁,涉及英美等地出版物。语料库经过词性标注和元信息标记,可在BFSU CQPweb语料库平台在线检索。与面
语料库语言学 2015年1期2015-08-17
- CET—4听力真题词汇难度分析
词汇难度近年来,语料库语言学的不断发展为大学英语听力教学,尤其是听力词汇的教学和研究提供了真实、地道的听力语料和听力环境。在全国大学英语四级考试(CET-4)中,听力理解测试分值占到总分数的35%,是考生备考和大学英语教学中应给与足够重视的考察项目。由此,本研究通过对2012—2014 年共10套大学英语四级长短对话听力和篇章听力原稿的词汇难度进行对比分析,进而为考生备考及大学英语听力教学提供有效的支持和帮助。一、研究方法本研究的研究语料为2012—201
校园英语·上旬 2015年5期2015-05-30
- 浅论真实语料有效导入英语课堂教学的途径
题与实验浅论真实语料有效导入英语课堂教学的途径李燕陈萍真实语料一直都是备受语言学者关注的话题。为了提高学习者的语言交际能力,教学者往往积极地将真实语料导入英语课堂教学中。但是近些年的教学实践中,真实语料的运用仍然存在一些不容忽视的问题。以真实语料运用过程中存在的问题为切入点,并在语境理论和会话分析理论的指导下,找寻其中具有建设性的意见与建议。真实语料;语言交际语境理论;会话分析一、英语真实语料的内涵《朗文语言教学及应用语言学辞典》指出:“选自报纸、杂志等的
英语教师 2015年16期2015-02-13
- 大学英语听力课堂真实语料的选择与应用策略
英语听力课堂真实语料的选择与应用策略刘 静《大学英语课程教学要求》对于学生的听力理解能力提出了更高的要求,培养学生在真实场景中的交际能力变得愈发重要。基于此,英语听力课堂迫切需要引入真实语料。着重研究听力教学中真实语料的选择标准和应用策略,提出具体的实施步骤,为教师选取真实语料并运用于听力课堂提供参考。真实语料;听力课堂;选择与应用引言所谓真实语料(authentic materials),按照《朗文语言教学与应用语言学词典》中的解释,其定义为“语言教学所
英语教师 2015年20期2015-02-13
- 基于传媒语料库的汉语语体词汇比较研究
30年来基于汉语语料库的词汇研究日趋增多,但仍有可拓展之处:其一是汉语学界在将语料库、词汇与语体进行比较研究方面存在不足,而英语界这一研究却已成趋势;其二是对语体间的差异性、比较性研究不足,构成语体的变量较多,找到具有可比性的语料不易。此外基于汉语口语语料库的词汇研究相对较少。国外相关研究中,Ure[1]、Poulisse 和 Bongaert[2]等的研究表明,书面语篇与口语语篇在词汇变化性与词汇密度上存在较大的差异。此外,Biber[3]、胡显耀[4]
长沙大学学报 2015年6期2015-01-04
- 现代维吾尔语常用词统计关键技术研究
发展。为确保收集语料的可靠性、代表性和权威性,本文重点对语料来源、语料范围、语料载体等进行了研究,以保证常用词候选表的权威性和代表性。(1) 在现有的语料库资源基础上,系统、持续地进行收集、整理、加工和处理现代维吾尔文平面媒体、教育教材媒体、有声媒体、网络媒体语料,构建现代维吾尔语语料库,相比之前的语料库,本语料库语料来源更广、语料领域更宽、各个领域比率控制适当。(2) 对构建现代维吾尔语语料库的关键技术与方法进行进一步优化与完善,新增了人名识别和数据自动
中文信息学报 2014年5期2014-02-27
- 小议How are you? 的回答及小学英语教学建议
语教材,通过英语语料库,分析交际用语How are you? 的表达。二、当前小学英语教材关于How are you? 回答形式存在的问题笔者对当前小学不同版本英语教材有关How are you? 的回答进行了归纳,从表1 得知,大部分教材中对于How are you?的回答形式过于单一,基本都是 I am fine, thank you, (and you?)笔者认为这是导致很多同学下意识反应就是回答I am fine, thank you, and y
实践新课程 2013年10期2013-11-27
- Reliability assessment consideringdependent competing failure process and shifting-threshold
电子版资源的纸质语料,我们首先对其进行扫描,然后经过OCR软件的识别、格式转换和人工去噪等环节后,对最终文本进行入库处理。其中,非双语版的汉语语料还要进行人工翻译和校对后方可入库。鉴于语料的收集、转换、去噪、翻译、校对等环节十分烦琐复杂,因此需要采集团队格外细致与耐心,才能保证语料的真实性和有效性。在此之后,双语语料将通过Anticonc软件进行对齐处理。2.2 Soft failure model due to degradation and shock
Journal of Southeast University(English Edition) 2013年1期2013-09-17
- 上海外语教育出版社英汉双语平行句对语料库的构建*
标是开发一个基于语料库的数字化双语词典编纂出版系统,其子课题之一就是构建一个服务于双语词典编纂、经过深加工的、通用共时并在句子层面对齐的英汉双语书面语语料库。该语料库以英语为原语、以汉语为译语,以XML(extensible Markup Language)为标注语言,对英语原文语料的标注做到分词(tokenization)、主词标注(lemmatization)及词性赋码(part of speech tagging),对汉语译文语料的标注做到分词及词性
辞书研究 2012年5期2012-08-07
- 异种语料融合方法: 基于统计的中文词法分析应用
很大程度上依赖于语料库,加大训练语料,可以直接提高词法分析的精度。但是,手工标注大规模语料代价昂贵。并且,不同领域的语料切分和标注的标准往往不同,难以直接混合使用。图1 以《人民日报》语料和宾州中文树库语料为例,具有不同的切分和词性标注标准,在《人民日报》语料中“高新技术”为一个词,标注为名词(n),在宾州树库中,“高新技术”被分为“高”“新”“技术”,并分别标注为形容词(JJ)、形容词(JJ)和名词(NN)。并且,这两种语料的词性标注集也不同,名词的标注
中文信息学报 2012年2期2012-06-29
- 基于句对质量和覆盖度的统计机器翻译训练语料选取
的高质量双语句对语料库的支持。一般来说增加训练语料规模有助于获得稳定的模型参数和SMT系统翻译性能的提高。但是训练语料越多,训练和解码需要的时间越长,并且平行语料中存在的一些噪声数据,也会影响到训练的可靠性。吕雅娟[1,3]等人曾提出一种基于信息检索模型的统计机器翻译训练数据选择与优化方法,她们通过选择现有训练数据资源中与待翻译文本相似的句子组成训练子集,在不增加计算资源的情况下获得与使用全部数据相当甚至更好的机器翻译结果。但是,在实际应用中,待翻译文本往
中文信息学报 2011年2期2011-06-28
- 不同测试语料下3~6岁健听与听障儿童音调比较研究*
通过比较不同测试语料下3~6岁健听儿童与听障儿童音调的特点,探讨不同语料对评估结果的影响,比较健听儿童和听障儿童音调特征的主要差异及相关影响因素,为听障儿童音调异常的矫治提供一定帮助。1 资料与方法1.1研究对象 从浙江省、江苏省的部分幼儿园选取3~6岁的健听儿童及听障儿童共122例(表1),其中,健听儿童95例,必须符合以下标准:无听觉和言语障碍史;在测试期间无过敏症或上呼吸道感染;平时使用的语言为普通话。听障儿童27例,必须符合以下标准:使用汉语普通话
听力学及言语疾病杂志 2011年3期2011-01-23
- 洪诚语料观与中古汉语研究
10036)洪诚语料观与中古汉语研究王魁伟(辽宁大学文学院,辽宁 沈阳 110036)语料问题与汉语史研究息息相关。洪诚先生在语料的选择、鉴别及利用等方面均有独到而精辟的论述,其语料观对汉语史尤其是中古汉语研究至今仍具理论指导意义。汉语史;中古汉语;语料观洪诚先生(1910-1980)是著名汉语史学家,训诂学家和三礼学家,也是对语料问题有精深研究和独到见解的老一辈学者。其语料观对汉语史尤其对中古汉语研究具有重要理论价值和指导意义,值得认真总结。本文不拟全面
深圳大学学报(人文社会科学版) 2010年6期2010-04-12
- 英语教学中真实语料的运用
触现实世界的真实语料。教材里的书面语料虽然也有些是选自英美国家的书籍或报刊,但往往为了教学目的经过简化和大幅度地改写。在英语教学中如果学习者仅仅接触非真实语料或者虽然有真实语料的输入但输入量不够,在现实世界的语言交际中就会感觉课堂英语和实际语言运用的脱节,陷入“哑巴英语”的苦恼,而英语教学的目标也难以实现。一、真实语料的文献背景及讨论真实语料长久以来一直是学者们讨论的重要话题,何为真实语料?《朗文语言教学及应用语言学辞典》认为,选自报纸、杂志等的文章和录自
教学与管理(理论版) 2009年9期2009-11-04