朝鲜语自然语言处理研究管窥

2011-02-17 04:20毕玉德

中文信息学报 2011年6期

毕玉德

(中国人民解放军外国语学院,河南洛阳 471003)

1 概述

自然语言处理的应用目标是使人与计算机之间用自然语言进行交流。具体说，是建立各种处理自然语言的计算机应用软件系统，例如，机器翻译、自然语言理解、语音自动识别与合成、文字自动识别、计算机辅助教学、信息检索、文本自动分类、自动文摘，文本信息提取、互联网上的智能搜索，以及各种电子词典和术语数据库。

朝鲜语是中、朝、韩三国使用的跨境语言，在中国和朝鲜称作朝鲜语，在韩国称作韩国语。三者在语音、词汇和语法方面都存在一定的差异。对于朝鲜语的自然语言处理，中、朝、韩三国都分别进行了研究，但进度不一。笔者根据相关研究资料总结了韩国、朝鲜及中国在朝鲜语自然语言处理基础研究和应用研究方面的成果，以及韩国各大重要自然语言处理实验室的研究成果和重要课题；总结了朝鲜自然语言处理研究方面的基础语言学理论探索；最后总结我国在朝鲜语自然语言处理领域所取得的一些进展，并结合韩国、朝鲜所取得的研究成果，展望了我国朝鲜语自然语言处理研究的发展前景。

2 韩国方面的研究

2.1 基础研究

多年来韩国自然语言处理发展的特点是，进行了一些基础理论研究，应用型研究和实用系统开发投入相对较多，也取得了一些成果。研究力量比较集中的领域有：文本信息检索、文献自动分类、自动文摘、语音自动识别与合成、机器翻译，还有文本信息提取和过滤。另外，语言资源的建设和基于语料库的语言分析方法也受到了格外关注，取得了比较快的进展[1]。

在面向自然语言处理应用的语言学研究方面，韩国方面的研究主要集中在形态素分析、词性标注、句法分析和语义分析等方面。形态素分析的研究起步较早，高丽大学自然语言处理研究实验室[2]通过构建词缀词典和制定词缀规则体制来进行形态素分析，构建了韩国语形态分析模型。随着网络的发展，开发了服务于网络搜索引擎的形态素分析器和加权模块，实现了网络环境下的形态素分析。延世大学开发了国语形态素分析器和词性标注器[3]。梨花女子大学开发了形态素分析器MACH1.0，它的分析速度是一般形态素分析器的10倍以上[4]。另外，釜山大学和浦项工业大学等许多机构和学者都进行过相关研究。

句法分析方面，韩国主要在基本句识别、组块识别、依存分析、短语结构分析等方面进行了大量研究，早期的研究都是以句子为单位，组块识别和短语结构分析是近年来关注的焦点，韩国语名词组块的研究以基本名词短语的相关研究为主。

语义分析方面，韩国主要在词汇消歧、语义角色标注、命名实体识别、倾向性分析等方面开展研究，对语义的分析往往要借助于语义词典和概念词典，其中高丽大学自然语言处理研究实验室构建了韩国语K -概念网络，这是一个面向韩国语信息处理提出来的语义和概念体系，该理论建立了一个计算机可操作的符号体系。

2.2 韩国语言资源的建设

自1998年起，韩国文化观光部同国立国语研究院及相关学界自1998年起推进的韩国语信息化项目——《21世纪世宗计划》是《韩国语信息化中长期计划》的环节之一，其主要目的是奠定语言信息文化的基础并构建相关资源，建设以韩国语言和文字为基础的信息化社会，提升自身在国家间信息化竞争中的主导权，自主体现韩国语的先进信息文化。该计划分为韩国语信息基础构建和信息化环境建设两个部分。其中韩国语信息基础构建项目分为基础语料库资源建设、特殊语料库资源建设、电子词典开发、民族语言信息化、专业术语标准化等内容；韩国语信息化环境建设分为非标准化文字登入、信息化人才培养、字库开发普及等内容。经过10年的建设，基本达到了预期目标，大大夯实了韩国语言信息化的基础，为进一步的深化研究创造了良好条件[5]。

另外，随着本体研究的升温，很多单位开始了这方面的研究，其中韩国科学技术院(KAIST)专业术语语言工学研究中心(KORTERM，目前该机构更名为“语义Web技术研究中心”)在构建大规模通用双语词典和专业领域术语双语词典的基础上，构建了韩—日—中多语种概念词网(CoreNet)[6]；蔚山大学自然语言处理研究室[7]、釜山大学韩国语信息处理研究室[8]等多家单位正在构建韩国语词网。目前浦项工业大学KLE实验室[9]、语义网络研究中心和KAIST联手展开的“国家信息本体结构技术发展计划”是目前有关本体研究的重要在研项目。

根据学生思维发展特点，初中生逻辑推理能力相对较弱，教师可以设计真实具体的教学情境，提高学生参与学习的兴趣，锻炼学生通过比较归纳、综合分析等思维能力，使学生将所学知识运用于日常情境中。教师要提高学生主体地位，多设置开放性问题，以便更好地了解学生思维过程，在因材施教的同时也能锻炼学生发散思维。初中学生的年龄特点决定了他们的科学思维仍然较弱。因此，在平时教学过程中，教师要考虑到学生思维发展的特点，既要为学生发展演绎推理、批判性等较高水平的思维能力做准备，也要基于客观条件保持学生学习自信。

2.3 应用性研究和实用系统的研制

在韩国语信息处理技术的支撑下，各种应用性研究和实用系统开发得到了迅速的发展。

机器翻译方面，韩国在该领域的研究始于20世纪80年代，最初的研究集中在韩日机器翻译方向。20世纪80年代中期，首尔大学开发出了韩英机器翻译系统KEMTS(Korean-English Machine Translation System)，从此，韩英机器翻译就成为了韩国语信息处理领域的主要研究方向。1988年开始，韩国系统工学研究所和韩国科学技术院人工智能研究中心联合开发了MATES/EK(Machine-Aided Translation Environment for English-to-Korean)系统，该系统采用了间接转化的方法作为系统构建的主要方法,于1992年完成[10]。此外，1991年韩国科学技术院电子系与日本NEC共同开发了英韩以及日韩机器翻译系统。与此同时，首尔大学计算机系也与IBM展开合作，共同开发了英韩机器翻译系统，该系统的测试版于1991年完成。目前很多韩国研究机构都在进行相关方面的研究。此后，韩国知识产权局(KIPO)推出了比较成熟的专利文献机器翻译工具K-PION(韩国专利信息在线服务系统)[11]，韩国电子通信研究所(ETRI)的评估结果显示，该工具的整体准确率达到了80%以上。目前，韩国在该领域的研究和开发主要有ETRI投资研发的韩英中日多国语自动翻译系统[12]和浦项工业大学研制的韩中/中韩机器翻译系统。

韩国语信息处理领域的另外一个热点就是语音识别，其关注点主要集中在连续语音识别、电话语音识别、杂音处理技术及核心词摘取技术等方面。韩国科学技术院语音处理实验室[13]研制的语音识别系统对韩国语语音的识别率达到96.7%，但单词的规模限制在3 064以内。由Sensory公司研制的IC RSC-164系统是韩国国内识别率最高的语音识别系统，该系统可以用于识别非特定话者的语音或特定话者的语音、合成语音及音乐等方面[14]。目前高丽大学自然语言处理实验室也在进行语音识别方面的相关研究，旨在开发出适用于移动环境的韩国语语音技术。

文字识别同样也备受研究者的关注。韩国文字的识别困难主要可以概括为以下四个方面： (1)多种文字混用；(2)字形相似；(3)字体、笔迹繁多；(4)分词本身难度较大。韩国科学技术院人工智能研究室针对如何提高文字识别系统的准确率问题，提出了结合上下文信息进行文字识别的可能性筛选方法，并构建了以N-gram为基础的语言模型。通过实验，得出了可供选择的拆分语素越多、识别率越高的结论。另外，针对印刷体的文字识别系统OCR已经投入市场，但市场满意度偏低。目前属于离线识别体系的文字识别系统正在研制中。

3 朝鲜方面的研究

由于众所周知的原因，我们很难获取朝鲜在自然语言处理研究方面的第一手资料。笔者的资料主要源于在中国召开的中朝韩三国“Korean计算机处理国际学术会议”论文集(1994～2004年)[15]以及韩国学者的一些介绍。朝鲜的主要研究机构有朝鲜社会科学院(KCC)、平壤计算机中心[16]、金日成综合大学等单位。

1984年金日成访问欧洲之后，朝鲜才开始重视语言信息处理技术。1988年，朝鲜启动科学技术研发3年计划，开始向信息科学和信息产业领域注入资金并推动相关建设。目前语言信息处理已经成为朝鲜的“朝阳产业”，非常受政府重视。朝文信息处理的目标是在信息化时代的大背景下实现朝鲜语的计算机处理。

基础研究方面，朝鲜对于自然语言处理(计算语言学)的研究主要集中在面向自然语言处理的语言学研究方面，研究内容主要包括朝文文字的构成特点和形态特征、句法结构特点和构造规则及语义表达形式等，同时也对机器翻译、信息检索等技术有所涉及[17-18]。

语言资源的建设方面主要在语料库建设方面有一定的进展。近年来朝鲜的语料库语言学发展迅速，并且依据相关理论知识构建了生语料库、标记语料库，进而通过语料库获得形态知识、词性知识、句法知识和语义知识。此外，朝鲜也在积极建设各种机器词典，逐步完善基础资源建设[19]。

应用研究方面，在文字处理和人工智能的软件技术上具有一定的水平，在智能检索、自然语言处理系统、医疗信息系统的开发等方面成绩突出。1994年朝鲜开发的“昌德文字处理器”与韩国的训民正音文字处理器相比毫不逊色，其开发的多语种文字编辑器可用于朝鲜语、英语、俄语和葡萄牙语的编辑。在2000年朝鲜电脑中心峰会上，朝鲜计算机中心开发的语音识别系统已具有很高的准确率。朝鲜科学院开发了“鹰”朝鲜文字自动识别系统和“彩虹”计算机辅助朝英翻译系统；平壤信息中心开发了“檀君”朝鲜语预处理系统、识别率高达95%的“Insik”朝鲜语自动识别系统以及“Tamjing”朝日机器翻译系统[20-21]。

4 中国方面的研究

4.1 基础研究

为推动我国朝鲜语信息处理技术的发展，我国一直致力于朝鲜语信息技术标准化的研究工作。1977年，国务院决定成立东三省朝鲜语文工作协调小组(三协)，统一管理中国朝鲜语文工作，在“三协”的指导下，我国制定了朝鲜语规范统一方案，这为朝鲜语计算机输入标准化提供了保障。1989年，延边电子信息中心设计完成了国家标准《信息交换用朝鲜文字编码字符集》的编写任务。此外，中国朝鲜语信息学会还同朝鲜及韩国相关机构合作完成了《基于ISO2382标准的英朝韩日信息技术术语词典》[22]的编纂。朝鲜语作为一种跨境语言，中国朝鲜语、朝鲜的朝鲜语、韩国的韩国语三者之间编码各不相同，韩国在2011年6月提出三套输入编码方案，朝鲜在2009年也发布了朝鲜语数字键盘布局标准，与韩国提出三种方案差异也很大。针对朝鲜、韩国制定的两个标准4种布局方案，经我国朝鲜文信息技术专家分析后认为，无论是从朝鲜语正音正字法原则，还是从朝鲜语基本语素角度看，4种方案均存在较大缺陷。目前，我国正根据国内朝鲜语正音正字法及相关朝鲜语言文字规范制定科学合理的朝鲜文信息技术标准。

4.2 语言资源建设

语言资源主要指语料库和语言知识库。关于语言资源建设的基础研究包括语料的标注、语料的分析和处理，以及用于语言资源建设的各种字表、词表和规范、标准。

语料库方面，延边大学朝鲜韩国学院在教育部重点项目支持下完成了“中国朝鲜语语料库”的建设，该语料库依据通用性、描述性、实用性和抽样性等4个原则，分别构建了3个库，即文本语料库，平行语料库和病句、中介语语料库。在语料库加工和规范方面，首先进行了总体规划，制定了统一的数据格式和编码标准，并根据中国朝鲜语的特点开发了词性自动标注系统，实现了文本语料库的词性标注加工。同时，还借助中国朝鲜族的地域优势，初步构建了“中—朝—韩”三国的语料库资源共享机制，集成了朝鲜、韩国语料库及相关工具。总体来看，该语料库设计规范，标准统一，建设规模超过了预定目标，是我国第一个朝鲜语语料库。

笔者所在单位朝鲜语信息处理研究团队长期以来依靠语言学优势，在国家社科基金、国家自然科学基金以及本系统基金项目的支持下，面向语言信息处理，深入挖掘语言内在规律，经过3个阶段的努力设计完成了“朝鲜语动词句法语义层次框架”，并构建了规模达5 000个朝鲜语形态动词(19 200余条句法语义项)的“现代朝鲜语动词句法语义信息词典”。该框架以动词为核心整合了句法、语义等信息，实现了句法语义信息的一体化描写[23-24]。目前以此框架理论为基础的语义角色标注[25]、朝汉机器(辅助)翻译研究正在有计划地展开。另外，还在韩国科学技术院术语工学研究中心与北京大学计算语言学研究所共同研究的国际合作项目“英中韩三国语词汇语义网的构建”基础上，充分考虑到构建多语种词汇语义网的难度，利用CCD(中文概念词典)以及英韩、汉韩等双语词典资源，采用半自动方式构建了“基于WordNet的英中韩多语种词汇语义网”[26]。在第一次匹配基础上，通过专家干预方式实现了中英韩多语种词汇语义网中韩语名词概念的精确匹配，匹配度达到了95.6%，共计填充了121 032个韩语词语。该语义网的构建可以大大提高多语种信息检索、文本分类及翻译的精确度。

4.2 应用性研究和实用系统的研制

东北大学自然语言处理实验室[27]针对朝鲜语信息处理做了不少研究，具体有：中韩多国语机器翻译系统(与韩国浦项工业大学合作，1995～2000年)、汉韩机器翻译系统(科学技术部，国家外字[2000]0016)、中英韩多国语机译系统的设计与实现等。2008年笔者所在朝鲜语信息处理研究团队在完成大规模朝汉双语词典的基础上，基于实例、片段翻译以及翻译记忆技术开发了面向领域的朝汉辅助翻译系统。

5 总结

这些年来，我国在朝鲜语自然语言处理研究方面还属于发展阶段，相关研究相对于韩国乃至朝鲜还比较滞后。目前朝鲜语语言资源建设方面还没有统一的规划和布局，没有相关的系列标准，使得各家的资源很难融合，这就限制了相关研究的进一步深化。目前就朝鲜语信息处理领域来说，韩国的许多研究都要比中国领先，从知识产权及夺取信息优势的角度来看，中国对于朝鲜语信息化的建设还未给予足够的重视，其研究深度和广度还远远不够，并且从事相关研究的科研人员还不是太多。从自主创新的角度来看，掌握相关信息技术的自主知识产权不仅符合我们国家未来的政治军事战略，并且利用这些技术可以有效地推动相关的产业发展，进而创造出巨大的商业利益。因此，我们有必要加大对这方面的投入，大力推进我国朝鲜语信息处理建设，争取用最短的时间达到并赶超世界水平。

[1] 韩国语言工学学会.韩文及韩国语信息处理学术会议论文集[C]，1988-2010.

[2] 韩国高丽大学自然语言处理实验室[EB/OL].http://nlp.korea.ac.kr.

[3] 延世大学自然语言处理研究室[EB/OL].http://nlp.yu.ac.kr.

[4] 梨花女子大学人工智能实验室[EB/OL].http://ai.ewha.ac.kr

[5] 韩国21世纪世宗计划[EB/OL].http://www.sejong.or.kr.

[6] 韩国科学技术院(KAIST)语义网研究中心[EB/OL].http://semanticweb.kaist.ac.kr/home/index.php/Home.

[7] 韩国蔚山大学自然语言处理研究室[EB/OL].http://nlplab.ulsan.ac.kr.

[8] 韩国釜山大学韩国语信息处理研究室[EB/OL].http://klpl.re.pusan.ac.kr/default.asp.

[9] 韩国浦项工业大学知识与语言工程实验室[EB/OL].http://kle.postech.ac.kr.

[10] 韩国系统工学研究所.英汉汉英文本自动翻译技术开发[C].韩国信息通信部，1996.

[11] 韩国专利信息在线服务系统[DB/OL].http://k-pion.kipo.go.kr.

[12] 自动翻译技术研究[DB/OL]. www.etri.re.kr/etri/res/res_0102020202.etri.

[13] 韩国科学技术院语音处理实验室[EB/OL].http://vilab.kaist.ac.kr.

[14] 语音识别IC(韩国电子通讯技术情报)[EB/OL].http://www.ktechno.co.kr/semicon/sensory.html.

[15] 中国朝鲜语信息学会，朝鲜技术联盟，韩国语信息学会.KOREAN计算机处理国际学术会议论文集[C]，1994-2004.

[16] 朝鲜计算机中心[EB/OL].http://jamiwon.tistory.com/134.

[17] 权钟成.朝鲜语信息处理[M] .朝鲜平壤：科学百科词典综合出版社，1994.

[18] 裴光熙，朴荣钧.计算机语言自动翻译[M].朝鲜平壤：科学百科词典出版社，2003.

[19] 朝鲜金日成大学语言信息学研究团队.信息时代与语言学[J]，2001.

[20] 金炳善.北朝鲜的国语信息化[DB/OL]. http://www.hangeulmuseum.org/sub/future/unification/info_north01.jsp.

[21] 朴赞谟.北朝鲜尖端技术动向[DB/OL].http://www.kps.or.kr/～pht/8-9/990907.html.

[22] 中国朝鲜语信息学会，朝鲜教育省计算机教育中心，韩国语信息学会.基于ISO2382标准的英朝韩日信息技术术语词典[Z]，2002.

[23] 毕玉德，阎艳萍.知识表示中的句法语义一体化描写[J].民族语文，2010,(4): 13-19.

[24] 毕玉德.面向语言信息处理的朝鲜语知识库研究[J].中文信息学报，2005, 19(03): 28-33.

[25] 毕玉德，陈洁，吕春燕.朝鲜语句子语义角色标注研究[C]//孙茂松，陈群秀.中国计算机语言学研究前沿进展(2007-2009)，2009: 217-222.

[26] 毕玉德，阎艳萍.一种基于WordNet的多语种词汇语义网半自动构建方法[J].解放军外国语学院学报，2008,31(5):55-59.

[27] 东北大学自然语言处理实验室[EB/OL].http://www.nlplab.com/groups/MT.htm.