艾孜尔古丽,艾孜海尔江,2 ,玉素甫·艾白都拉,祖力克尔江,2,米尔夏提
(1. 新疆师范大学 计算机科学技术学院,新疆 乌鲁木齐 830054;2. 新疆师范大学 文学院,新疆 乌鲁木齐 830054;3. 新疆大学 信息科学与工程学院,新疆 乌鲁木齐 830046)
维吾尔文初中数学教材词干分析研究
艾孜尔古丽1,艾孜海尔江1,2,玉素甫·艾白都拉1,祖力克尔江1,2,米尔夏提3
(1. 新疆师范大学 计算机科学技术学院,新疆 乌鲁木齐 830054;2. 新疆师范大学 文学院,新疆 乌鲁木齐 830054;3. 新疆大学 信息科学与工程学院,新疆 乌鲁木齐 830046)
该文将初中数学维吾尔文教材作为研究对象,根据维吾尔语的特点和统计学原理理论,从计算语言学角度调查初中数学维吾尔文教材用词干情况。该文主要研究维吾尔语词干、教材概貌、数据处理技术相关概念及其算法及现代维吾尔语语料处理工具,获取教材中词干基本情况、新增词干、初中数学教材高频词干,开展了初中数学维吾尔文教材词干调查,为维吾尔语研究、维吾尔文数学教学与教材编纂等提供参考依据,从而更加积极有效地促进维吾尔语语言本身研究及其信息处理的发展。
现代维吾尔语;词干;分析;方法
词干是语义最小单位。词干提取是把一个词的不同形式统一为一种具有代表性的标准形式(词干),主要处理对象是语言中的词,需要了解语言词汇的结构,因而必须理解维吾尔语形态学[2]。语言形态学是一个关注词汇内在结构和构词规则的语言领域,研究如何从比较小的意义单位( 语素——语素是语言中负荷意义的最小单元)构成词[2]。提取的词干能够减少词的数量,缩减索引文件所占空间,降低重复率,从而提高效率。
本文利用现代维吾尔语语料预处理技术、现代维吾尔语多策略语料统计技术、现代维吾尔语多技术融合词干提取技术、现代维吾尔语多特征词性标注技术、现代维吾尔语多维度数据分析技术等关键技术,提取、分析维吾尔文初中数学教材中的词干。
为了科学地调查教学教材用词情况,本文利用信息处理技术手段处理维吾尔语语料,完成维吾尔语语料预处理、维吾尔语语料统计、统计数据的自动分析工作。
2.1 相关概念及其算法
(1) 词次(频次)。抽取一定数量的语料,计算不同词语在语料中出现的次数。假设词语作为调查对象,频次是每一调查对象的频次同其前调查对象频次的累加和。频次是一个具体的数字,它直观地反映了某个词语在语料中真实、原始的使用情况[3],算法如式(1)所示。
其中,Ai为调查对象i的累加频次,ni为调查对象i的出现次数。
(2) 频率。每一调查对象的词次的累加和,与所有语料中调查对象总次数的比值,即[4]:
其中,Bi为调查对象i的累加频率,ni为调查对象i的出现次数,N为所有语料中调查对象出现的总次数。
(3) 文本数。如果把语料看成由若干个文本组成,一个词在多少个文本里出现(不管出现次数),也就是该词语出现的文本数:
其中,Di为表示文本数,i表示字母的累加数,ni为表示第i个文本次数。
2.2 现代维吾尔语语料处理工具
(1) 维吾尔语语料预处理系统。本系统由语料格式调整模块、语料代码统一转换模块、语料调整、语料校对模块四个模块组成。维吾尔语语料预处理模块把现代维吾尔语语料库中非标准的语词进行噪声过滤后,再进行语料格式转换、语料自动调整、非规范词规范、语料自动校对等,保证每一个词语的正字正确性,同时正确处理非维吾尔语词语,确保获取正确数据分析结果。
(2) 维吾尔语语料统计系统。本系统较为成熟,统计功能强,主要统计包括词次、频率、词种、词长和文本数等项目[5]。
(3) 维吾尔语词干提取系统。提取词干时利用基于词尾切分技术以及词典和人机交互结合的方法。在提取词干过程中,通过现代维吾尔语词干词典维护模块发现在提取词干过程中出现的新词干,并对机器词典中新词干进行补充,增加了机器学习功能[3]。
(4) 融合形态特征的最大熵维吾尔文词性标注系统。
① 现代维吾尔语词性标记集
现代维吾尔语是黏着性语言,语法、语义、语用三位一体构词结构,是三个范畴融合在一起的复杂语言[6]。
(今天的讨论会艾买提参加了)。
(今天的讨论会牛参加了)。
只有语法、语义特征相结合,才能正确地表达词语的有关信息。《现代维吾尔语词性标记集》由新疆师范大学计算机应用重点学科、国家语言资源监测中心少数民族分中心维吾尔文基地提供。
② 现代维吾尔语词性标注模型
本文提出一种融合维吾尔文形态变形特征的最大熵维吾尔文词性标注模型。首先,根据维吾尔文构词特点,定义上下文特征模板,并从训练语料中提取大量特征集,再通过人工设置一些规则筛选模板。然后,训练最大熵概率模型参数。在最大熵概率模型特征的选择上,根据维吾尔文的特点,选取词内部词干和词缀、词前后信息及混合信息等形态信息作为特征,构建标注系统[4]。
最大熵原理的主要思想为: 将已知事实作为制约条件,求得可使熵最大化的概率分布作为正确的概率分布[7]。该模型的形式是
其中,Zλ(x)为归一化函数;fi(x,y)∈(0,1)为特征函数;λi是特征函数的权重,代表每个特征函数的重要性,每个λi对应于一个特征函数[7]。
特征选择依据: 使用最大熵模型对维吾尔语名词进行识别,是根据当前词的上下文特征确定的。本文的模型特征选择依据维吾尔语名词本身的构词特点[4]。
特征模板定义: 根据维吾尔语构词特点和统计结果,本文设计了词内部特征、前后依存词特征[4]。
(5) 维吾尔语数据分析系统: 本系统主要统计功能包括词次、频率、词种、词干种和文本数等项目的统计。
3.1 语料概貌
本文选取了由新疆维吾尔自治区课程教材研究所、中学数学课程教材研究开发中心与人民教育出版社联合出版的九年义务教育数学课程标准实验教科书(数学维吾尔文版本)。电子语料和处理技术由国家语言资源监测中心少数民族分中心维吾尔语研究基地和新疆师范大学计算机应用重点学科提供,其中包括初中一年级到初中三年级,共六册教材的生语料库。对初中数学教材书中的各册的图片、公式、表格、定义、文本等进行统计,统计情况如表1所示。
表1 初中数学维吾尔文教材基本信息统计表
说明: 文本数指在教材中文本数量;定义数指在教材中出现的数学定义的数量;表格数指在教材中出现的表格数量;公式数指在教材中使用的数学公式数量;图片数指在教材中使用的数学几何图片数量。
3.2 教材中词干基本情况
首先构建初中数学教材电子语料库,然后用维吾尔语料预处理系统对初中数学教材电子语料库进行预处理。预处理工作结束后使用维吾尔语语料统计系统对初中数学教材电子语料进行统计,统计内容包括词干的频次、词干长度、文本数等。经维吾尔语数据分析系统对词干进行统计分析,在初中维吾尔文初中数学教材六册书中统计出总词干频次58 284次,总词干种数6 682个。
现代维吾尔文初中数学教材中的词干基本分布情况如表2所示。
表2 词干每册分布情况表
续表
从表2可见,对比同一年级上、下两册的词次所占比例,上册词次数量所占的比率高于下册,说明教材的编写符合初中生认知规律,也符合问题描述规律和有效提高词汇利用率的要求。从词干种数在各册分布情况来看,每册词干种数分布比较均匀,新词干的增加比较缓慢,与初中生学习数学知识的需求相吻合。表3中更能体现此特点。
表3 词干学年分布情况表
本研究把第一、二学期合并为学年,初一叫作第一学年,初二叫作第二学年,初三叫作第三学年。在初中数学教材中每一学年词次变化趋势与词干种数变化趋势同步,具有年级增加词干种数减小的趋势。内容组织安排符合初中生的认知能力,与心理成熟能力相适应。
从词干在文本中分布角度考察,结果如表4所示。
表4 词干在文本中分布情况表
文本数指该词语或词干出现的文本次数。在表4中可以看出,文本数为201~300的词干种数是8个,占词干种数比例为0.12%;文本数为101~200的词干种数是41个,占词干种数比例为0.61%。
3.3 新增词干
新增词干以第一学期教材为基础,第一学期与第二学期教材进行比较产生新词干,前两学期教材与第三学期教材比较产生的新词干,以此类推产生的新词干叫作新增词干。本研究用维吾尔语数据分析系统对统计数据进行分析,获得新增词干,如表5 所示。
表5 新增词干统计分析表
由表5可见,由于在七年级上册教材里词干种数为1 665,由于学生第一次接触, 定义新增词干种数为1 665,比例认定为100%。图1表示每册词干种数与每册新增词干变化关系。
图1 每册词干种数与每册新增词干变化图
从图1可以看出,每学期的词干种数变化不大,特别是七年级上、下册词干种数差距最小,相对稳定。第三学期开始词干种数开始平稳减少,每学期新增词干种数呈快速减少趋势,说明数学教材是以学习数学知识为主、学习新词干为辅的特点。这符合该教材强化学生数学功底和以培养思维能力为主的教学目标要求。
3.4 初中数学教材高频词干
本文从数学教材中提取了《基础教育数学常用词1000条》,并给出了样例, 前12个高频词干情况如表6所示。
表6 初中数学高频词干情况表
从表6可以看出,出现高频词干是数学用词为主,生活用词为辅。为解释某一个具体的数学现象,一些普通词干会有较高频率。
本文利用信息处理技术手段处理维吾尔语语料,提取分析维吾尔文初中数学教材词干,完成维吾尔语语料预处理、维吾尔语语料统计、统计数据的自动分析工作, 提出了基于多策 略的现代维吾尔语数据处理技术,为科学调查维吾尔文数学教材用词情况提供理论基础和技术支撑。初中数学教材所使用的词干在很大程度上与语文教材所使用的普通词干的情况形成对比。该数学教材特色用词干总量都不大,与承担着语言文字学习任务的语文教材相比,词干种数及总词次较少,复现率较低。在教学过程中,数学课程教授学生自然科学知识的同时,在语言能力培养上不容低估,应引起教材编纂者和教学工作者的重视。
[1] 哈密提.铁木尔.现代维吾尔语语法[M]. 北京: 北京民族出版社,1987.
[2] 吴思竹,钱庆,胡铁军,等.词干提取方法及工具的对比分析研究[J],《图书情报工作》,2012,56(15):109-115+142.
[3] 艾孜尔古丽,努尔艾合买提,玉素甫·艾白都拉.现代维吾尔语常用词统计关键技术研究[J],中文信息学报, 2014,28(5):192-197.
[4] 艾孜尔古丽,阿力木·木拉提,玉素甫·艾白都拉. 基于形态分析的现代维吾尔语名词词干识别研究 [J],中文信息学报,2015,37(12):2318-2323.
[5] 艾孜尔古丽,阿里木·木拉提,苏国平. 现代维吾尔语语言资源监测中数据分析技术研究[J],计算机应用与软件,2013,30(04)36-39.
[6] 艾孜尔古丽,米尔夏提,玉素甫·艾白都拉.现代维吾尔语词干词类标注标记集验证性研究 [J], 计算机工程与科学,2015(6):45-48.
[7] 张贯虹,斯·劳格劳,乌达巴拉.融合形态特征的最大熵蒙古文词性标注模型[J],计算机研究与发展,2011,48(12):2385-2390.
[8] 魏顺平,傅骞,何克抗.低年级小学生用字情况调查与分析——以广东、北京两地6所小学为例[J],语言文字应用,2008(03):81-89.
艾孜尔古丽(1987—),博士,讲师,主要研究领域为计算语言学、自然语言处理。
E-mail:Azragul2010@126.com
艾孜海尔江(1991—),硕士研究生,主要研究领域为计算语言学、自然语言处理。
E-mail: Azhar110@126.com
玉素甫·艾白都拉(1958—),通信作者,学士,教授,主要研究领域为计算语言学、自然语言处理。
E-mail:ysp2002@126.com
TheStudyofModernUyghurStemsinMathsTextbookofJuniorMiddleSchool
Azragul1, Azharjan1,2, Yusup Abaydula1, Zulkarjan1,2, Mirxat3
(1. School of Computer Science and Technology, Xinjiang Normal University, Urumqi, Xinjiang 830054, China;2. School of Liberal Arts, Xinjiang Normal University, Urumqi, Xinjiang 830054, China; 3. School of Information Science and Engineering, Xinjiang University, Urumqi, Xinjiang 830046,China)
In this study, focused on the Uyghur mathematics textbooks in junior high school, the Uyghur stem are studied. This paper studies the basic stems in the textbooks, the new stems, and the high frequency stems. This provides reference materials for the Uighur language study, Uighur Mathematics Teaching and codification.
modern Uygur language;word stem;analysis;method
1003-0077(2017)05-0108-06
TP391
A
2015-08-16定稿日期2016-04-26
国家自然科学基金(61662081,61463048);自治区自然科学基金(2017D01A58);自治区青年科技创新人才培养工程(QN2016BS0365);国家社科基金(14AZD11);国家语委重点项目(ZD1135-28);新疆维吾尔自治区社会科学基金(2016CYY067);国家语言资源监测与研究中心少数民族语言分中心项目(NMLR201602);新疆师范大学计算机应用重点学科、新疆师范大学数据安全重点实验室资助项目