○热西旦·玉素甫
(新疆师范大学,新疆 乌鲁木齐830054)
词频统计是数据与信息处理、知识挖掘与传播中的中心和基础性工作,只有比较准确地在文章中统计出词及其频度,才能进行所有的下一步工作。维吾尔语是新疆地区少数民族使用较为广泛的一种语言,系跨境语言,有自己的特点,维吾尔文有32个字母,其中8个元音字母,24个辅音字母,在对维吾尔语统计时发现表面上毫无关系的词频之间实际上存在着内在的联系。
19世纪90年代初,一项庞大的语言调查工程在德国展开。克定(Kaeding,F.W.)在众多合作者的协作下,耗时七年,手工统计了以报刊为主的14个语料来源的资料。在110份语料中,总词汇量达10,910,777条。经统计,频率在4以上的词共79,716个。调查结果形成一部厚达671页的《德语频率词典》,于1898年出版。这是第一次现代意义上的以统计调查方法完成的词汇研究工作。紧随克定词表出现的是1920年美国学者凯尼斯顿(KOiston)的《西班牙语常用词汇》和1921年美国教育学家兼心理学家桑代克(Thorndidc,E,L。1874~1949)编写的《教师一万词词书》、《教师二万词词书》。
2003年,全球语言监测网建立,总部设在美国圣地亚哥。它的主要任务是公布英语语言生活中产生广泛影响的语言现象,包括各种新词语、流行语、外来语以及政治性错误用语,对于语言发展趋势以及其对政治、文化和经济影响的专业分析等。目前,在现代维语词语使用频率和分布情况方面,虽然有一定的研究,但是没有对初中维吾尔文数学教材进行真实语料的统计和研究,无法提供初中维吾尔文用词分布情况具有科学性的依据。初中数学维吾尔文教材是九年义务教育课程的重要教学资源,其用词状况直接关系到数学教学的效果。为了研究初中数学维吾尔文教材中的用词状况,写出了本文章。
构建初中数学维吾尔文教材语料库,语料文件格式转换(语料库来源:新疆师范大学人文社会科学重点研究基地和重点实验室提供)文本分类(初中维吾尔文各册数学书的课文,练习等)文本统计(图片统计、公式统计、表格统计、定义统计等)构建生语料库(通过转换工具把doc文件转换成txt文件,内容保持一致)。
随着计算机技术的飞速发展,词汇的计量研究近十几年来逐渐成熟,人们更多、更广地利用词汇计量方式探索各领域的词汇规律与特点。基于现代维吾尔语词汇统计研究也需要诸多的新成果,本文利用维吾尔文信息处理技术,对人教版(维吾尔文)全日制普通初中数学教材的文本与词汇进行相关统计并将统计结果进行比较分析概貌,对初中数学教材的文本与词汇进行相关统计并分析初中数学教材指出相关的观点。在文章中要做语料的准备,分类,调整,开发软件,对语料进行统计等等重要工作。通过分词及词频统计软件,笔者将先前获得的生语料进行了初步的分词,并将词频表导出为微软的表格文件,微软办公软件中的表格数据处理文件是一个功能十分强大而且非常易用的数据统计工具,可以在其中做出相应的用词调查报告。
本次的调查对象主要是维吾尔文初中数学语料中的词。对这些词的调查项目主要有频次、频率、词汇长度、文本书等。频次词是在实际应用中,出现次数多、使用较频繁的词,频率即每一调查对象的频次与整个语料所含调查对象总次数的比值,抽样一定数量的语料,计算其中各个不同词语的出现次数,每个词语的出现次数,叫做这个词语的频度。每个词语的频度与总频度和之比,叫做频率。这就是词频统计工程最主要的方法,或称频度(或频率)的方法。
本人在研究中通过一些相关的系统处理了以下的结果,在系统中本人主要处理了一些关于词汇的频次、频率、词汇长度、文本书等等数据,下面的表格有一部分数据,在结果里可以看出来在初中维吾尔文数学教材中用得最多的词是等等。
教材每册词汇分布情况表
初中数学维吾尔文词频统计系统是在计算语言学、统计学的软件开发思想基础上,根据系统需求设计和实现词频的统计系统。本文作者根据初中数学维吾尔语信息处理的工作流程,完成了对初中数学维吾尔文词频统计系统的设计和实现。系统实现了使用真实的语料,以显示系统进度方式,通过构词规则的方法来判断是否维吾尔文的词,并在分析每一个文本的过程中一边存储词汇,一边对词汇的频次、频率、词汇长度、文本书数据,对系统统计结果进行分析。目前,该系统还有不少问题需要进一步解决。比如,进行词频统计之前准备的电子资料非常费时,而且人工调整会有失误,为解决此问题,文本的调整就很重要,要是在统计功能之前有一个文本调整功能,就能保证统计的准确率。
[1]艾孜尔古丽,等.现代维吾尔文网络媒体用词研究[J].计算机应用与软件,2012(2).
[2]艾孜尔古丽,等.基于网站用词调查的现代维吾尔语词干提取和应用[J].计算机应用与软件,2012(3).
[3]玉素甫,艾孜尔古丽,基于网站用词调查的现代维吾尔语词尾切分和应用研究[J].计算机应用与软件,2012(4)
[4]哈米提·铁木尔.现代维吾尔语法[M].民族出版社,1987.
[5]玉素甫,艾孜尔古丽,基于网站用词调查的现代维吾尔语词长研究[J].计算机应用与软件,2012(5).
[6]艾斯卡尔·亚库甫,艾孜尔古丽,玉素甫.维吾尔文语料库建设中文件格式转换技术研究[J].计算机应用与软件,2012(6)(已录用No 803783).