阿衣苏鲁·依拉洪
摘要:维吾尔语是以单词为基础的黏连语,字母由于在单词中的作用相异而有不同的书写规则。当前手写技术的进步依然滞后于汉文、英文等。笔者在解析维吾尔语构造、组词特征与录入行为等的前提下,归纳了黏连语对手写输入识别的作用,并且讨论了维吾尔语手写识别体系与有关重要技术,通过对这部分技术的阐述,笔者期待在解析、证实的前提下,让维吾尔语手写体为大众所熟知。
关键词:维吾尔语;手写体;电脑;识别技术;探讨
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2017)03-0166-02
维吾尔语手写体网上电脑识别技术是自动化的,电脑自动把待识别模式纳入到识别工作中。模式识别在字符辨认、指纹辨别、神态辨别、话语辨别等领域已经开始普及使用。而书面识别也是模式识别的其中一种。伴随电脑科技的日新月异,数字图像处置与解析也已经渗透到了科技行业。[1]汉字识别通过超过20年的发展,获得了令人瞩目的成就,完成了对各类文本图片的汉文自动识别,这类研究成绩已经受到了世界范围的关注。而维吾尔语的识别工作才起步而已。
1 维吾尔语特征简介
维吾尔语是我国56个民族的民族语言的其中一种,维吾尔语包含32个字母,当中包括8个元音、24个辅音,通常能够写出128个种类的词语;每一个字母根据存在的位置的差别能够划定为后连形式、前后连模式、前连模式、独立模式等四类,维吾尔语单词是一类粘连性字符,由这部分字符组成连体段,字母互为联系的水平线被称为基线。此外,一部分维吾尔语字母主体一样,用上下附加题的方位来区别字符。[2]
2 维吾尔语手写体辨别的特点
维吾尔语是由单词构成的,和阿拉伯文相近,写作模式是由右至左,字母粘连。当前,对维吾尔语的手写识别存在两类解读办法。其一,直观地对整个单词实施整词识别,这类模式的优势较为明显,然而必须累积大批的单词;其二,先完成单词的切分,在对切分后的单独字符实施识别。[3]
维吾尔语包含32个字母,其是:
并且,每一个字母存在多类模式:
1) 分成四类模式的一共有24个字母:
例如:
2) 分成八类模式的总共只有2个字母:
例如,
3) 有两类模式的字母加起来有6个:
例如:
4) 字符模式通常包含
其模式能够达到128种。
为便于联机识别,笔者将全部维吾尔字母写法、字符依照其功能划定为若干种,在抽样练习阶段分类装存。
1) 简易字符。最为常见的维吾尔字母字符,比如
2) 繁杂操作符
右端、上端、下端都可以出现有着一定笔画的维吾尔字母字符,比如
3) 两类字母音节字符
辅音部分与元音部分构成两种字体。比如:
4) 三种字母音节
举例说明:
3 维吾尔语手写体网上甄别的过程分析
3.1 预处置
预处置是手写的基本元素,对提升辨认率来讲至为关键。
3.1.1 几何处置
预处置阶段,最为重要的方法是清除噪音,排除硬件缺陷和手写抖动,再模式化写出的字体。目前,运用频率最高的是缓冲、过滤、另行抽取样本与标准化技术。
1)将单独点与临近的三点实施均衡配对,并对点的连接序列间的间距实施再次采样,进而缓解线讯息的硬度。
2)手写体痕迹的平行垂直问题,使手写体能够达到书写标准,再利用切比雪夫第二类别纸在过滤设备中过滤,用来规整笔迹,以清除时空抽样引发的噪声。
3)使用过滤设备缓解并缩减多余部分,采用同样的模式对符号样本进行采集,再利用顶点删除的形式让手写体更为准则化。[5]
3.1.2 基线探测
大多数基线勘探模式均是以几何理论为基础的,从离线或印刷体的运用模式离析出来的。这类逻辑模式解析了手写体表层构造,以判断检索基线的笔迹有关点,几何理论中最为常见即是直方图映射。
3.1.3 处置字体中的延缓部分
在維吾尔语手写阶段,延缓笔划分布在字符的上部或下部,可以利用一种非常规的连接笔划连接延缓笔划与维吾尔语,参考分支界定学说中的双图形学说来完成相连或字体的改变,并将不同的字符分隔。[6]此外,借鉴阿拉伯语手写体辨别的模式,形成直观串法来调节秩序。在这部分词语的秩序内,延缓笔画是根据相异的测序写成的,字符的模糊掩盖潜藏于特征载体内,在手写阶段,利用延缓笔划映射学说来整合延缓笔划。该映射学说要经历两个阶段,即检验延缓笔划与在适当的通过处理的点序列字符中,完成延缓笔划的书写。
3.2 特点提炼
特点提炼的初衷是,通过萃取与换算录入讯息有关的特点或数据来获取字符类别划分标准,粘连体字符表率性的录入信息繁多,包括视觉描述符,比如遮挡位置、凹陷方位与环等。几何描述符也开始逐渐普及,比如切线、相连角、相对速率、笔划长与位置、连续点的间距等。
另外,录入信息的坐标也能够完成萃取——比如曲线运转速率与角速率。在阿拉伯文手写体识别阶段,一部分研发专家萃取了字体特征的神经生理学与生理力学的方程组参数,描述的是手写体的曲线运转状态。此外,Freeman链码的分成三个部分:长笔画、短笔画、抬笔。特征矢量最重要的是方向码,描述的是切分状态下的笔划,每类笔画的长度、斜率与坐标轴等。
3.3 切分
切分法包括整体法与分析法,此处只介绍分析法。
在分析法中,对一类字符高效识别的前提是识别单元是精准的,而不正确的切分让识别缺乏价值。最初利用外在切分学说的是内杰尔等专业人士参考阿拉伯手写体辨别准则实现的,手写体由一些基础知觉特征编码与整体知觉特征编码组成。利用网络手写体的beta椭圆理论,并使用模糊集知识来检测其基本特征,并利用遗传换算理论来检测其特征,这类切分学说相关的观念来自凹凸性理论,为了避免形成长度不达标的分段,在分段线谱的长度中参考了临界指标,而分段曲线长度揭示了结构曲线的分段线性段的总长度,并且将笔划细分成四类字母。其步骤包括:随意分解、强化分解、连接连续接头与定位分解点。
4 结束语
综上,维吾尔语是新疆维吾尔地区的官方语言其中一种,当前的手写科技较为落后,笔者在对中英语、阿拉伯语等手写识别科技解读的前提下,从维吾尔语的文字构造、组词特征与录入习惯等特点入手,探讨了维吾尔语手写体在线电脑识别科技,为新疆地区民众使用电子设施提供了一定的参考。
参考文献:
[1] 吾加合买提·司马义,艾斯卡尔·艾木都拉.基于中心距离特征的联机手写维吾尔文全形态字母识别研究[J].电脑知识与技术,2014(13):3097-3099,3103.
[2] 姜志威,丁晓青,彭良瑞,等.低数据资源条件下基于结构信息共享的无切分维文文档识别字符建模[J].电子与信息学报,2015,(9):2103-2109.
[3] 高丽娟,邢喜民,楊绍富,等.新源、和静交界Ms6.6地震前库尔勒地震台部分异常识别和分析[J].内陆地震,2014,28(1):22-29.
[4] 金剑,田淑芳,焦润成,等.基于地物光谱分析的WorldView-2数据岩性识别:以新疆乌鲁克萨依地区为例[J].现代地质,2013,27(2):489-496.
[5] 侯爱萍,陈新勇.基于基因信息图谱的传统聚落景观研究——以新疆吐鲁番麻扎村维吾尔族聚落为例[J].新疆大学学报:自然科学版,2016,33(2):235-240,252.
[6] 努尔艾力·喀迪尔,彭良瑞,哈力木拉提,等.一种基于HMM和统计语言模型的维吾尔文及阿拉伯文识别方法[J].计算机应用与软件,2015,32(1):171-174.