基于非句处理的旅游业语言查询系统的研究与设计

2015-01-20 11:44马婷婷
电脑知识与技术 2014年36期

摘要:随着旅游行业的迅猛发展,从早期的纸质资料查询逐步向语言电子查询系统发展。针对目前常用的语音查询系统中经常存在不准确性——非句——给人们在使用时造成的不便,文章主要介绍了语音识别系统的原理、语音识别后处理系统以及针对非句中歧义的处理方法——分词算法。

关键词:语音识别系统;非句;分词算法

中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2014)36-8754-02

随着旅游业的快速发展,地图等纸质资料已经不能满足人们快速、全面的获取信息的需求,人们对基于语音识别理论的“所说即所得”的语音电子查询系统的需要越来越强烈。但已有的语音查询系统中经常存在不准确性——非句。

非句指的是在语音识别结果里识别出来的文本无法构成完整语句,掺杂了识别错误导致语法不正确、不完整的或者错误的句子。非句存在某些错误或者脱节,导致人或机器无法用正常的自然语言知识形成正确的理解。因此,只有找到好的非句分析知识和方法,才能更有效的传递这些错误或者脱节,消除其对于人机交互的阻力。

2 语音识别系统

语言识别系统是一种模式识别系统,包括语音特征提取技术、模式匹配准则及模型训练技术三种主要技术。传统的语音识别系统的原理图见图1:

图1 语音识别系统原理图

本文的目标是对语音识别后的文本,采用自然语言理解的方法从语法、语义和语用三个方面对识别的内容进行正确分析,选择适合的分词算法,尽量减少非句的出现,提高输出结果的正确率。语音识别后处理系统图见图2:

图2 语音识别后处理系统图

3 分词算法

语言查询系统中产生非句的一个重要原因是汉语文本中有许多切分歧义字段。歧义字段是指在分词过程中采用不同的切分规则后产生多种切分结果后产生歧义。常见的歧义从构成形式上可以分为交集型歧义和组合型歧义两种。例如,“供应商品”该语句可以切分为“火车\站”或“火\车站”两种,字段“火车站”为交集型歧义型字段。而语句“景区区间车”可以切分为“景区\区间\车”和“景区\区间车”两种,字段“区间车”为组合型歧义字段。

常用的切分方法有正向最大匹配算法(FMM)、逆向最大匹配算法(RMM)和全切分法三种。该文采用的是双向最大匹配算法。即分别对所需要切分的语句进行正向和逆向最大匹配后将两种结果进行比较。如果两种方法得到的结果是一样的,那么分词结果无歧义,是正确的;如果得到的结果不一样,说明存在歧义,将产生非句,并需要处理歧义。判断两种结果词条数目是否相同,如果词条数目不同,依据长词优先的原则,选择词条数目少的分词结果作为分词结果;如果词条数目不同,则采用计算语义关联强度的方法,得到最准确的分词结果。流程图如图3:

图3 双向最大匹配算法流程图

4 测试结果

将旅游业语言查询系统按照语句含义分成住宿、就餐、景点、问路、加油站、停车场6类。利用录音软件选择多人按照上述6个方面各选200个语句进行录音,生成语言识别后文本,采用不同方法测试,测试结果如表1。

表1 不同方法测试结果对比表

[不同测试方法\&准确率\&基于正向最大匹配算法的结果\&92.31%\&基于逆向最大匹配算法的结果\&94.42%\&歧义处理后的结果\&96.43%\&]

5 结论

随着旅游行业语音查询系统的普及,人们对这种“所说即所得”的要求越来越高,利用双向最大匹配算法的分词方法大大减少了非句的出现,提高了输出准确性。

参考文献:

[1] 王中立.汉语自动分词中切分歧义及处理技术[J].许昌学院学报,2006(3):118-121.

[2] 李翠霞.现代计算机智能识别技术处理自然语言研究的应用与进展[J].科学技术与工程,2012(36):9912-9918.

[3] 李伟,吴及,吕萍.基于前后向语言模型的语音识别词图生产算法[J].计算机应用,2010(10):7-10.

[4] 魏莎莎,熊海灵.中文分词中的歧义识别处理策略[J].微计算机信息,2010,26(10):190-192.

摘要:随着旅游行业的迅猛发展,从早期的纸质资料查询逐步向语言电子查询系统发展。针对目前常用的语音查询系统中经常存在不准确性——非句——给人们在使用时造成的不便,文章主要介绍了语音识别系统的原理、语音识别后处理系统以及针对非句中歧义的处理方法——分词算法。

关键词:语音识别系统;非句;分词算法

中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2014)36-8754-02

随着旅游业的快速发展,地图等纸质资料已经不能满足人们快速、全面的获取信息的需求,人们对基于语音识别理论的“所说即所得”的语音电子查询系统的需要越来越强烈。但已有的语音查询系统中经常存在不准确性——非句。

非句指的是在语音识别结果里识别出来的文本无法构成完整语句,掺杂了识别错误导致语法不正确、不完整的或者错误的句子。非句存在某些错误或者脱节,导致人或机器无法用正常的自然语言知识形成正确的理解。因此,只有找到好的非句分析知识和方法,才能更有效的传递这些错误或者脱节,消除其对于人机交互的阻力。

2 语音识别系统

语言识别系统是一种模式识别系统,包括语音特征提取技术、模式匹配准则及模型训练技术三种主要技术。传统的语音识别系统的原理图见图1:

图1 语音识别系统原理图

本文的目标是对语音识别后的文本,采用自然语言理解的方法从语法、语义和语用三个方面对识别的内容进行正确分析,选择适合的分词算法,尽量减少非句的出现,提高输出结果的正确率。语音识别后处理系统图见图2:

图2 语音识别后处理系统图

3 分词算法

语言查询系统中产生非句的一个重要原因是汉语文本中有许多切分歧义字段。歧义字段是指在分词过程中采用不同的切分规则后产生多种切分结果后产生歧义。常见的歧义从构成形式上可以分为交集型歧义和组合型歧义两种。例如,“供应商品”该语句可以切分为“火车\站”或“火\车站”两种,字段“火车站”为交集型歧义型字段。而语句“景区区间车”可以切分为“景区\区间\车”和“景区\区间车”两种,字段“区间车”为组合型歧义字段。

常用的切分方法有正向最大匹配算法(FMM)、逆向最大匹配算法(RMM)和全切分法三种。该文采用的是双向最大匹配算法。即分别对所需要切分的语句进行正向和逆向最大匹配后将两种结果进行比较。如果两种方法得到的结果是一样的,那么分词结果无歧义,是正确的;如果得到的结果不一样,说明存在歧义,将产生非句,并需要处理歧义。判断两种结果词条数目是否相同,如果词条数目不同,依据长词优先的原则,选择词条数目少的分词结果作为分词结果;如果词条数目不同,则采用计算语义关联强度的方法,得到最准确的分词结果。流程图如图3:

图3 双向最大匹配算法流程图

4 测试结果

将旅游业语言查询系统按照语句含义分成住宿、就餐、景点、问路、加油站、停车场6类。利用录音软件选择多人按照上述6个方面各选200个语句进行录音,生成语言识别后文本,采用不同方法测试,测试结果如表1。

表1 不同方法测试结果对比表

[不同测试方法\&准确率\&基于正向最大匹配算法的结果\&92.31%\&基于逆向最大匹配算法的结果\&94.42%\&歧义处理后的结果\&96.43%\&]

5 结论

随着旅游行业语音查询系统的普及,人们对这种“所说即所得”的要求越来越高,利用双向最大匹配算法的分词方法大大减少了非句的出现,提高了输出准确性。

参考文献:

[1] 王中立.汉语自动分词中切分歧义及处理技术[J].许昌学院学报,2006(3):118-121.

[2] 李翠霞.现代计算机智能识别技术处理自然语言研究的应用与进展[J].科学技术与工程,2012(36):9912-9918.

[3] 李伟,吴及,吕萍.基于前后向语言模型的语音识别词图生产算法[J].计算机应用,2010(10):7-10.

[4] 魏莎莎,熊海灵.中文分词中的歧义识别处理策略[J].微计算机信息,2010,26(10):190-192.

摘要:随着旅游行业的迅猛发展,从早期的纸质资料查询逐步向语言电子查询系统发展。针对目前常用的语音查询系统中经常存在不准确性——非句——给人们在使用时造成的不便,文章主要介绍了语音识别系统的原理、语音识别后处理系统以及针对非句中歧义的处理方法——分词算法。

关键词:语音识别系统;非句;分词算法

中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2014)36-8754-02

随着旅游业的快速发展,地图等纸质资料已经不能满足人们快速、全面的获取信息的需求,人们对基于语音识别理论的“所说即所得”的语音电子查询系统的需要越来越强烈。但已有的语音查询系统中经常存在不准确性——非句。

非句指的是在语音识别结果里识别出来的文本无法构成完整语句,掺杂了识别错误导致语法不正确、不完整的或者错误的句子。非句存在某些错误或者脱节,导致人或机器无法用正常的自然语言知识形成正确的理解。因此,只有找到好的非句分析知识和方法,才能更有效的传递这些错误或者脱节,消除其对于人机交互的阻力。

2 语音识别系统

语言识别系统是一种模式识别系统,包括语音特征提取技术、模式匹配准则及模型训练技术三种主要技术。传统的语音识别系统的原理图见图1:

图1 语音识别系统原理图

本文的目标是对语音识别后的文本,采用自然语言理解的方法从语法、语义和语用三个方面对识别的内容进行正确分析,选择适合的分词算法,尽量减少非句的出现,提高输出结果的正确率。语音识别后处理系统图见图2:

图2 语音识别后处理系统图

3 分词算法

语言查询系统中产生非句的一个重要原因是汉语文本中有许多切分歧义字段。歧义字段是指在分词过程中采用不同的切分规则后产生多种切分结果后产生歧义。常见的歧义从构成形式上可以分为交集型歧义和组合型歧义两种。例如,“供应商品”该语句可以切分为“火车\站”或“火\车站”两种,字段“火车站”为交集型歧义型字段。而语句“景区区间车”可以切分为“景区\区间\车”和“景区\区间车”两种,字段“区间车”为组合型歧义字段。

常用的切分方法有正向最大匹配算法(FMM)、逆向最大匹配算法(RMM)和全切分法三种。该文采用的是双向最大匹配算法。即分别对所需要切分的语句进行正向和逆向最大匹配后将两种结果进行比较。如果两种方法得到的结果是一样的,那么分词结果无歧义,是正确的;如果得到的结果不一样,说明存在歧义,将产生非句,并需要处理歧义。判断两种结果词条数目是否相同,如果词条数目不同,依据长词优先的原则,选择词条数目少的分词结果作为分词结果;如果词条数目不同,则采用计算语义关联强度的方法,得到最准确的分词结果。流程图如图3:

图3 双向最大匹配算法流程图

4 测试结果

将旅游业语言查询系统按照语句含义分成住宿、就餐、景点、问路、加油站、停车场6类。利用录音软件选择多人按照上述6个方面各选200个语句进行录音,生成语言识别后文本,采用不同方法测试,测试结果如表1。

表1 不同方法测试结果对比表

[不同测试方法\&准确率\&基于正向最大匹配算法的结果\&92.31%\&基于逆向最大匹配算法的结果\&94.42%\&歧义处理后的结果\&96.43%\&]

5 结论

随着旅游行业语音查询系统的普及,人们对这种“所说即所得”的要求越来越高,利用双向最大匹配算法的分词方法大大减少了非句的出现,提高了输出准确性。

参考文献:

[1] 王中立.汉语自动分词中切分歧义及处理技术[J].许昌学院学报,2006(3):118-121.

[2] 李翠霞.现代计算机智能识别技术处理自然语言研究的应用与进展[J].科学技术与工程,2012(36):9912-9918.

[3] 李伟,吴及,吕萍.基于前后向语言模型的语音识别词图生产算法[J].计算机应用,2010(10):7-10.

[4] 魏莎莎,熊海灵.中文分词中的歧义识别处理策略[J].微计算机信息,2010,26(10):190-192.