中英文混合识别的利器—ABBYY FineReader

2012-04-29 11:33张秀常
中国信息技术教育 2012年9期
关键词:字符识别扫描仪中英文

张秀常

我们在日常的信息化办公过程当中,经常利用OCR(光学字符识别)技术,通过扫描仪或数码相机检查纸上打印的字符,并通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机数字化的文档。但是,在实际的使用过程中,绝大多数的OCR软件只能识别单一语言,若遇到中文、英文或其他多语言混合时就无法正确识别,甚至出现天书一样的乱码。此时,我们只有反复变换语言再识别,或将其分割为单一语言再整合成文档,这样不但操作步骤繁琐,而且往往要影响我们的工作效率。为此,对于中英文混合识别的问题,有没有一种更好的解决方案?下面推荐OCR软件——ABBYY FineReader并结合具体的实例加以阐述。

● 新建ABBYY任务、扫描仪参数的设置

启动软件ABBYY FineReader (以10版本为例),在新建ABBYY任务对话框中选择“扫描到MicrosoftWord”(如图1)。

在扫描仪参数设置对话框中,我们可以根据纸质文件内容的复杂程度来决定你所需要的分辨率、色彩模式、亮度及纸张大小。一般的黑白普通文本的分辨率在300DPI以上、色彩模式为灰度(如图2)。

● 手动创建新语言组

在软件ABBYY FineReader的菜单中选择“工具”下的“语言编辑器”,在“语言组属性”对话框中,将创建的新语言组命名为“中英文”,并将“简体中文”、“英语”复制到选定语言栏内(如图3)。

● 实施读取识别、检查拼写并导出

在软件ABBYY FineReader的工具栏中选择“读取”,软件将用中英文混合识别方式对左侧扫描后的图像进行分析、读取并进行有效的识别,识别后的内容将在右侧的文本区域进行预览,同时软件ABBYY FineReader将不确定的识别内容予以彩色显示,以便于你进一步进行检查拼写,这样可以有效地提高扫描内容的识别率。

最后,在软件ABBYY FineReader的工具栏中选择“保存”,我们可以将识别及检查后的内容保存为Word文档,以供数字化的保存、处理、共享及再修改。

软件ABBYY FineReader的下载地址:宁波象山现代教育技术学会网站(http://et.xsedu.net.cn/)。

猜你喜欢
字符识别扫描仪中英文
《古脊椎动物学报(中英文)》编委会
第35卷(2020年)A辑中英文总目次
一种改进深度学习网络结构的英文字符识别
仪表字符识别中的图像处理算法研究
APPITA 2015年第2期中英文摘要
三维激光扫描仪在变形监测中的应用
基于CUDA和深度置信网络的手写字符识别
便携高速文件扫描仪
APPITA 2013年第4期中英文摘要
机加工件点阵字符识别研究