张秀常
我们在日常的信息化办公过程当中,经常利用OCR(光学字符识别)技术,通过扫描仪或数码相机检查纸上打印的字符,并通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机数字化的文档。但是,在实际的使用过程中,绝大多数的OCR软件只能识别单一语言,若遇到中文、英文或其他多语言混合时就无法正确识别,甚至出现天书一样的乱码。此时,我们只有反复变换语言再识别,或将其分割为单一语言再整合成文档,这样不但操作步骤繁琐,而且往往要影响我们的工作效率。为此,对于中英文混合识别的问题,有没有一种更好的解决方案?下面推荐OCR软件——ABBYY FineReader并结合具体的实例加以阐述。
● 新建ABBYY任务、扫描仪参数的设置
启动软件ABBYY FineReader (以10版本为例),在新建ABBYY任务对话框中选择“扫描到MicrosoftWord”(如图1)。
在扫描仪参数设置对话框中,我们可以根据纸质文件内容的复杂程度来决定你所需要的分辨率、色彩模式、亮度及纸张大小。一般的黑白普通文本的分辨率在300DPI以上、色彩模式为灰度(如图2)。
● 手动创建新语言组
在软件ABBYY FineReader的菜单中选择“工具”下的“语言编辑器”,在“语言组属性”对话框中,将创建的新语言组命名为“中英文”,并将“简体中文”、“英语”复制到选定语言栏内(如图3)。
● 实施读取识别、检查拼写并导出
在软件ABBYY FineReader的工具栏中选择“读取”,软件将用中英文混合识别方式对左侧扫描后的图像进行分析、读取并进行有效的识别,识别后的内容将在右侧的文本区域进行预览,同时软件ABBYY FineReader将不确定的识别内容予以彩色显示,以便于你进一步进行检查拼写,这样可以有效地提高扫描内容的识别率。
最后,在软件ABBYY FineReader的工具栏中选择“保存”,我们可以将识别及检查后的内容保存为Word文档,以供数字化的保存、处理、共享及再修改。
软件ABBYY FineReader的下载地址:宁波象山现代教育技术学会网站(http://et.xsedu.net.cn/)。