制作文字底稿的高级技术

2021-09-27 08:57国防科技大学电子对抗学院徐济仁

电子世界 2021年15期

关键词：扫描仪对话框识别率

国防科技大学电子对抗学院琚振徐济仁

73676部队刘同赞

安徽建筑大学电子学院吴东升

合肥工业大学机汽学院赵小兰

底稿，俗称草稿，原稿。从广义上讲是出版、印刷的原始根据，在印刷的五大要素(原稿、印版、承印物、油墨、印刷机械)中居于首位。一般由客户提供。文字原稿由作者和编辑决定，其社会效果取决于原稿的内容，印刷质量只与印刷技术和条件有关。

底稿的来源多种多样，有的来自于出版社的书，有的来自于网络，有的来源于广告宣传手册，等等。出版书的书经过作者的反复锤炼和修改，错误很少，所以书的内容值得我们借鉴和使用。书里面的内容可以通过扫描，然后使用ocr文字识别软件，通常这些文字识别软件识别正确率是非常高的，我们平时用的比较多的两款软件CAJViewer和Adobe Acrobat，都自带ocr文字识别功能。

1 从印刷品到可编辑的文字

书是最重要的印刷品。

首先，第一步我们需要对书的内容进行扫描，我们尽可能的把书贴近扫描仪的玻璃板，用力按住书。然后再在书的外面盖上一块黑色的布，不要漏光。最好能够将书拆成一页一页地进行扫描，这样扫描的效果是最好的。

现在的书大部分都是黑白的，使用OCR文字识别软件处理的时候，识别准确率非常高。基本上不会有什么错误，或者错误很少。但是有的书里面有彩色的插页，我们可以先把它转成灰色图像，然后在进行ocr文字识别。

有的书在印刷的时候。正文采用了白底黑字，注释部分采用了其他的颜色背景，比方说淡黄色，如图1所示。

图1 书扫描效果截图

我们这张扫描图片是将书拆开之后单页扫描的，扫描仪的分辨率是200dpi。分辨率不能太低，会影响OCR文字识别准确率的。分辨率如果低于100 dpi，文字识别准确率会受到影响。

我们将扫描页面分成两个明显的区域，分别给予编号：1和2，编号1区块，不是正文，相关链接类似于注释，背景是淡黄色，OCR文字识别准确率非常低，编号2区块是正文，白底黑字。Ocr文字识别率准确率非常高。

因为是单页扫描。扫描的时候，扫描仪玻璃板上面有一个盖板，完全可以把单页纸盖住，因为不漏光，所以扫描的效果非常好，没有一点点的黑色（扫描的时候，漏光的部分都是黑色的）。这也是我们向大家推荐使用扫描仪扫描书的时候，要尽可能的把书拆成单页进扫描的原因。

在正式扫描之前。需要使用图像处理软件ACDSEE对扫描图片进行简单的处理。

（1）观察扫描图片有无上下偏移，有的不是非常明显的上下偏移，肉眼没有办法进行观察，我们可以用acdsee打开这个扫描图片，点击ACDSEE左边工具栏里面的“旋转”按钮，图像处理软件ACDSEE会显示校正用的网格线，如图2的的示。将文字和网络线进行比对就可以看出，文字有没有上下偏移。如果有偏移，可以通过这个旋转操作功能，将文字调整成水平。