神器魔手：Linux下光学字符识别利器OCRFeeder上手教程

2021年7月26日软件技巧

大约在 2016 年的时候，薄荷君因为当时折腾 Linux，导致一份重要文件的 WORD 文档丢失了，手头只有一份纸质版。当时需要将这份文件进行小幅度修改后再打印使用，可是这份文件有几十页之多，完全手工重新打字输入将会工作量巨大。

问题导向又来了。薄荷君楞是找到了在 Linux 下 OCR（光学字符识别，通俗地讲就是把图片中的文字识别、复制出来）的方法，那就是本文介绍的 OCRFeeder。

虽然 2016 年就写过 OCRFeeder 的教程，但是由于薄荷开源网在 2020 年初没有备份网站数据，丢失了之前所有文章，且 OCRFeeder 现在的效率和准确率明显提升了，所以今天再次介绍 OCRFeeder 的使用，仍有必要。

首先，我们准备好需要识别的图片。当然，如果是 PDF 文档，OCRFeeder 并不能直接识别，可以参阅前文《图像魔术：ImageMagick轻松转换PDF和图片》，把 PDF 文档转化为图片后即可识别。

然后安装 OCRFeeder 和 OCR 识别引擎。其实 OCRFeeder 只是一个 GUI 前端软件，后端调用著名的开源的 Tesseract 引擎进行识别。以 LinuxMint 20.x/Ubuntu 20.04 为例，我们可以直接在软件仓库里安装 OCRFeeder 和 Tesseract 的简体中文数据，它会自动安装 Tesseract 引擎。

sudo apt install ocrfeeder tesseract-ocr-chi-sim