2024-09-01
Linux运维
00

目录

tesseract 1.png output --oem 1 -l chi_sim+eng
1. 确认 tessdata 目录的位置
2. 下载 chi_sim.traineddata 文件
3. 设置 TESSDATA_PREFIX 环境变量
4. 确认 tessdata 目录中的文件是否正确
结语

tesseract 1.png output --oem 1 -l chi_sim+eng

Error opening data file /usr/share/tesseract-ocr/4.00/tessdata/chi_sim.traineddata

Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.

Failed loading language 'chi_sim'

Tesseract Open Source OCR Engine v4.1.1 with Leptonica

这个错误提示表明 Tesseract 无法找到 chi_sim.traineddata 文件,也就是简体中文的语言数据文件。要解决这个问题,你可以按照以下步骤操作:

1. 确认 tessdata 目录的位置

首先,确认 Tesseract 的 tessdata 目录中是否已经存在 chi_sim.traineddata 文件。默认情况下,这个目录可能位于 /usr/share/tesseract-ocr/4.00/tessdata//usr/share/tessdata/

2. 下载 chi_sim.traineddata 文件

如果你没有 chi_sim.traineddata 文件,你需要手动下载。你可以从 Tesseract 的 GitHub 仓库下载简体中文的训练数据:

bash
wget https://github.com/tesseract-ocr/tessdata/blob/main/chi_sim.traineddata -O /path/to/tessdata/chi_sim.traineddata

/path/to/tessdata/ 替换为你系统中实际的 tessdata 目录路径。

或者下载gitee这里的:

csharp
git clone https://gitee.com/superaskar/tessdata.git

3. 设置 TESSDATA_PREFIX 环境变量

如果你的 tessdata 目录不在默认路径下,或者 Tesseract 无法找到这个目录,你需要设置 TESSDATA_PREFIX 环境变量,使其指向正确的 tessdata 目录:

bash
export TESSDATA_PREFIX=/path/to/tessdata/

再次执行 OCR 命令:

bash
tesseract 1.png output --oem 1 -l chi_sim+eng

4. 确认 tessdata 目录中的文件是否正确

最后,确保你在 tessdata 目录中确实有 chi_sim.traineddata 文件,并且文件名称拼写正确。

结语

通过下载并配置好语言数据文件,以及设置正确的环境变量,你应该能够顺利使用 Tesseract 进行中英文混合文本的识别。如果问题仍然存在,建议检查 tessdata 目录中的文件权限,确保 Tesseract 可以读取这些文件。

如果对你有用的话,可以打赏哦
打赏
ali pay
wechat pay

本文作者:Dong

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!