Error opening data file /usr/share/tesseract-ocr/4.00/tessdata/chi_sim.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
Failed loading language 'chi_sim'
Tesseract Open Source OCR Engine v4.1.1 with Leptonica
这个错误提示表明 Tesseract 无法找到 chi_sim.traineddata
文件,也就是简体中文的语言数据文件。要解决这个问题,你可以按照以下步骤操作:
tessdata
目录的位置首先,确认 Tesseract 的 tessdata
目录中是否已经存在 chi_sim.traineddata
文件。默认情况下,这个目录可能位于 /usr/share/tesseract-ocr/4.00/tessdata/
或 /usr/share/tessdata/
。
chi_sim.traineddata
文件如果你没有 chi_sim.traineddata
文件,你需要手动下载。你可以从 Tesseract 的 GitHub 仓库下载简体中文的训练数据:
bashwget https://github.com/tesseract-ocr/tessdata/blob/main/chi_sim.traineddata -O /path/to/tessdata/chi_sim.traineddata
将 /path/to/tessdata/
替换为你系统中实际的 tessdata
目录路径。
或者下载gitee这里的:
csharpgit clone https://gitee.com/superaskar/tessdata.git
TESSDATA_PREFIX
环境变量如果你的 tessdata
目录不在默认路径下,或者 Tesseract 无法找到这个目录,你需要设置 TESSDATA_PREFIX
环境变量,使其指向正确的 tessdata
目录:
bashexport TESSDATA_PREFIX=/path/to/tessdata/
再次执行 OCR 命令:
bashtesseract 1.png output --oem 1 -l chi_sim+eng
tessdata
目录中的文件是否正确最后,确保你在 tessdata
目录中确实有 chi_sim.traineddata
文件,并且文件名称拼写正确。
通过下载并配置好语言数据文件,以及设置正确的环境变量,你应该能够顺利使用 Tesseract 进行中英文混合文本的识别。如果问题仍然存在,建议检查 tessdata
目录中的文件权限,确保 Tesseract 可以读取这些文件。
本文作者:Dong
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!