作者:超_级如新公司 | 来源:互联网 | 2017-09-29 03:42
tesseract-ocr是开源的光学字符识别引擎,有Google的支持,支持很多种语言的识别,下面说一下我在Ubuntu下安装步骤其实官方文档上说的很细,下面列出其中的命令,sudoapt-getinstallautoconfautomakelibtoolsudoapt-
tesseract-ocr是开源的光学字符识别引擎,有Google的支持,支持很多种语言的识别,下面说一下 我在Ubuntu下安装步骤
其实官方文档上说的很细,下面列出其中的命令,
- sudo apt-get install autoconf automake libtool
- sudo apt-get install libpng12-dev
- sudo apt-get install libjpeg62-dev
- sudo apt-get install libtiff4-dev
- sudo apt-get install zlib1g-dev
注意最后一个zlib1g-dev中的1g是数字1,而不是小写字母l,
- sudo apt-get install libleptonica-dev
下载源文件包解压(目前是3.0),进入目录
- ./runautoconf
- ./configure
- make
- sudo make install
下载语言数据包解压:你可以在这找到更多的语言包
- gzip -d eng.traineddata.gz
移动到数据包安装目录下,默认为 /usr/local/share/tessdata
- mv eng.traineddata /usr/local/share/tessdata
-
- export TESSDATA_PREFIX=/usr/local/share/
安装图片格式转换工具,因为tesseract只识别tif格式的图片。
- apt-get install imagemagick
你可以使用下面的命令转换图片
好了,测试一下吧
- tesseract [-l lang] [configs]
-
- tesseract a.tif a
默认为英语,如果你要识别其它语言请使用-l 参数指定,如
- tesseract a.tif a -l chi_sim
-
- cat a.txt
你将会看到识别出的文字,太棒了。好了,下面就可以用程序去调用识别文字了,
对于java你也可以使用tess4j封装的API,对于PHP你可以使用exec调用再对文件进行处理,
如果你遇到 lib **.so 找不到请运行