1 说明
1.1 Tesseract
1.1.1 是目前公认最优秀、最精确的开源 OCR 系统 。
1.1.2 目前由 Google 赞助 。
1.1.3 优点:极高的精确度 , 很高的灵活性 , 还可以通过训练识别出任何字体 , 也可以识别出 Unicode 字符 。
1.2 python的tesseract进行有关库:有2个 。
1.2.1 tesserocr和pytesseract是Python的2个OCR识别库 。
1.2.2 tesserocr和pytesseract的核心都是tesseract 。
1.3 内容
1.3.1 tesseract , tesserocr和pytesseract的安装 。
1.3.2 基本使用教程 , 入门级 , 讲解清楚 , 一秒入门 , 适合收藏 。
2 tesseract安装
2.1 本机是deepin-linux操作系统 , 安装方法如下:
#在Ubuntu、Debian和Deepin系统下 , 安装命令如下:sudo apt-get install -y tesseract-ocr libtesseract-dev libleptonica-dev
2.2 查看默认安装语言:没有中文
tesseract --list-langs
结果:
List of available languages (3):osdengequ
2.3 中文等语言包的安装:
2.3.1 方法一:
git clone https://github.com/tesseract-ocr/tessdata.git#我失败了 , 你懂的
2.3.2 方法二:
https://github.com/tesseract-ocr/tessdata#网页手动下载 , 我竟然也失败了
2.3.3 方法三:
【网站api接口对接教程 api调用异常是什么意思】自己网上搜索下载 , 好心人的资源 , 我成功了 , 自己找吧 , 有的 , 我这里就不放了 。
2.3.4 将下载的语音包解压 , 复制到
/usr/share/tesseract-ocr/tessdata下 。
2.4 再查看一下能支持的语言包 , 可以支持129种语言了 。
3 tesseract的使用
3.1 终端:
tesseract /home/xgj/Desktop/tesserocr/1.wf /home/xgj/Desktop/tesserocr/output-1
3.2 说明:1.wf识别的文字的图片 , 生成output-1.txt文件 , 默认英文识别 。
3.3 注意:识别图片不能太小 。
Error in pixGenerateHalftoneMask: pix too small: w = 150, h = 52
3.4 中文识别 , -l chi_sim代表语言为中文简体 。
tesseract /home/xgj/Desktop/tesserocr/4.wf /home/xgj/Desktop/tesserocr/output-4 -l chi_sim
4 python的tesseract封装库
4.1 安装:
pip install tesserocr pillow#默认附带安装pillow读取图片pip install pytesseract#同上 , 实际工作中 , 安装一个就可以了 , 使用相同
4.2 识别图
4.3 pytesseract的使用
4.3.1 效果图
4.3.2 代码
im
推荐阅读
- 如何找到下架的视频?什么网站可以看下架的电视剧
- 网站外链发布平台哪个好,选择高质量外链网站的方法
- 开店宝app官方网站 开店宝是干什么的
- 携程网订酒店官网 携程网站官网
- 网站推广方案范文,经典推广案例分析
- 维科手机 官方网站
- 星际争霸2经典比赛的视频都在哪个网站
- 哪里有在线学英语的机构:儿童英语入门网站推荐
- 中国品牌网站建设公司排行榜 品牌网站建设公司哪家好
- 汇泰龙官方网站 汇泰龙五金怎么样