當前位置:電腦軟件 > 圖形圖像 > 圖片轉換 > tesseract-ocrv4.0.0

tesseract-ocrv4.0.0

大?。?0.7MB語言:簡體中文類別:圖片轉換

類型:國產(chǎn)軟件授權:免費軟件時間:2019/6/1

官網(wǎng):

環(huán)境:Windows10,Windows8,Windows7,WinVista,WinXP

安全檢測:無插件360通過騰訊通過金山通過瑞星通過

本地下載

tesseract-ocr是一款免費的開源圖像OCR文字識別軟件。你只要提供他一個命令,它就能根據(jù)你的命令將你想要識別的圖片中的文字轉換成文本的形式。到目前為止,它已經(jīng)支持簡體中文、繁體中文、英文、日文、韓文等等60多種語言的識別。并隨著大家對它功能上的要求在不斷改進、不斷消除bug、優(yōu)化功能。有需要的朋友歡迎前來下載tesseract ocr 中文版,小編在安裝包還未大家附上了中文包哦!
tesseract-ocr

安裝教程

1、在本站下載解壓好安裝包,雙擊運行“tesseract-ocr-setup-3.02.02.exe”tesseract ocr 中文版開始安裝軟件,點擊“是”。

2、根據(jù)下面圖片上的教程,連續(xù)點擊“next”。




3、到了語言庫的選擇,你要使用到哪種語言就勾選哪種,默認是一種都不勾選,然后點擊“next”。

4、然后點擊“install”,開始正式安裝,安裝完成之后點擊“next”。


5、全部安裝完成點擊“finish”,tesseract ocr 中文版安裝結束。

6、檢驗是否安裝成功,運行(win+R)—輸入“cmd”—輸入“tesseract”,然后會出現(xiàn)下圖所示的的情況那就是安裝成功了。


使用教程

基本使用介紹
1、我準備了一張驗證碼1.jpg放置在D盤的根目錄下,驗證碼圖:
2、然后輸入“D:”,回車,輸入“tesseract 1.jpg result”,意思為:識別D盤中1.jpg圖片中的內容,將結果輸出到result.txt的文件中。

3、結果如圖說是:

Tesseract-OCR識別中文與訓練字庫使用介紹
一、準備工作
1、下載引擎,注意要3.0以上才支持中文哦,按照提示安裝就行。
2、下載chi_sim.traindata字庫。要有這個才能識別中文。下好后,放到項目的tessdata文件夾里面。
3、下載jTessBoxEditor,這個是用來訓練字庫的。
以上的幾個在百度都能找到下載,就不詳細講了。

二、識別
1、進入cmd,進入到要識別的圖片的路徑下。
2、輸入命令

例如我的圖片識別就是:


識別完后會生成result.txt文件

當然啦效果不太理想。所以我們要訓練自己的字庫。
三、訓練
1、將圖片轉換成tif格式,用于后面生成box文件??梢酝ㄟ^畫圖,然后另存為tif即可。
更改圖片名字,這個是有要求的
tif文面命名格式[lang].[fontname].exp[num].tif
lang是語言 fontname是字體 
比如我們要訓練自定義字庫 mjorcen字體名normal
那么我們把圖片文件重命名 mjorcen.normal.exp0.jpg在轉tif。
2、生成box文件。


box文件和對應的tif一定要在相同的目錄下,不然后面打不開。
3、打開jTessBoxEditor矯正錯誤并訓練
打開train.bat

找到tif圖,打開,并校正。

4、訓練。
只要在命令行輸入命令即可。

在這我明明已經(jīng)矯正好了,但是還是有1個字符不能識別出來,報的錯跟實際上完全沒有相關性,不知道是不是bug,到后面的結果就是“園”字沒有識別出來。
先不管,畢竟只有一個樣本。
新建一個font_properties文件
里面內容寫入 normal 0 0 0 0 0 表示默認普通字體
繼續(xù)敲命令

最后會生成五個文件,把目錄下的unicharset、inttemp、pffmtable、shapetable、normproto這五個文件前面都加上normal.
如圖:

命令行輸入,合并五個文件:

得到訓練好的字庫。

四、測試
1、把 normal.traineddata 復制到Tesseract-OCR 安裝目錄下的tessdata文件夾中
2、識別命令:

3、效果

對比:

總結:肯定要自己訓練過后的字庫識別效果好,接下來要把整個項目弄進android,還要研究怎么將多個字庫合并成一個字庫,因為我不可能一次訓練完所有的圖片文字的。到時候有什么成果了再分享博文。希望大家可以點贊!謝謝。
更新:沒有錯誤的話命令行的提示應該是這樣的

附錄

Usage:tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]
pagesegmode values are:
0 = Orientation and script detection (OSD) only.
1 = Automatic page segmentation with OSD.
2 = Automatic page segmentation, but no OSD, or OCR
3 = Fully automatic page segmentation, but no OSD. (Default)
4 = Assume a single column of text of variable sizes.
5 = Assume a single uniform block of vertically aligned text.
6 = Assume a single uniform block of text.
7 = Treat the image as a single text line.
8 = Treat the image as a single word.
9 = Treat the image as a single word in a circle.
10 = Treat the image as a single character.
-l lang and/or -psm pagesegmode must occur before anyconfigfile.
tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]
tesseract    圖片名  輸出文件名 -l 字庫文件 -psm pagesegmode 配置文件
例如:
tesseract 1.jpg result  -l chi_sim -psm 7 nobatch
-l chi_sim 表示用簡體中文字庫(需要下載中文字庫文件,解壓后,存放到tessdata目錄下去,字庫文件擴展名為  .raineddata 簡體中文字庫文件名為:  chi_sim.traineddata)
-psm 7 表示告訴tesseract 1.jpg圖片是一行文本  這個參數(shù)可以減少識別錯誤率.  默認為 3
configfile 參數(shù)值為tessdataconfigs 和  tessdatatessconfigs 目錄下的文件名

特別說明

提取碼:35kx提示:該資源為網(wǎng)盤資源,請?zhí)崆鞍惭b好百度網(wǎng)盤。

ocr文字識別軟件哪個好 共收集33款軟件

ocr文字識別軟件是一款光學字符識別軟件,它能夠將圖像上的文字通過識別轉換為電子文檔進行保存,不管是報紙、雜志還是手寫字體等等多種類型的的資料都可以進行編譯識別。不但如此,它還可以連接手機、相機等設備對乳香文件進行識別,在語言方面也是支持簡體中文、英文、韓文等等多種語言。軟件學堂提供ocr文字識別軟件免費下載,有需要的朋友可以來下載試試ocr文字識別軟件哪個好。

語音識別軟件推薦 共收集45款軟件

語音識別軟件是指將語音音頻等識別為文字的軟件,有時候需要翻譯別人發(fā)來的語音,這時候用語音識別軟件一鍵識別,轉換為可以編輯的文字,再進行轉發(fā)和轉載等操作,實用性很強,適用于語音文字編輯者,比如新聞媒體行業(yè),現(xiàn)在網(wǎng)語音識別軟件種類非常多,那么語音識別軟件哪個好呢?小編精心挑選了幾十款優(yōu)秀的語音識別軟件,有需要的朋友請下載使用。

下載地址
tesseract-ocrv4.0.0
提取碼:35kx提示:該資源為網(wǎng)盤資源,請?zhí)崆鞍惭b好百度網(wǎng)盤。

有問題?點擊報錯+投訴+提問

網(wǎng)友評論

0條評論

評分:
captcha 評論需審核后才能顯示

實時熱詞