Umi-OCR文字識別工具軟件是一款免費(fèi)開源可批量的離線OCR軟件,解壓即用,離線運(yùn)行,無需網(wǎng)絡(luò)。采用 PaddleOCR-json C++ 識別引擎。只要電腦性能足夠,通常比在線OCR服務(wù)更快。默認(rèn)使用PPOCR-v3模型庫。除了能準(zhǔn)確辨認(rèn)常規(guī)文字,對手寫、方向不正、雜亂背景等情景也有不錯(cuò)的識別率?稍O(shè)置忽略區(qū)域排除水印、設(shè)置文塊后處理合并排版段落,得到規(guī)整的文本。
軟件說明
全新升級:版本重構(gòu)了絕大部分代碼,提供煥然一新的界面和更強(qiáng)大的功能。
免費(fèi):本項(xiàng)目所有代碼開源,完全免費(fèi)。
方便:解壓即用,離線運(yùn)行,無需網(wǎng)絡(luò)。
高效:自帶高效率離線OCR引擎。只要電腦性能足夠,可以比在線OCR服務(wù)更快。
靈活:支持定制界面,支持命令行、HTTP接口等多種調(diào)用方式。
軟件特色
標(biāo)簽頁
由一系列靈活好用的標(biāo)簽頁組成。您可按照自己的喜好,打開需要的標(biāo)簽頁,并鎖定標(biāo)簽欄。
截圖OCR
截圖OCR:打開這一頁后,就可以用快捷鍵喚起截圖,識別圖中的文字。
左側(cè)的圖片預(yù)覽欄,可直接用鼠標(biāo)劃選復(fù)制。
右側(cè)的識別記錄欄,可以編輯文字,允許劃選多個(gè)記錄復(fù)制。
也支持在別處復(fù)制圖片,粘貼到Umi-OCR進(jìn)行識別。
批量OCR
批量OCR:這一頁支持批量導(dǎo)入本地圖片并識別。
識別內(nèi)容可以保存為 txt / jsonl / md / csv(Excel) 等多種格式。
支持文本后處理技術(shù),能識別屬于同一自然段的文字,并將其合并。還支持代碼段、豎排文本等多種處理方案。
沒有數(shù)量上限,可一次性導(dǎo)入幾百張圖片進(jìn)行任務(wù)。
支持任務(wù)完成后自動(dòng)關(guān)機(jī)/待機(jī)。
忽略區(qū)域:一種特殊功能,適用于排除圖片中的不想要的文字。
在批量識別頁的右欄設(shè)置中可進(jìn)入忽略區(qū)域編輯器。
如上方樣例,圖片頂部和右下角存在多個(gè)水印 / LOGO。如果批量識別這類圖片,水印會(huì)對識別結(jié)果造成干擾。
按住右鍵,繪制多個(gè)矩形框。這些區(qū)域內(nèi)的文字將在任務(wù)中被忽略。
請盡量將矩形框畫得大一些,完全包裹住水印所有可能出現(xiàn)的位置。
二維碼
二維碼:這里可以掃碼。
支持多種格式的二維碼、條形碼。
支持一圖多碼。
可截圖/粘貼/拖入本地圖片。
全局設(shè)置
全局設(shè)置:在這里可以調(diào)整軟件的全局參數(shù)。
支持更改界面語言。(翻譯校對工作將在第一個(gè)正式版發(fā)布后進(jìn)行)
支持切換界面主題。Umi-OCR擁有多個(gè)亮/暗主題。
可以調(diào)整界面文字大小、文字字體。
切換OCR插件。
輔助功能說明:
多國語言界面:軟件界面支持多國語言。目前預(yù)覽階段為AI翻譯生成,可能詞義和排版不好,或者有錯(cuò)漏的情況。正式發(fā)布時(shí)會(huì)進(jìn)行人工校對。
渲染器:軟件界面默認(rèn)支持顯卡加速渲染。但是如果在你的機(jī)器上出現(xiàn)截屏閃爍、UI錯(cuò)位的情況,請調(diào)整全局設(shè)置→界面和外觀→渲染器。
文本塊后處理(段落合并)可以整理OCR結(jié)果的排版和順序,使文本更適合閱讀和使用。預(yù)設(shè)方案如下:
單行:合并同一行的文字,適合絕大部分情景。
多行-自然段:智能識別、合并屬于同一段落的文字,適合絕大部分情景。
多行-代碼段:盡可能還原原始排版的縮進(jìn)與空格。適合識別代碼片段,或需要保留空格的場景。
豎排:適合豎排排版。需要與同樣支持豎排識別的模型庫配合使用。
簡單上手
準(zhǔn)備
下載壓縮包并解壓全部文件即可。
截圖識別
點(diǎn)擊截圖按鈕或自定義快捷鍵,喚起截圖識別。
粘貼圖片到軟件
在任何地方(如文件管理器,網(wǎng)頁,微信)復(fù)制圖片,軟件上點(diǎn)擊粘貼按鈕,自動(dòng)識別。
批量識別本地圖片文件
將圖片或文件夾拖進(jìn)軟件,批量轉(zhuǎn)換文字。也可以點(diǎn)擊按鈕打開瀏覽窗口導(dǎo)入。
識別結(jié)果將保存到本地?蛇x生成純文本txt文件、帶鏈接Markdown文件、原始信息jsonl文件等不同格式?膳渲萌蝿(wù)完成后執(zhí)行關(guān)機(jī)/待機(jī)。
文本塊后處理(排版優(yōu)化)
OCR識別出的文本是按“塊”劃分的,通常一行文字分為一塊,有時(shí)還會(huì)將一行誤劃分為多塊,這給閱讀帶來了不便。文本塊后處理就是對文本塊進(jìn)行再加工的過程,合并同一行或同一段落內(nèi)的文字,按正確的順序排序。
下圖表示不同排版應(yīng)該選用何種處理方案:
所有方案一覽:
橫排-優(yōu)化單行
將誤劃分為多塊的同一行文字合并到一行。
橫排-合并多行-左對齊
將多個(gè)左對齊的行視為同一段落,合并文字。左側(cè)未對齊或行距過大的行視為下一段落。
橫排-合并多行-自然段
將多個(gè)左對齊的行視為同一段落,且第一行的開頭允許多空出兩個(gè)全角空格的寬度。
橫排-合并多行-模糊匹配
只要垂直投影有重疊,行高一致,距離較近的文本塊,視為同一段落。
豎排-從左到右-單行 / 豎排-從右至左-單行
優(yōu)化豎排識別,合并同一行文字,按從左到右或從右到左的順序輸出每一行。 注意,必須搭配支持豎排識別的模型庫(識別語言)一起使用。
可視化預(yù)覽:
可以在忽略區(qū)域編輯器內(nèi)預(yù)覽文本塊后處理的效果。編輯器中以虛線框標(biāo)出識別到、經(jīng)過后處理的文字塊。
這里僅僅是借用了編輯器來展示后處理的效果,實(shí)際運(yùn)行任務(wù)時(shí) 忽略區(qū)域機(jī)制 早于 后處理機(jī)制 執(zhí)行,不受后處理的影響。
忽略區(qū)域功能
忽略區(qū)域是本軟件特色功能,可用于排除圖片中水印的干擾,讓識別結(jié)果只留下所需的文本。
更新日志
新增:記憶窗口位置。
新增:批量識圖頁增加圖片預(yù)覽窗口,單擊圖片條目打開。
新增:檢查軟件是否有權(quán)限讀寫配置文件。
新增:報(bào)錯(cuò)彈窗提供一鍵復(fù)制及打開issues的功能。
新增:全局設(shè)置頁添加左側(cè)目錄欄。
新增:插件的多國語言UI機(jī)制。
優(yōu)化:截圖預(yù)覽面板中,文本框的位置更準(zhǔn)確。
優(yōu)化:調(diào)整部分UI布置。
修復(fù):掃碼模塊添加導(dǎo)入異常檢查。
修復(fù):補(bǔ)充掃碼頁的拖入圖片功能。
修復(fù):輸出到單獨(dú)文件txt時(shí),文件名去除原后綴。
修復(fù):一些小Bug。