Text-R可以識別PDF文件和圖像中的文本,并立即將其轉換為任何用戶級別的可編輯文檔。文本可以保存在新的可編輯PDF或RTF文檔(Word)中。格式保持接近原始格式,因此在大多數情況下,不需要后期處理。有需要的小伙伴歡迎來西西下載體驗。
軟件簡介:
Text-R能夠用于識別PDF文檔中的文本和識別圖像文件中的文本!從掃描的紙質文檔制成的PDF文件和圖像包含無法復制或編輯的文本。 但是,由于文檔數量大,以及相關的高時間花費,省去了手動重新鍵入內容。該軟件還可以識別PDF文件和圖片中的文本,即使對于外行也是如此。 文本可以保存在新的可編輯PDF或RTF文檔(Word)中。 格式保持接近原始格式,因此在大多數情況下,不需要后處理。集成的詞典和專業(yè)的OCR過濾器可確保文本識別的高精度。 因此,也可以識別偏斜的文本和旋轉的文檔。
使用幫助:
一、檢測PDF文檔中的文本
如果要識別和提取PDF文檔中的文本,請單擊“檢測PDF文檔中的文本”按鈕。
步驟1:選擇PDF文件
有兩種選擇PDF文檔進行文本識別的選項:
1、拖放
通過在Windows資源管理器中單擊鼠標左鍵并按住不放,然后將其拖到Text-R窗口中,將PDF文檔從Windows資源管理器中拖到Text-R的灰色拖放區(qū)域中。
如果操作成功,則將PDF文檔加載并顯示在Text-R中。
2、選擇文件
使用Windows已知的“文件打開”對話框來手動選擇PDF文檔。 選擇所需的文檔,然后單擊“打開”。
如果要從Text-R刪除加載的PDF文檔,請單擊“重置”。
二、檢測圖像文件中的文本
如果要從圖像文件中識別和提取文本,請單擊“在圖像文件中檢測文本”按鈕。
步驟1:選擇圖片文件
選擇圖片文件進行文本識別有兩個選項:
1、拖放
通過在Windows資源管理器中單擊鼠標左鍵并按住不放并將其拖到Text-R窗口中,將圖像文件從Windows資源管理器拖到Text-R的灰色拖放區(qū)域中。
如果操作成功,則將圖像文件加載并顯示在Text-R中。
2、選擇文件
使用Windows打開文件對話框手動選擇圖像文件。 選擇所需的文件,然后單擊“打開”。
回報
如果要從Text-R刪除加載的圖像文件,請單擊“重置”。
三、定義設置
在第二步中,指定用于文本識別的設置。
OCR選項
Text-R提供了各種OCR選項,以增加和提高文本識別的識別率。
掃描條碼
如果要讀取條形碼的內容(文本和鏈接)并以純文本顯示,請激活“掃描條形碼”按鈕。
識別/校正歪斜圖像
如果Text-R還應該檢測并糾正歪斜的文本段落(例如由于掃描不準確),則激活“檢測/糾正歪斜的圖像”復選框。
識別旋轉(90°/ 180°/ 270°)
如果Text-R應該識別旋轉的文檔并且應閱讀其內容,請選中旋轉(90°/ 180°/ 270°)。
使用干涉濾光片
如果Text-R應該優(yōu)化臟的掃描文檔和圖像并讀取其內容,請激活選項“應用噪聲過濾器”。
檢測/刪除線
激活“檢測/刪除行”選項以檢測和刪除行。
注意:建議您在保存后手動添加行。
正確的混合字符
如果您希望Text-R刪除/更正掃描單詞中發(fā)現的數字,請選中“更正混合字符”選項。同樣,將刪除找到的數字中包含的字母/字符,這不符合數字格式。
使用字典
如果要檢查詞典中是否存在已識別的單詞,請激活“使用詞典”選項,并在必要時進行更正。
文字語言
為了使識別過程盡可能準確,您應該指定源文檔的文本語言。 例如,Text-R可以使用集成到所選語言中的詞典來檢查已識別單詞在詞典中是否存在。
四、文字識別
在第三步中,檢查源文檔,并在未格式化的預覽中顯示已識別的文本。
源
在“源”區(qū)域中,可能會顯示源文件的經過OCR優(yōu)化的變體?s小和放大圖標允許調整源的大小。
如果文檔由多頁組成,則可以通過頁面選擇元素選擇要顯示的頁面。
預覽(未格式化)
預覽顯示源文檔所選頁面的識別文本。您可以比較源和預覽,如果對文本識別的結果不滿意,則可以根據需要更正上一頁的CRC選項。
注意:預覽未格式化,僅顯示可識別的文本。它僅用于測試不同的OCR條件。
保存文件
要將檢測到的文本保存在新文檔中,請單擊“保存文檔”按鈕。
目標文檔可以保存為PDF,PDF / A,RTF,TXT和XML格式。我們建議保存為PDF格式,因為文本的格式和位置應盡可能與原始文檔的格式和位置相對應。
更新日志:
版本:1.1
新功能:
+多國語言支持