CapsWriter離線識別語音輸入工具是一款綠色的語音輸入類型的工具,能夠輔助個人在PC上面完成語音輸入的內(nèi)容,并且支持離線識別的功能,在你下載好相關模型的請款之下能夠輕松的進行使用,滿足個人用戶對于語音輸入的需求,快來西西下載CapsWriter離線識別語音輸入工具!
CapsWriter離線識別語音輸入工具
這是 CapsWriter 簡陋的離線版,一個 PC 端的語音輸入工具。
運行后,只要按下鍵盤上的 大寫鎖定鍵,就會開始錄音,當你松開 大寫鎖定鍵 時,就會識別你的錄音,并將識別結果立刻輸入。
安裝說明
安裝 Python 后,在 cmd 窗口進入本文件夾,運行 pip install -r requirements.txt 安裝依賴
sherpa-onnx-bin 文件夾中已經(jīng)放置了在 Win10-64 端預先編譯的 sherpa-onnx 二進制。
其它系統(tǒng)暫時需要按照 sherpa-onnx — sherpa 1.2 documentation 編譯后,放入 sherpa-onnx-bin 文件夾。
運行和使用
運行 01sherpa-onnx-server.py 腳本,會載入 Paraformer 模型識別模型(這會占用1GB的內(nèi)存,載入時長約十幾秒)
運行 02-CapsWriter-client.py 腳本,它會打開系統(tǒng)默認麥克風,開始監(jiān)聽按鍵
按住 CapsLock 鍵,錄音開始,松開 CapsLock 鍵,錄音結束,識別結果立馬被輸入(錄音時長短于0.3秒不算)
注意事項
目前使用的模型是 Paraformer 非實時模型,即錄完再轉,因此錄音時間越長,上屏延遲越大。
主流性能的 Windows 筆記本,RTF 大約 0.06,即大約每 10s 錄音需 0.6s 轉錄時長。
本地模型對算力要求非常低,基本無需擔心性能問題
暫不支持標點符號,暫不支持逆標準化(如把中文數(shù)字轉阿拉伯數(shù)字)
為方便用戶檢查錄音質量、識別效果,腳本默認開啟了保存錄音,所有都被保存在了 audios 文件夾