MockingBird中文語音克隆工具是一個實時克隆中文聲音的AI工具,五秒克隆你的聲音,已整合訓練好的模型,不需要特別高的配置和IT水平,基于SV2TTS的項目Real Time Voice Cloning已在Github上開源,號稱只需要你的5秒種音頻就能克隆你的聲音,Python開發(fā),提取、錄制、調(diào)試、訓練一體化GUI操作。
軟件說明
全程都是用AI模擬自己的語音生成音頻內(nèi)容,完全沒有人工參與,模擬的聲音也像模像樣的,感興趣的可以看看要不要自己也訓練一個
據(jù)說,像柯南中那種變聲器的功能可以借此實現(xiàn),所以功能是蠻強大的
使用說明
環(huán)境要求
python3.7及以上
理論支持Windows 7及以上 (建議 win8+,過老版本不保證兼容性)
親測win2012,win10完美運行
如果在用 pip 方式安裝的時候出現(xiàn) ERROR: Could not find a version that satisfies the requirement torch==1.9.0+cu102 (from versions: 0.1.2, 0.1.2.post1, 0.1.2.post2) 這個錯誤可能是 python 版本過低,3.9 可以安裝成功
安裝步驟
請勾選add python to path,否則需要手動配置環(huán)境變量
請保持網(wǎng)絡暢通,若斷網(wǎng)報錯請重新執(zhí)行安裝依賴.bat
使用教程
1.browse選擇一段3-15秒的語音,wav格式,最好單聲道,吐字清晰,沒有雜音,不宜過長
親測網(wǎng)課直播錄屏,發(fā)語音,在安靜條件錄音等音質(zhì)較好,而在公共環(huán)境比如舞臺,KTV等錄音音質(zhì)較差
不是所有語音都能夠完美克隆,親測在網(wǎng)課放老師的聲音以假亂真,但像麥小兜派蒙雷米等蘿莉音效果不理想
可以使用音頻編輯工具例如au進行預處理降噪
如圖所示,頻譜規(guī)則的音頻克隆效果較好
2.在右上角輸入文本,僅支持中文,不要有阿拉伯數(shù)字,英文請使用諧音自行解決哈
3.選擇vocoder,推薦Griffin-Lim,點擊Synthesize and vocode試聽,之后點擊export導出音頻
提取碼:52pj