12月19日,據《福布斯》網站報道,今年5月,當人工智能專家吳恩達(Andrew Ng)加盟百度,擔任這家公司首席科學家時,他對自己的團隊可能開發(fā)的項目守口如瓶。但是,F在,百度突然向外界揭曉了這位前谷歌研究員,也是斯坦福大學教授的最新研究成果。吳恩達及10名百度研究團隊表示,他們已經開發(fā)出一種更為準確的語音識別系統(tǒng)——百度Deep Speech。
吳恩達表示,以語音識別系統(tǒng)準確率標準衡量,百度Deep Speech系統(tǒng)要強于谷歌和蘋果等對手的系統(tǒng)。
百度Deep Speech在噪音環(huán)境中(比如汽車內和人群之中)的表現更為突出。吳恩達表示,在噪音環(huán)境下,測試顯示百度Deep Speech系統(tǒng)的出錯率要比谷歌Speech API,Wit.AI,微軟Bing Speech以及蘋果Dictation低10%多。
跟其他語音識別系統(tǒng)一樣,百度Deep Speech基于一種被稱之為“深度學習”(Deep Learning)的人工智能技術。該軟件能夠以一種非常原始形式來模仿人大腦新皮層中的神經活動,因此深度學習系統(tǒng)就能夠識別出數字形式的聲音、圖片等數據。在接受采訪時,吳恩達表示,第一代深度學習語言識別正接近極限。
百度研究團隊收集了9600個人長達7000小時語音,這些語音大多發(fā)生在安靜的環(huán)境下。然后該團隊使用了一種被稱之為“疊加”( superposition )的物理學原理,在這些語音樣本中增加了15類噪音。這樣,他們將這項語音樣本擴容成一個10萬小時的數據。然后,百度研究人員讓系統(tǒng)在噪音中識別語音。
吳恩達表示,百度Deep Speech要比目前的語音識別系統(tǒng)簡單的多,他們使用了一系列模塊,這些模塊能夠分析音素和其他語音元素。通常情況下,音素的識別需要人工設計模塊,并依靠一種名為“隱馬爾可夫模型”(Hidden Markov Models)統(tǒng)計概率系統(tǒng),該系統(tǒng)需要大量的人力來調整模型噪音和語音變異。百度系統(tǒng)則使用深度學習算法來替代這些模型,這一算法基于遞歸神經網絡,因此使得語音識別系統(tǒng)變得更為簡單。
不過,真正讓這項系統(tǒng)正常運行的背后“功臣”是百度超強新計算機系統(tǒng),該系統(tǒng)使用很多圖像處理器GPU。GPU通常應用在筆記本電腦中用于加速圖形處理。而在百度語音識別系統(tǒng)中,GPU可以讓語音識別模型運行速度變得更快、更“經濟”,該系統(tǒng)運行速度大概是吳恩達在斯坦福大學和谷歌期間所開發(fā)系統(tǒng)運行速度的40倍。
吳恩達表示:“百度語音識別系統(tǒng)要比其他基于GPU系統(tǒng)更為全面。我們正進入Speech 2.0時代,現在才是個開始!
吳恩達并未透露百度何時會將這項語音識別技術整合到百度搜索和其他服務中。不過,外界猜測百度可能會在明年某個時候將Deep Speech技術整合到百度Cool Box小服務中。
產品特點
百度首席科學家吳恩達以及由Awni Hannun領導的10人研究團隊在美國康奈爾大學圖書館網站上稱,他們已經開發(fā)出了一種新的,更為準確的語音識別系統(tǒng)Deep Speech,該系統(tǒng)使用了端對端的深度學習技術。語音識別是一項越來越重要的技術,已經被用于蘋果語音助手Siri、語音輸入功能Dictation以及谷歌語音搜索中。
吳恩達稱,按照衡量語音識別系統(tǒng)出錯率的標準基準,Deep Speech的準確性已經超越了蘋果、谷歌的語音識別系統(tǒng)。特別是在汽車或人群等噪音環(huán)境下,Deep Speech的表現更為出色。
吳恩達稱,測試顯示,在噪音環(huán)境下,Deep Speech語音識別出錯率比谷歌語音識別引擎(Google Speech API)、語音識別公司wit.ai、微軟必應語音搜索、蘋果Dictation的語音系統(tǒng)低10%以上。
嘈雜環(huán)境下識別率超谷歌蘋果
美國康奈爾大學開放存取資源庫arXiv.org發(fā)布的一篇文章稱,吳恩達攜10人組成的百度研發(fā)團隊研究出一種更準確的語音識別技術。吳恩達說,Deep Speech深度學習語音識別技術能夠超越蘋果和谷歌相關的語音識別技術。
資料圖
吳恩達指出,Deep Speech的優(yōu)勢是,在類似人群或是車內嘈雜的環(huán)境下能夠實現將近81%的辨識準確率,優(yōu)于谷歌的語音識別引擎(Google API)、Wit.AI、微軟Bing語音搜索、蘋果語音服務等。美國卡內基梅隆大學的助理研究員Ian Lane對此表示,百度的該項成果有望打破語音識別的發(fā)展格局。
據悉,百度人工智能研發(fā)團隊共收集了超過9600人、長達7000多小時的語音數據資料,大多數是安靜環(huán)境中的語音,但百度公司還加入了15種嘈雜環(huán)境中的語音樣本,如在飯館、汽車、地鐵等。
在被問到何時會將Deep Speech語音識別系統(tǒng)應用到其他研究和服務中時,吳恩達顯得很謹慎,并未透露過多,但從言辭中可知,這一天不會太遠。據猜測,Deep Speech很有可能應用于百度Cool Box產品中。