微軟公司在北京的研究人員正在使用從網(wǎng)上搜集的數(shù)據(jù)﹐來完善一個在線英-漢辭典與語言練習(xí)服務(wù)。 這種技術(shù)有朝一日可能會被用在類似的工具當(dāng)中﹐供任何人學(xué)習(xí)任何語言使用。
這個服務(wù)名為“英庫”(字面意為“英語文庫”﹐網(wǎng)址:www.engkoo.com)﹐其核心是專業(yè)機(jī)構(gòu)生產(chǎn)的翻譯數(shù)據(jù)﹐由微軟從已發(fā)行辭書等渠道獲得﹐其使用獲得了相關(guān)出版機(jī)構(gòu)的許可。 在英庫的數(shù)據(jù)庫里﹐這些內(nèi)容同微軟經(jīng)由其他渠道(比如在網(wǎng)上尋找中英雙語網(wǎng)站)獲得的數(shù)據(jù)混合在一起。 微軟的機(jī)器把中文版和英文版網(wǎng)站及其段落、句子和單詞進(jìn)行匹配﹐然后對由此形成的譯文進(jìn)行質(zhì)量排行﹐并存檔。 英庫入圍了今年的“亞洲創(chuàng)新獎”。
用戶往英庫的輸入框里鍵入一個詞匯或句子時﹐不管是中文還是英文﹐網(wǎng)站都會從數(shù)據(jù)庫里提取資料﹐給出這個詞匯或句子的譯文。 它還顯示使用類似詞匯的例句﹐在很多情況下還提供指向出處的鏈接。
微軟亞洲研究院一開發(fā)小組的負(fù)責(zé)人斯科特
研究人員說﹐從網(wǎng)上獲取譯文有助于數(shù)據(jù)庫同不斷變化的語言保持同步﹐比如新的口頭語或科技術(shù)語。 英庫用戶還可以舉報看起來不對的翻譯。 如果有嚴(yán)重錯誤﹐會由編輯予以糾正﹐可以的話還會改進(jìn)技術(shù)﹐防止問題再次發(fā)生。 微軟亞洲研究院(Microsoft Research Asia)一個開發(fā)小組的負(fù)責(zé)人斯科特(Matt Scott)說﹐這是一個可以變得越來越智能的系統(tǒng)﹐我們希望譯文反映網(wǎng)上的情況。
讓統(tǒng)計機(jī)器學(xué)做翻譯服務(wù)﹐目前受到了廣泛的研究﹐也在谷歌翻譯(Google Translate)等其他一些網(wǎng)站得到了運用。 但英庫的研究人員們也在利用其他技術(shù)來擴(kuò)展網(wǎng)站語言練習(xí)工具的范圍。 網(wǎng)站上很多英語例句用戶都可以聽到語音朗讀﹐而這些語音﹐則是由機(jī)器以所搜集到的語音文件(英語為母語的人士說話)為基礎(chǔ)而生成的。 語音朗讀意在摹仿人聲的聲調(diào)變化﹐但實際上還趕不上自然語音的抑揚頓挫。
微軟的研究人員還在為英庫開發(fā)一個視頻朗讀功能。 網(wǎng)站上已經(jīng)有了幾個視頻﹐其創(chuàng)建方式與語音朗讀功能類似﹐即由一臺機(jī)器匯集一位英語人士講話的視頻片斷。 其目標(biāo)是讓用戶能夠觀看英語為母語的人士在閱讀時的嘴唇運動﹐并從中學(xué)習(xí)﹐盡管每一個視頻都是機(jī)器生成的。
舌頭的運動對于發(fā)音也很關(guān)鍵﹐但常?床坏僵o所以研究人員正在搜集超聲波數(shù)據(jù)﹐以便在英庫上面生成一系列類似的視頻。 微軟亞洲研究院主任研究員宋歌平說﹐一個辦法是把黑白版的超聲波錄像轉(zhuǎn)變?yōu)楦游说膭赢嫨o讓用戶看到母語為英語的人在說一句話時﹐其舌頭究竟是怎樣運動的。
微軟方面說﹐英庫于去年上線﹐每月訪客數(shù)量超過400萬。 斯科特說﹐微軟研究人員另外也在開發(fā)一款英庫手機(jī)應(yīng)用軟件﹐提供給裝載微軟操作系統(tǒng)的手機(jī)使用﹐用于其他操作系統(tǒng)手機(jī)的應(yīng)用程序也在考慮之中。
微軟亞洲研究院技術(shù)戰(zhàn)略總監(jiān)張益肇說﹐微軟Bing搜索引擎的中國版“必應(yīng)”上已經(jīng)有英庫的鏈接﹐研究人員們也在同微軟的同事們討論﹐看其他還有哪些產(chǎn)品也可以把英庫整合進(jìn)去。
英庫在線版是免費的。 但英庫手機(jī)應(yīng)用是不是免費﹐或者是不是有可能包含廣告? 對此﹐微軟研究院一位發(fā)言人拒絕置評。 使用英庫的人可能也使用必應(yīng)﹐而這最終有可能幫助微軟提升廣告收入。
微軟的研究人員們還打算開發(fā)其他語言版本的英庫﹐包括日語和英語。 張益肇說﹐他們還有一個目標(biāo)是推出一個幫助說英語的人學(xué)習(xí)漢語的版本﹐但目前公司的研究還是集中在中文和英文的轉(zhuǎn)換上面。
張益肇認(rèn)為﹐英庫上面采用的一系列技術(shù)朝著打破語言樊籬的方向邁出了一步。 隨著技術(shù)的繼續(xù)進(jìn)步﹐到某一天﹐一個說英語的人或許就能夠去中國的大學(xué)聽普通話課﹐講課的內(nèi)容理解起來也沒有障礙。
張益肇說﹐你可以就坐在那里﹐然后你的手機(jī)實際上是在做同聲傳譯﹔科技真的可以起到減少語言使用障礙的作用﹐所以英庫無疑是我們獲得更多反饋的一種方式﹐看人們究竟可以怎樣利用科技來減少這種障礙。