“深藍詞庫轉換”是我在閑暇時寫的一個詞庫轉換程序,實現(xiàn)了各種輸入法的用戶詞庫、網(wǎng)絡詞庫(細胞詞庫)之間的相互轉換。
目前支持的輸入法有:
PC端:
*搜狗拼音
*QQ拼音
*QQ五筆(純漢字)
*谷歌拼音
*搜狗五筆
*紫光拼音
*拼音加加
手機端:
*QQ手機拼音
*百度手機拼音
由于工作和個人的原因,所以深藍詞庫轉換很久很久沒有更新了,趁著這個國慶有時間,所以對該小程序做了下版本更新,主要更新的功能有:
1.增強了單詞注音功能。
有些詞庫是只有漢字而完全沒有拼音的詞庫,這種詞庫要轉換成我們想要的詞庫,那么就會遇到一個多音字的問題,我以前的版本就是采用簡單粗暴的辦法來對付多音字,多音字直接使用一個默認注音,或者就干脆把所有多音字的拼音都顯示出來,形成多個詞條。
現(xiàn)在我對程序進行了改進,默認維護了一個多音字的詞庫,可以自動找到大部分多音字的正確讀音。比如我們有以下這樣一個詞庫需要轉換:
音樂就是快樂
調(diào)和不能變調(diào)
我要騎我的坐騎
收藏的藏語書
剛正不阿的阿楠
子彈與彈簧
參與挖人參計劃
三人行銀行
曾經(jīng)的曾國藩
使用1.3版的深藍詞庫轉換,將這個詞庫轉換為搜狗拼音詞庫的界面如圖所示:
從截圖中可以看到,無論是“音樂”還是“快樂”,無論是“子彈”還是“彈簧”基本上都可以找到正確的讀音。
2.外掛注音詞庫
能夠實現(xiàn)上面正確注音是因為有一個默認的多音字注音詞庫,但是這個詞庫并不是很大很全,如果遇到一些沒有維護在其中的多音字詞,那么系統(tǒng)就會采用默認的拼音,那么就有可能是錯誤的。比如我們在維護一個關于各種參的詞庫,詞庫內(nèi)容是:
人參
花旗參
黨參
沙參
西洋參
高麗參
轉換的結果如圖所示:
我們可以發(fā)現(xiàn),第二個詞“花旗參”的注音錯誤了,因為系統(tǒng)自帶注音庫中沒有找到這個詞,所以采用了默認的注音“can”,對于這種發(fā)現(xiàn)的注音錯誤,我們可以自己維護一個注音庫,命名為“pinyin.txt”,放在該轉換程序的同一個目錄下,然后從新運行該詞庫,系統(tǒng)將會使用這個注音庫中的詞。這個注音庫的格式采用搜狗拼音輸入法的txt詞庫導出格式,一個詞一行。在pinyin.txt中輸入“'hua'qi'shen 花旗參”并保存,重新運行該程序,可以得到我們想要的結果:
3.不顯示轉換后的結果,直接導出。
在進行大批量數(shù)據(jù)的詞庫轉換時,有一個性能上的問題,就是將幾十萬或者幾百萬條詞條顯示在下面的文本框中會非常消耗資源,其實這個顯示是沒有必要的,我們可以直接導出轉換后的詞庫到硬盤上即可,而減少顯示這個環(huán)節(jié)。
在“高級設置”菜單中選中“不顯示結果,直接導出”這個選項:
然后再選擇詞庫,點擊“轉換”按鈕,即可直接導出詞庫。如圖所示:
我一直將這個項目開源,您對源代碼感興趣可以查看,地址為http://code.google.com/p/imewlconverter/
另外,QQ分類詞庫(QPYD格式)我研究了一下,沒有研究出來,不知道該怎么解析,希望有高手能夠幫忙指點指點。如果能夠把QQ分類詞庫給導出,那就更完美了。