Weka漢化版全名為懷卡托智能分析環(huán)境,這款軟件的一款集數(shù)據(jù)預(yù)處理、學(xué)習(xí)算法(分類、回歸、聚類、關(guān)聯(lián)分析)和評估方法等為一體的綜合性數(shù)據(jù)挖掘工具。具有交互式可視化界面,提供算法學(xué)習(xí)比較環(huán)境 通過其接口,可實現(xiàn)自己的數(shù)據(jù)挖掘算法。
漢化版說明:
在第2版weka中文版的 基礎(chǔ)上制作了第3版,暫定版本v0.3。將guichooser漢化完成?紤]到大家還是習(xí)慣使用guichooser作為默認啟動界面,將RunWeka.ini中的設(shè)置恢復(fù)默認。但是為了支持中文,其中的編碼選項從cp1252改為utf-8,各位同學(xué)制作數(shù)據(jù)文件的時候可以保存為utf-8編碼。也可以自行去修改根目錄下的RunWeka.ini。
如果對翻譯不滿意,請告知于我,我們共同努力。
本次只發(fā)布了64位的版本,包含64位jre,在根目錄下的jre目錄,需要的可以自行安裝。解壓縮到任意目錄后,運行RunWeka.bat就可以了。當然也有快捷方式可以用,但圖標因為路徑問題需要你自己重新設(shè)定一下。理論上將根目錄下的weka.jar提取出來覆蓋你之前安裝好的weka目錄中的weka.jar,即可實現(xiàn)weka漢化,32位和64位都可以用,但前提是你安裝的weka版本要是3.7.12。最好事先備份好你的weka.jar文件,出現(xiàn)問題可以恢復(fù)。
軟件教程:
WEKA文件相關(guān)術(shù)語
表格里的一個橫行稱作一個實例(Instance),相當于統(tǒng)計學(xué)中的一個樣本,或者數(shù)據(jù)庫中的一條記錄。豎行稱作一個屬性(Attribute),相當于統(tǒng)計學(xué)中的一個變量,或者數(shù)據(jù)庫中的一個字段。這樣一個表格,或者叫數(shù)據(jù)集,在WEKA看來,呈現(xiàn)了屬性之間的一種關(guān)系(Relation)。上圖中一共有14個實例,5個屬性,關(guān)系名稱為“weather”。
WEKA存儲數(shù)據(jù)的格式是ARFF(Attribute-Relation File Format)文件,這是一種ASCII文本文件。上圖所示的二維表格存儲在如下的ARFF文件中。這也就是WEKA自帶的“weather.arff”文件,在WEKA安裝目錄的“data”子目錄下可以找到。
文件內(nèi)容說明
識別ARFF文件的重要依據(jù)是分行,因此不能在這種文件里隨意的斷行?招校ɑ蛉强崭竦男校⿲⒈缓雎。以“%”開始的行是注釋,WEKA將忽略這些行。如果你看到的“weather.arff”文件多了或少了些“%”開始的行,是沒有影響的。
除去注釋后,整個ARFF文件可以分為兩個部分。
第一部分給出了頭信息(Head information),包括了對關(guān)系的聲明和對屬性的聲明。
第二部分給出了數(shù)據(jù)信息(Data information),即數(shù)據(jù)集中給出的數(shù)據(jù)。從“@data”標記開始,后面的就是數(shù)據(jù)信息了。
關(guān)系聲明
關(guān)系名稱在ARFF文件的第一個有效行來定義,格式為@relation <relation-name>
<relation-name>是一個字符串。如果這個字符串包含空格,它必須加上引號(指英文標點的單引號或雙引號)。
屬性聲明
屬性聲明用一列以“@attribute”開頭的語句表示。數(shù)據(jù)集中的每一個屬性都有它對應(yīng)的“@attribute”語句,來定義它的屬性名稱和數(shù)據(jù)類型。
這些聲明語句的順序很重要。首先它表明了該項屬性在數(shù)據(jù)部分的位置。例如,“humidity”是第三個被聲明的屬性,這說明數(shù)據(jù)部分那些被逗號分開的列中,第三列數(shù)據(jù)85 90 86 96 ... 是相應(yīng)的“humidity”值。其次,最后一個聲明的屬性被稱作class屬性,在分類或回歸任務(wù)中,它是默認的目標變量。屬性聲明的格式為
@attribute <attribute-name> <datatype>
其中<attribute-name>是必須以字母開頭的字符串。和關(guān)系名稱一樣,如果這個字符串包含空格,它必須加上引號。
數(shù)值屬性
數(shù)值型屬性可以是整數(shù)或者實數(shù),但WEKA把它們都當作實數(shù)看待。
標稱屬性
標稱屬性由<nominal-specification>列出一系列可能的類別名稱并放在花括號中:{<nominal-name1>, <nominal-name2>,
<nominal-name3>, ...} 。數(shù)據(jù)集中該屬性的值只能是其中一種類別。
例如如下的屬性聲明說明“outlook”屬性有三種類別:“sunny”,“overcast”和“rainy”。而數(shù)據(jù)集中每個實例對應(yīng)的“outlook”值必是這三者之一。
@attribute outlook {sunny, overcast, rainy}
如果類別名稱帶有空格,仍需要將之放入引號中。