RapidMiner Studio是一款優(yōu)秀的整個分析團(tuán)隊(duì)的可視化工作流設(shè)計器,可以幫助用戶進(jìn)行機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、文本挖掘、預(yù)測性分析和商業(yè)分析等功能,還擁有圖形互動界面,有需要的小伙伴歡迎來西西下載體驗(yàn)。
軟件簡介:
軟件宗旨在為用戶提升整個分析團(tuán)隊(duì)的工作效率,從基礎(chǔ)分析人士到專家,支持通過快速拖放可視化界面來創(chuàng)建預(yù)測模型,方便快捷,并且擁有豐富的機(jī)器學(xué)習(xí)算法和函數(shù)庫,輕松構(gòu)建任意復(fù)雜的模型,并且始終能夠達(dá)到你的理想要求和最佳的模型效果,軟件內(nèi)置豐富類型預(yù)構(gòu)建模板,方便大家進(jìn)行使用,減少時間資源的浪費(fèi),對于數(shù)據(jù)的處理,可直接在數(shù)據(jù)庫中運(yùn)行數(shù)據(jù)準(zhǔn)備和ETL過程。并且完全不需要進(jìn)行復(fù)雜的SQL編寫,輕輕松松就完成查詢和數(shù)據(jù)的檢索過程,簡化工作流程,對于數(shù)據(jù)的探索和可視化評估分析,將帶來只管的圖表方式,各種常見的圖形都有,可以隨時隨地了解數(shù)據(jù)中的詳細(xì)模式、趨勢和分布并進(jìn)行探索和分析,從而得到更加深入的信息。在生產(chǎn)之前完整的了解模型的真實(shí)性能,有助于避免錯誤和風(fēng)險的產(chǎn)生,軟件常采用自動化流程,完整控制整個過程,可以使數(shù)據(jù)科學(xué)家提高工作效率,從快速的創(chuàng)意原型設(shè)計到設(shè)計任務(wù)關(guān)鍵型預(yù)測模型。
軟件特征:
視覺流程設(shè)計
提高從分析師到專家的整個數(shù)據(jù)科學(xué)團(tuán)隊(duì)的生產(chǎn)力
在一個拖放可視化界面中加速并自動創(chuàng)建預(yù)測模型
1500+算法和函數(shù)的豐富庫確保了任何用例的最佳模型
為常見用例預(yù)先構(gòu)建的模板,包括客戶流失、預(yù)測性維護(hù)、欺詐檢測等等
“群體的智慧”在每一步都提供了積極主動的建議來幫助初學(xué)者
自動數(shù)據(jù)庫內(nèi)處理
在數(shù)據(jù)庫中運(yùn)行data prep和ETL,以使您的數(shù)據(jù)針對高級分析進(jìn)行優(yōu)化
查詢和檢索數(shù)據(jù),而不需要編寫復(fù)雜的SQL
利用高度可伸縮的數(shù)據(jù)庫集群
支持MySQL、PostgreSQL和谷歌BigQuery
連接到任何數(shù)據(jù)源
處理您的所有數(shù)據(jù),無論它位于何處
立即創(chuàng)建指向數(shù)據(jù)庫、企業(yè)數(shù)據(jù)倉庫、數(shù)據(jù)湖、云存儲、業(yè)務(wù)應(yīng)用程序和社交媒體的連接
很容易在任何時間重用連接,并很容易與任何需要訪問的人共享它們
從RapidMiner市場擴(kuò)展到新的資源
數(shù)據(jù)可視化與探索
評估數(shù)據(jù)的健康度、完整性和質(zhì)量
通過散點(diǎn)圖、直方圖、線圖、平行坐標(biāo)、箱形圖等了解模式、趨勢和分布
快速找到并修復(fù)常見的數(shù)據(jù)質(zhì)量問題,包括丟失的值和異常值
使用健壯的統(tǒng)計概述和超過30種交互式可視化探索數(shù)據(jù)
數(shù)據(jù)準(zhǔn)備和混合
消除為預(yù)測建模準(zhǔn)備數(shù)據(jù)的麻煩
RapidMiner Turbo Prep提供了一個完全交互式的點(diǎn)+點(diǎn)擊數(shù)據(jù)準(zhǔn)備體驗(yàn)
跨任意數(shù)量的數(shù)據(jù)源提取、聯(lián)接、篩選和分組數(shù)據(jù)
創(chuàng)建可計劃和共享的可重復(fù)的數(shù)據(jù)準(zhǔn)備和ETL流程
視覺和自動機(jī)器學(xué)習(xí)
快速創(chuàng)建有影響力的機(jī)器學(xué)習(xí)模型,無需編寫代碼
RapidMiner Auto Model使用自動機(jī)器學(xué)習(xí)在5次點(diǎn)擊中創(chuàng)建模型
從數(shù)百種監(jiān)督和非監(jiān)督的機(jī)器學(xué)習(xí)算法中選擇
實(shí)現(xiàn)基本和高級的ML技術(shù),包括回歸、集群、時間序列、文本分析和深度學(xué)習(xí)
構(gòu)建模型以對諸如成本之類的約束敏感,從而優(yōu)化預(yù)期的業(yè)務(wù)影響
使用自動化和手動的特征工程來優(yōu)化模型的準(zhǔn)確性
使用幫助:
1、連接到您的數(shù)據(jù)
為了有效地作為數(shù)據(jù)科學(xué)工具,RapidMiner Studio必須首先連接到您的數(shù)據(jù)。
如果數(shù)據(jù)位于計算機(jī)上的文件中,則RapidMiner Studio必須讀取文件格式。
如果數(shù)據(jù)在數(shù)據(jù)庫中,則RapidMiner Studio必須連接到該數(shù)據(jù)庫,并且知道該數(shù)據(jù)庫的語言(SQL / NoSQL)。
如果數(shù)據(jù)位于云中,則RapidMiner Studio必須連接到云服務(wù)并了解其API。
如果數(shù)據(jù)是從其他軟件工具導(dǎo)入或?qū)С龅狡渌浖ぞ撸ɡ鏟ython或Tableau),則RapidMiner Studio必須了解該工具。
如果通過代理或自簽名SSL證書進(jìn)行連接,則RapidMiner Studio必須導(dǎo)航該障礙。
好消息是,RapidMiner Studio支持各種 文件格式,數(shù)據(jù)庫,云服務(wù)和其他軟件工具,無論是本機(jī)還是通過擴(kuò)展。
2、接對象
RapidMiner Studio 9.3中引入了連接對象的概念。
您可以將舊連接轉(zhuǎn)換為連接對象。
通過網(wǎng)絡(luò)連接數(shù)據(jù)時,必須先創(chuàng)建連接對象。連接對象啟用與數(shù)據(jù)庫或云服務(wù)的連接。所有連接對象都存儲在連接文件夾圖標(biāo) Connections子文件夾中的存儲庫中 。
從現(xiàn)在開始,我們只需將它們稱為連接,但要記住它們與存儲庫中的其他對象有相似之處。例如,在將輸出連接到讀取數(shù)據(jù)庫運(yùn)算符之前,您可以將數(shù)據(jù)庫連接拖到“處理面板”中以進(jìn)行 檢索。
要創(chuàng)建連接,請右鍵單擊 連接文件夾圖標(biāo) Connections文件夾,然后選擇“ 創(chuàng)建連接圖標(biāo) 創(chuàng)建連接”。將打開“ 創(chuàng)建連接”對話框,您可以配置連接。如果您要連接到SQL 數(shù)據(jù)庫:
選擇連接類型(數(shù)據(jù)庫連接圖標(biāo)數(shù)據(jù)庫),存儲庫(將存儲連接的位置)和連接名稱。
按創(chuàng)建連接圖標(biāo) Create,打開Edit Connection對話框。
在Setup選項(xiàng)卡下,選擇Database System并填寫User,Password,Host,Port和(可選)數(shù)據(jù)庫名稱。
按測試連接圖標(biāo) 測試連接。一旦它工作,保存圖標(biāo)保存連接。連接將出現(xiàn)在連接文件夾圖標(biāo) 連接 您在步驟(1)中選擇的存儲庫的子文件夾。
您可以通過雙擊存儲庫面板中的連接,或右鍵單擊連接并選擇“ 打開圖標(biāo) 打開”或“ 打開圖標(biāo) 編輯”來隨時查看連接詳細(xì)信息。
3、宏作為注入?yún)?shù)的來源
在RapidMiner Studio中,可以立即使用流程宏中的值來進(jìn)行連接設(shè)置。編輯連接時,按注入?yún)?shù)圖標(biāo) 設(shè)置注入?yún)?shù)并選擇應(yīng)從宏獲取值的參數(shù)。然后宏名稱需要匹配參數(shù)鍵才能注入該值。參數(shù)鍵可以在參數(shù)旁邊的信息中找到。
宏源的配置是可選的。如果不配置前綴,宏名稱必須與參數(shù)鍵匹配。如果給出了配置的前綴,則宏名稱必須與前綴匹配,后跟下劃線(_),以參數(shù)鍵結(jié)尾。對于前綴myprefix,參數(shù)密鑰用戶需要宏名稱
myprefix_user
設(shè)置注入時以及視圖和編輯對話框本身將顯示應(yīng)該使用的宏。
將此用于宏以將其正確地注入連接。
4、注入?yún)?shù):共享連接
可以共享連接對象。
假設(shè)一組用戶可以訪問同一個數(shù)據(jù)庫,并且他們在RapidMiner Server上進(jìn)行協(xié)作。他們可以共享數(shù)據(jù)庫連接,而無需共享其用戶名和密碼嗎?答案是肯定的!
解決方案是將連接構(gòu)建為模板,其中預(yù)填充所有公共參數(shù),并注入每個用戶唯一的所有參數(shù)。注入?yún)?shù)的值不存儲在連接對象中,而是在每次使用連接時從外部源檢索?赡艿耐獠吭窗≧apidMiner Server 上的宏和安全存儲。
要在RapidMiner Server存儲庫中創(chuàng)建連接,或?qū)⑦B接復(fù)制到RapidMiner Server存儲庫,用戶必須屬于連接管理器組。請參閱共享和權(quán)限。
概括地說,假設(shè)數(shù)據(jù)庫憑據(jù)將安全地存儲在RapidMiner Server上,使用連接模板的整個過程可能如下進(jìn)行。我們將使用admin的連接管理員角色調(diào)用該用戶。
1)在RapidMiner Studio中,管理員在RapidMiner Server存儲庫中創(chuàng)建連接。雖然可以在本地存儲庫中創(chuàng)建連接,但該連接僅提供宏作為注入源。
2)在編輯連接時,管理員按下按鈕注入?yún)?shù)圖標(biāo) 設(shè)置注入?yún)?shù)并選擇其值將保留為空白的參數(shù)(例如用戶和密碼)。管理員還必須選擇RapidMiner Server作為注入值的來源。
3)要設(shè)置注入值,用戶必須連接到RapidMiner Server的Web界面。單擊“ 編輯連接”對話框中 顯示的鏈接
或直接連接到Web界面,然后導(dǎo)航到Repository > Connections,并按名稱標(biāo)識連接。警告說:此連接缺少值。用戶單擊該鏈接,填寫他或她自己的用戶名和密碼,然后按下保存在RapidMiner服務(wù)器中的按鈕,其中安全地保存憑據(jù)。每個用戶需要重復(fù)步驟(3)。
5、占位符
占位符可以在任何配置參數(shù)的值內(nèi)使用,以引用其他參數(shù)?梢赃B接占位符和自由文本。不支持嵌套占位符。
由于占位符的語法與宏相同,因此清除上下文非常重要:
宏的上下文是進(jìn)程。
占位符的上下文是連接。
占位符可以從當(dāng)前選項(xiàng)卡以及任何其他選項(xiàng)卡訪問參數(shù)值。要查找要通過占位符在不同字段中引用的字段的鍵,請查看原始字段的信息工具提示。在全部關(guān)鍵是你在找什么:
要在另一個字段中使用此占位符,只需在其他字段中引用完整鍵,方法是用百分號(%)和大括號({})括起來,如下所示:
%{db_config.database}
如果占位符無法解析,則只需將其替換為空字符串,但仍將其視為注入值,并且不會使流程執(zhí)行失敗。
基于JDBC的數(shù)據(jù)庫連接使用此機(jī)制從參數(shù)創(chuàng)建URL。
如果沒有參數(shù)信息,則URL由多個占位符和雙冒號組成。通過設(shè)置參數(shù),可以替換這些值。
使用與此完全相同的占位符系統(tǒng)來配置動態(tài)參數(shù)值。