蜂巢數(shù)據(jù)是一款免費(fèi)的網(wǎng)頁(yè)采集分析軟件,你只需要編寫簡(jiǎn)單的JavaScript腳本,就能實(shí)現(xiàn)對(duì)任何網(wǎng)頁(yè)的數(shù)據(jù)采集。蜂巢數(shù)據(jù)軟件也可以用來(lái)實(shí)現(xiàn)自動(dòng)瀏覽網(wǎng)頁(yè)等功能。
采集入門
點(diǎn)擊工具欄上的"新建任務(wù)",將會(huì)彈出新建任務(wù)對(duì)話框。
輸入任務(wù)名稱"第一個(gè)任務(wù)",然后點(diǎn)擊保存,您已成功創(chuàng)建了第一個(gè)數(shù)據(jù)采集任務(wù)。
下圖是任務(wù)編輯器界面:
首先,我們先定義好數(shù)據(jù)表。點(diǎn)擊任務(wù)編輯器下面的"數(shù)據(jù)字段"標(biāo)簽。
我們添加兩個(gè)字段,"標(biāo)題"和"內(nèi)容",如下圖所示:
接下來(lái)我們需要編寫一小段JavaScript代碼來(lái)執(zhí)行任務(wù),編寫采集任務(wù)只需要會(huì)簡(jiǎn)單的JavaScript語(yǔ)法。
提示:如果您沒學(xué)過JavaScript,網(wǎng)上有很多JavaScript入門教程,百度下"JavaScript語(yǔ)法基礎(chǔ)"。
把下面的JavaScript代碼復(fù)制到腳本編輯器,然后點(diǎn)擊運(yùn)行,稍等片刻,您會(huì)在數(shù)據(jù)字段面板里看到采集的數(shù)據(jù).
/* 加載需要采集的頁(yè)面 */
load("http://www.hdata.me/h1.html");
/* 提取我們所需的數(shù)據(jù) */
t = inner_text("obj1");
c = inner_text("/html/body[1]/div[1]");
/* 把數(shù)據(jù)保存到數(shù)據(jù)庫(kù) */
save([t, c]);
到目前為止,我們都在調(diào)試模式運(yùn)行腳本,調(diào)試模式下數(shù)據(jù)不會(huì)真正保存到數(shù)據(jù)庫(kù)。
點(diǎn)擊工具欄上的"保存",選中"第一個(gè)任務(wù)",然后點(diǎn)擊"開始任務(wù)",此時(shí)任務(wù)運(yùn)行在工作模式。
等任務(wù)運(yùn)行結(jié)束,點(diǎn)擊"查看數(shù)據(jù)",我們會(huì)在新窗口中看到該任務(wù)采集到的數(shù)據(jù)。
更新日志:
v1.2
1. 增加數(shù)據(jù)導(dǎo)出功能
2. 增加計(jì)劃任務(wù)(定時(shí)采集)功能
3. 增加任務(wù)導(dǎo)入,導(dǎo)出功能