西西軟件園多重安全檢測(cè)下載網(wǎng)站、值得信賴的軟件下載站!
西西首頁 電腦軟件 安卓軟件 電腦游戲 安卓游戲 排行榜 專題合集

火車信息采集器(LocoySpider)

v9.30 最新版
  • 火車信息采集器(LocoySpider)v9.30 最新版
  • 軟件大小:33.8M
  • 更新時(shí)間:2021-04-24 09:10
  • 軟件語言:中文
  • 軟件廠商:
  • 軟件類別:國產(chǎn)軟件 / 免費(fèi)軟件 / 行業(yè)軟件
  • 軟件等級(jí):3級(jí)
  • 應(yīng)用平臺(tái):WinAll
  • 官方網(wǎng)站:http://www.locoy.com
  • 應(yīng)用備案:
好評(píng):50%
壞評(píng):50%

軟件介紹

火車采集器軟件(LocoySpider)是一款網(wǎng)頁抓取工具,是用于網(wǎng)站信息采集,網(wǎng)站信息抓取,包括圖片、文字等信息采集處理發(fā)布,是目前使用人數(shù)最多的互聯(lián)網(wǎng)數(shù)據(jù)采集軟件。合肥樂維信息技術(shù)有限公司出品,10年打造網(wǎng)頁數(shù)據(jù)采集利器。有需要的小伙伴歡迎來西西下載體驗(yàn)。

軟件優(yōu)勢(shì):

程序支持遠(yuǎn)程下載圖片文件,支持網(wǎng)站登陸后的信息獲取,支持探測(cè)文件真實(shí)地址,支持代理,支持防盜鏈的采集,支持采集數(shù)據(jù)直接入庫和模仿人手工發(fā)布等許多功能特點(diǎn)。

火車采集器支持從任何類型的網(wǎng)站采集獲取您所需要的信息,如各種新聞?lì)惥W(wǎng)站、論壇、電子商務(wù)網(wǎng)站、求職招聘網(wǎng)站等。

同時(shí)具有強(qiáng)大的網(wǎng)站登錄采集、多頁和分頁的采集、網(wǎng)站跨層采集、POST采集、腳本頁面采集、動(dòng)態(tài)頁面采集等高級(jí)采集功能。

強(qiáng)大的php和c#插件支持,讓您可以通過二次開發(fā)實(shí)現(xiàn)您所想要的任何更強(qiáng)大的功能。

軟件特色:

1、通用性強(qiáng)

無論新聞、論壇、視頻、黃頁、圖片、下載類網(wǎng)站,只要通過瀏覽器能看到的結(jié)構(gòu)化的內(nèi)容,通過指定匹配規(guī)則,都能采集到您所需要的內(nèi)容。

2、穩(wěn)定、高效

五年磨一劍,軟件不斷更新進(jìn)步,采集速度快,性能穩(wěn)定,占用資源少。

3、擴(kuò)展性強(qiáng)、適用范圍廣

自定義web發(fā)布,自定義主流的數(shù)據(jù)庫的保存和發(fā)布,自定義本地php及.net外部編程接口處理數(shù)據(jù),讓數(shù)據(jù)都能為你所用。

菜單功能:

1.新建分組

新建一個(gè)任務(wù)分組,選擇所屬分組,確定分組名稱和備注。

2.新建任務(wù)

確定所屬分組,新建一個(gè)任務(wù),填寫任務(wù)名稱并保存。

3.Web發(fā)布配置

Web發(fā)布配置定義了如何登陸一個(gè)網(wǎng)站以及向該網(wǎng)站提交數(shù)據(jù)。

主要涉及到登錄信息的獲取,網(wǎng)站編碼設(shè)定,欄目列表的獲取,以及使用數(shù)據(jù)測(cè)試發(fā)布效果。

4.Web發(fā)布模塊

可以定義網(wǎng)站登錄,獲取欄目列表,獲取網(wǎng)頁隨機(jī)值,內(nèi)容發(fā)布參數(shù),以及上傳文件,構(gòu)造發(fā)布數(shù)據(jù)等高級(jí)功能。

5.數(shù)據(jù)庫發(fā)布配置

數(shù)據(jù)庫發(fā)布配置定義了數(shù)據(jù)庫鏈接信息的設(shè)置以及數(shù)據(jù)庫模塊的選擇。

6.數(shù)據(jù)庫發(fā)布模塊

用于編輯數(shù)據(jù)庫的發(fā)布模塊,方便我們將數(shù)據(jù)發(fā)布到配置好的數(shù)據(jù)庫中。

火車采集器可選mysql、sqlserver、oracle、access四種數(shù)據(jù)庫類型,在文本輸入框中填寫sql語句

(需有數(shù)據(jù)庫相關(guān)知識(shí)),并可使用標(biāo)簽替換相應(yīng)數(shù)據(jù)。也可在采集器模塊文件夾中加載某一模塊進(jìn)行編輯。

7.計(jì)劃任務(wù)

設(shè)置列表中采集任務(wù)的啟動(dòng)計(jì)劃,可每間隔、每天、每周、僅一次、或自定義Cron表達(dá)式,

(Cron表達(dá)式的寫法可參考相關(guān)術(shù)語中的介紹)。保存設(shè)置后,任務(wù)即可按照設(shè)置執(zhí)行。

8.插件管理

插件是可以用來擴(kuò)展火車采集器功能的程序

火車采集器V9支持PHP源碼、C#源碼、C#類庫三種類型的插件,

可用于擴(kuò)展http請(qǐng)求、內(nèi)容處理和文件下載的功能,并可以分別進(jìn)行測(cè)試。

9.http二級(jí)代理

網(wǎng)絡(luò)中的服務(wù)器,可以讓網(wǎng)絡(luò)用戶去取得所需要的網(wǎng)絡(luò)信息。

代理的功能有可以突破自身ip的訪問限制訪問國外站點(diǎn),訪問一些單位或團(tuán)體內(nèi)部資源,

突破電信的ip封鎖和隱藏真實(shí)的ip等。

火車采集器V9支持http代理、socket4和socket5代理。

10.http模擬請(qǐng)求

可以設(shè)置如何發(fā)起一個(gè)http請(qǐng)求,包括設(shè)置請(qǐng)求信息,返回頭信息。并具有自動(dòng)提交的功能。

基本功能:

1、規(guī)則自定義 - 通過采集規(guī)則的定義,可以搜索所有網(wǎng)站采集幾乎任何類型的信息。

2、多任務(wù),多線程 - 可以同時(shí)進(jìn)行多個(gè)信息獲取任務(wù),每個(gè)任務(wù)可以使用多個(gè)線程。

3、所見即所得 - 任務(wù)采集過程所見即所得,過程中遍歷的鏈接信息、采集信息、錯(cuò)誤信息等都會(huì)及時(shí)的反映在軟件界面中。

4、數(shù)據(jù)保存 - 數(shù)據(jù)邊采集邊自動(dòng)保存到關(guān)系數(shù)據(jù)庫中,并且數(shù)據(jù)結(jié)構(gòu)能夠自動(dòng)適應(yīng),軟件可以根據(jù)采集規(guī)則自動(dòng)創(chuàng)建數(shù)據(jù)庫,以及其中的表和字段,也可以通過導(dǎo)庫方式靈活的將數(shù)據(jù)保存到客戶已有的數(shù)據(jù)庫結(jié)構(gòu)中。

5、斷點(diǎn)續(xù)采 - 信息收集任務(wù)可以在停止后從斷點(diǎn)開始繼續(xù)采集,從此你用不再擔(dān)心你的采集任務(wù)意外中斷了。

6、網(wǎng)站登錄 - 支持網(wǎng)站Cookie,支持網(wǎng)站可視化登錄,即使登錄時(shí)需要驗(yàn)證碼的網(wǎng)站也能采集。

7、計(jì)劃任務(wù) - 通過這個(gè)功能可以讓你的采集任務(wù)定時(shí)、定量或者一直循環(huán)執(zhí)行。

8、采集范圍限制 - 可以根據(jù)采集的深度和網(wǎng)址的標(biāo)識(shí)來限制采集的范圍。

9、文件下載 - 可以將采集到的二進(jìn)制文件(諸如:圖片、音樂、軟件、文檔等等)下載到本地磁盤或者采集結(jié)果數(shù)據(jù)庫中。

10、結(jié)果替換 - 可以將采集的結(jié)果根據(jù)規(guī)則替換成你定義的內(nèi)容。

11、條件保存 - 可以根據(jù)某個(gè)條件來決定那些信息保存,那些信息過濾。

12、過濾重復(fù)內(nèi)容 - 軟件可根據(jù)用戶設(shè)置和實(shí)際情況對(duì)重復(fù)內(nèi)容和重復(fù)網(wǎng)址自動(dòng)刪除重復(fù)內(nèi)容。

13、特殊鏈接識(shí)別 - 運(yùn)用此功能可以將用JavaScript動(dòng)態(tài)生成的鏈接或其他更古怪的連接識(shí)別出來。

14、數(shù)據(jù)發(fā)布 - 可以通過自定義接口,將已采集的結(jié)果數(shù)據(jù)發(fā)布到任意的內(nèi)容管理系統(tǒng)和指定數(shù)據(jù)庫中,F(xiàn)在已支持的目標(biāo)發(fā)布媒體包括:數(shù)據(jù)庫(access, sql server,my sql,oracle) ,靜態(tài)htm文件。

15、預(yù)留編程接口 - 定義多個(gè)編程接口,用戶可以在事件中利用PHP,C#語言進(jìn)行編程,擴(kuò)充采集功能。

特色功能:

1、支持所有網(wǎng)站編碼:完美支持采集所有編碼格式的網(wǎng)頁,程序還可以自動(dòng)識(shí)別網(wǎng)頁編碼。

2、多種發(fā)布方式:支持目前所有主流和非主流的CMS,BBS等網(wǎng)站程序,通過系統(tǒng)的發(fā)布模塊能實(shí)現(xiàn)采集器和網(wǎng)站程序間的完美結(jié)合。

3、全自動(dòng):無人值守工作,配置好程序后,程序?qū)⒁罁?jù)您的設(shè)置自動(dòng)運(yùn)行,完全無需人工干預(yù)。

4、本地編輯:本地可視化編輯已采集的數(shù)據(jù)。

5、采集測(cè)試:這是其它任何同類采集軟件所不能比的,程序支持直接查看采集結(jié)果并測(cè)試發(fā)布。

6、管理方便:使用站點(diǎn)+任務(wù)方式管理采集節(jié)點(diǎn),任務(wù)支持批量操作,再多的數(shù)據(jù)管理也很輕松。

更新日志:

1、★ 列表頁新增“地址處理”功能★

內(nèi)容替換/排重

可以對(duì)網(wǎng)址中內(nèi)容進(jìn)行替換,且替換完成后,重復(fù)的網(wǎng)址會(huì)自動(dòng)去重。

純正則替換

可以使用正則表達(dá)式進(jìn)行匹配,和內(nèi)容替換功能類似

字符編碼處理

網(wǎng)址中有需要轉(zhuǎn)碼的內(nèi)容,比如采到的鏈接里有 & 可以進(jìn)行解碼

2、★新增“請(qǐng)求失敗數(shù)”的預(yù)警條件設(shè)置★

3、★下載圖片命名,新增[記錄自增Id]格式★

記錄自增ID:同一個(gè)內(nèi)容頁中,多個(gè)標(biāo)簽設(shè)置記錄自增ID,那么多個(gè)標(biāo)簽都是從1開始自增,再次測(cè)試運(yùn)行又會(huì)重新開始從1自增,更換個(gè)內(nèi)容頁測(cè)試運(yùn)行,也是從1開始自增。

自增ID:設(shè)置自增ID是采集器啟動(dòng)后運(yùn)行,開始一個(gè)自增ID,從1開始自增,之后就是自增。重啟采集器后,又會(huì)重新開始自增ID,從1開始自增。

4、★修復(fù)圖片下載誤判斷問題★

5、★修復(fù)計(jì)劃任務(wù)中“每天調(diào)度”,起始運(yùn)行時(shí)間配置未生效的問題★

6、★ 修復(fù)PHP插件,對(duì)于循環(huán)記錄的處理報(bào)錯(cuò)的問題★

7、★修復(fù)拼音首字母對(duì)于一些錯(cuò)誤字符的判斷問題★

8、★任務(wù)批量編輯,修復(fù)“發(fā)布”中“多網(wǎng)站亂序發(fā)布”未能復(fù)制的問題★

9、★修改“循環(huán)添加新記錄”配置后,修復(fù)數(shù)據(jù)格式選擇錯(cuò)誤的問題★

10、★修復(fù)循環(huán)記錄中列表頁標(biāo)簽被多次處理的問題★

11、★修復(fù)對(duì)于一些302跳轉(zhuǎn)地址,無法正確跳轉(zhuǎn)的問題★

12、★修復(fù)一些網(wǎng)址無法正確請(qǐng)求的問題★

軟件標(biāo)簽: LocoySpider 火車頭

其他版本下載

發(fā)表評(píng)論

昵稱:
表情: 高興 可 汗 我不要 害羞 好 下下下 送花 屎 親親
查看所有(0)條評(píng)論 > 字?jǐn)?shù): 0/500

TOP
軟件下載