杰靈采集器是一款免費的網(wǎng)頁數(shù)據(jù)采集器,免費網(wǎng)站采集器與文章采集軟件,免費實用,支持單頁抓取,多線程抓取、批量采集等功能!有需要的小伙伴歡迎來西西下載體驗。
軟件特色:
免費實用
全部功能免費開放,免費提供開源發(fā)布接口
支持單頁抓取
支持指定URL網(wǎng)址 抓取內(nèi)容
多線程抓取
多任務(wù)多線程快速抓取
批量采集
列表采集、內(nèi)容采集、內(nèi)容發(fā)布分步或合并批量采集
SQLite數(shù)據(jù)庫
廣泛使用的SQLite數(shù)據(jù)庫存貯,輕型高效
圖片附件下載保存
采集同時保存遠程圖片本地化
附件上傳
支持圖片附件自動上傳至網(wǎng)站
通用網(wǎng)站接口
discuz,wordpress,dedecms,帝國cms等開源程序
自動縮略圖
內(nèi)容頁提取首頁圖片為縮略圖
圖片水印
自定義logo或文字水印
正則表達式
支持正則提取或過濾內(nèi)容
多級頁面采集
支持無限級多級頁面抓取
基礎(chǔ)術(shù)語:
1:發(fā)布規(guī)則
模擬網(wǎng)站后臺手工添加數(shù)據(jù) 所需要提交的POST參數(shù)規(guī)則集合,是存貯在本地的。
主要包括自已網(wǎng)站的接口網(wǎng)址,網(wǎng)站編碼,接口所需要的表單。如下圖所示
2:發(fā)布接口
發(fā)布接口是:發(fā)布接口是放在網(wǎng)站目錄下的php,asp等動態(tài)執(zhí)行腳本文件(存貯在服務(wù)器上網(wǎng)站目錄下的)
以帝國CMS為例:接口文件名稱jieling.php放置/e/admin/目錄下即可
3:采集任務(wù)
在左側(cè)任務(wù)欄,添加任務(wù),每個任務(wù)主要包含[采集內(nèi)容設(shè)置]、[發(fā)布內(nèi)容設(shè)置]。
更新日志:
20190708
1、新增支持php插件,支持回調(diào)修改其他字段(詳見-->點擊)
2、新增支持javascript插件,支持回調(diào)修改其他字段(詳見-->點擊 )
3、新增數(shù)據(jù)庫報表支持多選
4、新增過濾篩選支持文本導入,全局關(guān)鍵詞過濾
5、新增列表區(qū)域提取 支持正則提取 如[\s\S]+提取全文
6、新增字段設(shè)置 內(nèi)置大量常用規(guī)則,點擊圖標,快速選用即可
7、新增采集的時候可指定ssl版本號(設(shè)置1.1或1.2或留空)
8、新增EXCEL導入支持指定EXCEL起始行
9、新增數(shù)據(jù)查看器,sql語句歷史紀錄功能
10、新增網(wǎng)址包含 可用|(或)篩選網(wǎng)址
11、新增單篇發(fā)布,如404,500錯誤 ,將顯示錯誤文本
12、修復WIN2012以上版本遠程桌面特殊情況導致無法保存任務(wù)的BUG
13、修復內(nèi)容頁分頁內(nèi)存溢出bug
14、修復列表采集超長時間延時無法快速停止的bug
15、修復//開頭的無協(xié)議鏈接,自動轉(zhuǎn)化為對應(yīng)協(xié)議http(s)://