織夢采集俠是一款基于織夢DEDECMS的專業(yè)站群系統(tǒng)/站群軟件,可以根據(jù)關鍵詞、RSS和頁面監(jiān)控等方式定時定量采集,進行偽原創(chuàng)SEO優(yōu)化后更新發(fā)布,無需編寫采集規(guī)則!有需要的小伙伴歡迎來西西下載體驗。
軟件特色:
一鍵安裝
只需一分鐘,立即開始采集,而且結合簡單、健壯、靈活、開源的dedecms程序
一詞采集
根據(jù)用戶設定的關鍵詞進行泛采集,實現(xiàn)不對指定的一個或幾個被采集站點進行采集
R SS采集
只需要輸入RS S地址即可方便的 采集到目標網(wǎng)站內(nèi)容,無需編寫采集規(guī)則,方便簡單
定向采集
提供列表URL和文章URL即采集指定網(wǎng)站或欄目內(nèi)容,便可精確采集標題、正文、作者、來源
無人工干預
可預先設定是采集任務,然后全自動完成進行偽原創(chuàng),導入,生成,操作無需人工干預
偽原創(chuàng)SEO更新
我們?yōu)樯虡I(yè)用戶提供的遠程觸發(fā)采集服務,新站無有人訪問即可定時定量采集更新
更新審核文稿
采集俠亦可根據(jù)您的需要每天在您設置的時間段內(nèi)定時定量審核更新
自動生成推送
自動生成sitemap,自動推送百度接口,確保百度及時收錄到您的網(wǎng)站,提供網(wǎng)站排名
更新日志:
采集俠2.9.1版更新說明:
優(yōu)化:采集任務的欄目列表保持和系統(tǒng)一致?lián)碛袑蛹夑P系
優(yōu)化:循環(huán)采集后自動進入監(jiān)控采集第一頁,較少不必要的采集監(jiān)測
優(yōu)化:可對單個采集規(guī)則記錄進行重置,無須全部清除歷史記錄
優(yōu)化:sitemap.xml格式兼容sogou規(guī)范
優(yōu)化:sitemap.xml生成速度,增加sitemap文章數(shù)量
優(yōu)化:a鏈接過濾保留ftp、迅雷、磁力鏈接便于采集電影信息
優(yōu)化:彈出設置層優(yōu)化體驗
優(yōu)化:兼容https站點后臺
增加:增加微信采集功能,暫只提供給授權用戶
增加:精彩的發(fā)現(xiàn)頻道,眾多內(nèi)容等你發(fā)現(xiàn)
修復:綁定節(jié)點采集不能記錄已采地址偽原創(chuàng)后導致重復問題
修復:與第三方手機版模塊的兼容問題
修復:關鍵詞內(nèi)鏈設置錯誤導致的無法采集的問題
修復:提取的縮略圖不是第一張的問題
常見問題答疑:
采集HTTPS網(wǎng)站問題
采集俠調(diào)用了織夢的接口,因織夢一直未更新支持采集https的網(wǎng)址,所以采集俠尚無法直接更新,現(xiàn)提供臨時補丁包,下載并按自己程序的編碼覆蓋就可以了
一直提示采集到網(wǎng)址數(shù)0,采集不到文章怎么辦?
這一情況分為關鍵詞采集和定向采集
關鍵詞采集出現(xiàn)這一提示,說明關鍵詞都采集完了,采集不到新內(nèi)容了,如果您在高級設置內(nèi)沒有設置任何過濾的話,又沒采集到多少篇文章就出現(xiàn)這一提示,說明您的選詞不夠理想,有關關鍵詞采集的問題請看:http://www.caijixia.net/help/faq/85030.html
如果是定向出現(xiàn)這一提示,您又確定沒有采集,那多半是規(guī)則沒有寫好,這里有幾個注意點:
一、內(nèi)容規(guī)則設置成自動并不能保證所有網(wǎng)站都能自動識別,采集不到的應該自己設置內(nèi)容規(guī)則
二、修改了規(guī)則后還是一直這個提示,需要先清除采集記錄(2.7版本以前在右上角),因為之前采集規(guī)則錯誤的時候采集俠已經(jīng)嘗試采集了所有的網(wǎng)址,現(xiàn)在你修改了規(guī)則,但是之前采集過的網(wǎng)址采集俠是不會重復采集的,所以只有清除采集記錄之后再采集才會使用新規(guī)則重新嘗試采集。
采集俠不自動采集,是不是采集俠出問題了?
采集俠程序本身是運行在您服務器上的,只要沒有自行修改我們的程序,程序就不會出問題的。
但是采集俠有個服務是由我們的服務器幫助運行的,也就是觸發(fā)服務,解釋一下:PHP本身是一種腳本程序,他只有在有用戶訪問的時候才會執(zhí)行,比如您的網(wǎng)站上傳到服務器空間后,如果一個用戶訪問都沒有,那么你的網(wǎng)站就是放在那里并不會自行運行,當有用戶訪問的時候,網(wǎng)站就會進行計算并生成網(wǎng)頁顯示給用戶,每一個用戶訪問一次網(wǎng)站就運行一次,采集俠也是一樣的,并不會自動運行,只有告訴他你要運行了,他就會運行一次,所以要實現(xiàn)自動采集,就需要不斷的訪問他,為此采集俠官方對授權用戶提供一項服務,即觸發(fā)服務,當然技術實現(xiàn)比這說的復雜很多,但是該服務我們承諾是99.9%在線的,所以請您相信,采集俠沒有問題!
那為什么不自動采集呢?這還得看具體分析,主要有幾種情況:一、定向采集的對方網(wǎng)站沒有更新,采集俠都采集過了。二、 用戶自己設置了允許采集的時間,當前不在采集時間內(nèi)。三、用戶設置了每個小時采集的數(shù)量, 當前已經(jīng)采集夠了。四、定向規(guī)則有錯誤,這也是最常見的,可能是對方網(wǎng)站模板修改了,也有可能是當時寫的時候就沒寫對。
關鍵詞采集的文章很亂怎么辦?
首先我們也意識到該問題并在時刻關注和努力優(yōu)化中,但是對于關鍵詞采集,可能大多數(shù)人存在一定的誤解,這里說明一下:
我們先了解一下關鍵詞采集的原理,用戶在采集俠采集任務內(nèi)設置想采集的關鍵詞后,采集俠通過搜素引擎(baidu、360、sogou等)搜索與關鍵詞有關的頁面并進行采集,這一采集行為與平時用戶的搜索行為是很類似的。
那為什么采集的內(nèi)容有的會亂呢?
這是行業(yè)共同面對的一個技術性難題,包括搜索引擎也一直在做這方面的研究,采集俠這幾年來也一直在不斷地提高自己。
這就是頁面分析技術,采集俠關鍵詞采集的原理是通過搜索引擎找到的相關頁面,這些頁面屬于不同的各行各業(yè)的網(wǎng)站,因為這些網(wǎng)站不是固定的所以我們也就不能提前的寫好固定的規(guī)則去提取出文章的標題和文章的內(nèi)容,甚至搜索到的這些頁面還有很多并不是文章頁面,而是一些網(wǎng)站的首頁或者欄目(也就是你可能看到的采集俠提示跳過或者拋棄),要從這樣的一些頁面中提取出真正格式規(guī)范的文章內(nèi)容是很難的,但采集俠并不放棄而是不斷提高自己去不斷的更準確的提取內(nèi)容。
那這樣采集出來的文章會有用嗎?
答案是肯定的,有用!
剛我們也說了,關鍵詞采集這一采集行為與平時用戶的搜索習慣是類似的,所以我們將用戶搜索的文章進行匯集起來放到我們的網(wǎng)站上,那么我們的網(wǎng)站內(nèi)容是不是正是用戶希望看到的內(nèi)容呢?是不是正好認證了我們開篇說的這樣的網(wǎng)站才是有價值的呢?而從搜索引擎的技術角度看待這一問題也是同樣的,如果你完全復制同一個網(wǎng)站的文章,這目前的搜素引擎技術是容易識別出來采集自哪個站的,不要存在僥幸心理,搜索引擎是一定存在偏見的,搜索引擎喜歡原創(chuàng)鼓勵原創(chuàng),完全復制為何不直接給原站流量和權重呢,憑什么把流量給一個采集的站?但是關鍵詞采集是把不同的網(wǎng)站與關鍵詞相關的文章匯集起來,這就是經(jīng)過整理的有用的了,這樣的網(wǎng)站還是值得搜素引擎給予一定的權重的。
有沒有辦法提高采集質(zhì)量呢?
采集俠在關鍵詞采集上做不到完美,但是站長可以通過設置盡可能的提高采集質(zhì)量,不同的關鍵詞采集的效果可能完全不一樣,其次采集俠的高級設置里的采集引擎接口和文章最小字節(jié)數(shù)的合理設置,也會影響關鍵詞采集。
采集引擎接口的意思就是采集俠通過哪個搜索引擎去搜索您給出的關鍵詞去采集,如果您的關鍵詞是新聞類的或者您想采集新聞類的文章,那么選擇新聞類的接口采集的文章格式是會好一些的。
文章最小字節(jié)數(shù)這個又怎么理解呢,這就是采集俠采集文章的條件了,采集俠找到了一個頁面,在這個頁面里發(fā)現(xiàn)了一段文字,那要不要采集呢就是這個設置決定了,我們默認是200,也就是說發(fā)現(xiàn)有200字以上的文字的文章采集俠就采集了,如果文字少于200字那么這個頁面就不采集,如果你修改了這個數(shù)字為1000,那么就只有發(fā)現(xiàn)1000字的文章才采集,這樣采集的結果就是文章看起來更好看了。但是設置大了有什么弊端 嗎?你應該想出來了設置大了可能很多字數(shù)少的文章都采集不到了,有的用戶把這個數(shù)字設置得很大然后來找我們說采集不到,就是這個原因。如果設置小了會怎么樣,那可能就是有極短的文字都當成文章采集了。
如何設置關鍵詞提高采集質(zhì)量?
剛接觸采集俠的很多用戶都喜歡設置這樣的關鍵詞 “新聞”、“國內(nèi)新聞”,然后發(fā)現(xiàn)并不能采集到好的文章,為什么呢?這樣的詞搜索引擎怎么可能搜不到?是的,這樣的詞 搜索引擎確實可以搜到很多東西,但是搜到的點進去就是文章嗎,搜到很多都是新聞網(wǎng)站的首頁或者欄目吧,不信去試試。
搜索到網(wǎng)站首頁或者欄目的地址時采集俠并不能采集的也不應該采集,但當大量的首頁和欄目的時候可能會誤導采集俠給你采集回一些本不是文章的東西回來了!那怎么辦,優(yōu)化我們的關鍵詞,想采集新聞怎么辦,直接把關鍵詞設置成最近的新聞動態(tài)事件,去哪里知道最近的事件?利用其它網(wǎng)站的一些工具,比如百度風云榜http://top.baidu.com/,試試這樣的詞搜索出來的結果是不是都是文章呢。再此我們推薦兩個工具:愛站的關鍵詞挖掘http://ci.aizhan.com/ 詞庫網(wǎng)http://www.ciku5.com/