織夢(mèng)采集俠是一款基于織夢(mèng)DEDECMS的專業(yè)站群系統(tǒng)/站群軟件,可以根據(jù)關(guān)鍵詞、RSS和頁(yè)面監(jiān)控等方式定時(shí)定量采集,進(jìn)行偽原創(chuàng)SEO優(yōu)化后更新發(fā)布,無(wú)需編寫采集規(guī)則!有需要的小伙伴歡迎來(lái)西西下載體驗(yàn)。
軟件特色:
一鍵安裝
只需一分鐘,立即開(kāi)始采集,而且結(jié)合簡(jiǎn)單、健壯、靈活、開(kāi)源的dedecms程序
一詞采集
根據(jù)用戶設(shè)定的關(guān)鍵詞進(jìn)行泛采集,實(shí)現(xiàn)不對(duì)指定的一個(gè)或幾個(gè)被采集站點(diǎn)進(jìn)行采集
R SS采集
只需要輸入RS S地址即可方便的 采集到目標(biāo)網(wǎng)站內(nèi)容,無(wú)需編寫采集規(guī)則,方便簡(jiǎn)單
定向采集
提供列表URL和文章URL即采集指定網(wǎng)站或欄目?jī)?nèi)容,便可精確采集標(biāo)題、正文、作者、來(lái)源
無(wú)人工干預(yù)
可預(yù)先設(shè)定是采集任務(wù),然后全自動(dòng)完成進(jìn)行偽原創(chuàng),導(dǎo)入,生成,操作無(wú)需人工干預(yù)
偽原創(chuàng)SEO更新
我們?yōu)樯虡I(yè)用戶提供的遠(yuǎn)程觸發(fā)采集服務(wù),新站無(wú)有人訪問(wèn)即可定時(shí)定量采集更新
更新審核文稿
采集俠亦可根據(jù)您的需要每天在您設(shè)置的時(shí)間段內(nèi)定時(shí)定量審核更新
自動(dòng)生成推送
自動(dòng)生成sitemap,自動(dòng)推送百度接口,確保百度及時(shí)收錄到您的網(wǎng)站,提供網(wǎng)站排名
更新日志:
采集俠2.9.1版更新說(shuō)明:
優(yōu)化:采集任務(wù)的欄目列表保持和系統(tǒng)一致?lián)碛袑蛹?jí)關(guān)系
優(yōu)化:循環(huán)采集后自動(dòng)進(jìn)入監(jiān)控采集第一頁(yè),較少不必要的采集監(jiān)測(cè)
優(yōu)化:可對(duì)單個(gè)采集規(guī)則記錄進(jìn)行重置,無(wú)須全部清除歷史記錄
優(yōu)化:sitemap.xml格式兼容sogou規(guī)范
優(yōu)化:sitemap.xml生成速度,增加sitemap文章數(shù)量
優(yōu)化:a鏈接過(guò)濾保留ftp、迅雷、磁力鏈接便于采集電影信息
優(yōu)化:彈出設(shè)置層優(yōu)化體驗(yàn)
優(yōu)化:兼容https站點(diǎn)后臺(tái)
增加:增加微信采集功能,暫只提供給授權(quán)用戶
增加:精彩的發(fā)現(xiàn)頻道,眾多內(nèi)容等你發(fā)現(xiàn)
修復(fù):綁定節(jié)點(diǎn)采集不能記錄已采地址偽原創(chuàng)后導(dǎo)致重復(fù)問(wèn)題
修復(fù):與第三方手機(jī)版模塊的兼容問(wèn)題
修復(fù):關(guān)鍵詞內(nèi)鏈設(shè)置錯(cuò)誤導(dǎo)致的無(wú)法采集的問(wèn)題
修復(fù):提取的縮略圖不是第一張的問(wèn)題
常見(jiàn)問(wèn)題答疑:
采集HTTPS網(wǎng)站問(wèn)題
采集俠調(diào)用了織夢(mèng)的接口,因織夢(mèng)一直未更新支持采集https的網(wǎng)址,所以采集俠尚無(wú)法直接更新,現(xiàn)提供臨時(shí)補(bǔ)丁包,下載并按自己程序的編碼覆蓋就可以了
一直提示采集到網(wǎng)址數(shù)0,采集不到文章怎么辦?
這一情況分為關(guān)鍵詞采集和定向采集
關(guān)鍵詞采集出現(xiàn)這一提示,說(shuō)明關(guān)鍵詞都采集完了,采集不到新內(nèi)容了,如果您在高級(jí)設(shè)置內(nèi)沒(méi)有設(shè)置任何過(guò)濾的話,又沒(méi)采集到多少篇文章就出現(xiàn)這一提示,說(shuō)明您的選詞不夠理想,有關(guān)關(guān)鍵詞采集的問(wèn)題請(qǐng)看:http://www.caijixia.net/help/faq/85030.html
如果是定向出現(xiàn)這一提示,您又確定沒(méi)有采集,那多半是規(guī)則沒(méi)有寫好,這里有幾個(gè)注意點(diǎn):
一、內(nèi)容規(guī)則設(shè)置成自動(dòng)并不能保證所有網(wǎng)站都能自動(dòng)識(shí)別,采集不到的應(yīng)該自己設(shè)置內(nèi)容規(guī)則
二、修改了規(guī)則后還是一直這個(gè)提示,需要先清除采集記錄(2.7版本以前在右上角),因?yàn)橹安杉?guī)則錯(cuò)誤的時(shí)候采集俠已經(jīng)嘗試采集了所有的網(wǎng)址,現(xiàn)在你修改了規(guī)則,但是之前采集過(guò)的網(wǎng)址采集俠是不會(huì)重復(fù)采集的,所以只有清除采集記錄之后再采集才會(huì)使用新規(guī)則重新嘗試采集。
采集俠不自動(dòng)采集,是不是采集俠出問(wèn)題了?
采集俠程序本身是運(yùn)行在您服務(wù)器上的,只要沒(méi)有自行修改我們的程序,程序就不會(huì)出問(wèn)題的。
但是采集俠有個(gè)服務(wù)是由我們的服務(wù)器幫助運(yùn)行的,也就是觸發(fā)服務(wù),解釋一下:PHP本身是一種腳本程序,他只有在有用戶訪問(wèn)的時(shí)候才會(huì)執(zhí)行,比如您的網(wǎng)站上傳到服務(wù)器空間后,如果一個(gè)用戶訪問(wèn)都沒(méi)有,那么你的網(wǎng)站就是放在那里并不會(huì)自行運(yùn)行,當(dāng)有用戶訪問(wèn)的時(shí)候,網(wǎng)站就會(huì)進(jìn)行計(jì)算并生成網(wǎng)頁(yè)顯示給用戶,每一個(gè)用戶訪問(wèn)一次網(wǎng)站就運(yùn)行一次,采集俠也是一樣的,并不會(huì)自動(dòng)運(yùn)行,只有告訴他你要運(yùn)行了,他就會(huì)運(yùn)行一次,所以要實(shí)現(xiàn)自動(dòng)采集,就需要不斷的訪問(wèn)他,為此采集俠官方對(duì)授權(quán)用戶提供一項(xiàng)服務(wù),即觸發(fā)服務(wù),當(dāng)然技術(shù)實(shí)現(xiàn)比這說(shuō)的復(fù)雜很多,但是該服務(wù)我們承諾是99.9%在線的,所以請(qǐng)您相信,采集俠沒(méi)有問(wèn)題!
那為什么不自動(dòng)采集呢?這還得看具體分析,主要有幾種情況:一、定向采集的對(duì)方網(wǎng)站沒(méi)有更新,采集俠都采集過(guò)了。二、 用戶自己設(shè)置了允許采集的時(shí)間,當(dāng)前不在采集時(shí)間內(nèi)。三、用戶設(shè)置了每個(gè)小時(shí)采集的數(shù)量, 當(dāng)前已經(jīng)采集夠了。四、定向規(guī)則有錯(cuò)誤,這也是最常見(jiàn)的,可能是對(duì)方網(wǎng)站模板修改了,也有可能是當(dāng)時(shí)寫的時(shí)候就沒(méi)寫對(duì)。
關(guān)鍵詞采集的文章很亂怎么辦?
首先我們也意識(shí)到該問(wèn)題并在時(shí)刻關(guān)注和努力優(yōu)化中,但是對(duì)于關(guān)鍵詞采集,可能大多數(shù)人存在一定的誤解,這里說(shuō)明一下:
我們先了解一下關(guān)鍵詞采集的原理,用戶在采集俠采集任務(wù)內(nèi)設(shè)置想采集的關(guān)鍵詞后,采集俠通過(guò)搜素引擎(baidu、360、sogou等)搜索與關(guān)鍵詞有關(guān)的頁(yè)面并進(jìn)行采集,這一采集行為與平時(shí)用戶的搜索行為是很類似的。
那為什么采集的內(nèi)容有的會(huì)亂呢?
這是行業(yè)共同面對(duì)的一個(gè)技術(shù)性難題,包括搜索引擎也一直在做這方面的研究,采集俠這幾年來(lái)也一直在不斷地提高自己。
這就是頁(yè)面分析技術(shù),采集俠關(guān)鍵詞采集的原理是通過(guò)搜索引擎找到的相關(guān)頁(yè)面,這些頁(yè)面屬于不同的各行各業(yè)的網(wǎng)站,因?yàn)檫@些網(wǎng)站不是固定的所以我們也就不能提前的寫好固定的規(guī)則去提取出文章的標(biāo)題和文章的內(nèi)容,甚至搜索到的這些頁(yè)面還有很多并不是文章頁(yè)面,而是一些網(wǎng)站的首頁(yè)或者欄目(也就是你可能看到的采集俠提示跳過(guò)或者拋棄),要從這樣的一些頁(yè)面中提取出真正格式規(guī)范的文章內(nèi)容是很難的,但采集俠并不放棄而是不斷提高自己去不斷的更準(zhǔn)確的提取內(nèi)容。
那這樣采集出來(lái)的文章會(huì)有用嗎?
答案是肯定的,有用!
剛我們也說(shuō)了,關(guān)鍵詞采集這一采集行為與平時(shí)用戶的搜索習(xí)慣是類似的,所以我們將用戶搜索的文章進(jìn)行匯集起來(lái)放到我們的網(wǎng)站上,那么我們的網(wǎng)站內(nèi)容是不是正是用戶希望看到的內(nèi)容呢?是不是正好認(rèn)證了我們開(kāi)篇說(shuō)的這樣的網(wǎng)站才是有價(jià)值的呢?而從搜索引擎的技術(shù)角度看待這一問(wèn)題也是同樣的,如果你完全復(fù)制同一個(gè)網(wǎng)站的文章,這目前的搜素引擎技術(shù)是容易識(shí)別出來(lái)采集自哪個(gè)站的,不要存在僥幸心理,搜索引擎是一定存在偏見(jiàn)的,搜索引擎喜歡原創(chuàng)鼓勵(lì)原創(chuàng),完全復(fù)制為何不直接給原站流量和權(quán)重呢,憑什么把流量給一個(gè)采集的站?但是關(guān)鍵詞采集是把不同的網(wǎng)站與關(guān)鍵詞相關(guān)的文章匯集起來(lái),這就是經(jīng)過(guò)整理的有用的了,這樣的網(wǎng)站還是值得搜素引擎給予一定的權(quán)重的。
有沒(méi)有辦法提高采集質(zhì)量呢?
采集俠在關(guān)鍵詞采集上做不到完美,但是站長(zhǎng)可以通過(guò)設(shè)置盡可能的提高采集質(zhì)量,不同的關(guān)鍵詞采集的效果可能完全不一樣,其次采集俠的高級(jí)設(shè)置里的采集引擎接口和文章最小字節(jié)數(shù)的合理設(shè)置,也會(huì)影響關(guān)鍵詞采集。
采集引擎接口的意思就是采集俠通過(guò)哪個(gè)搜索引擎去搜索您給出的關(guān)鍵詞去采集,如果您的關(guān)鍵詞是新聞?lì)惖幕蛘吣氩杉侣勵(lì)惖奈恼,那么選擇新聞?lì)惖慕涌诓杉奈恼赂袷绞菚?huì)好一些的。
文章最小字節(jié)數(shù)這個(gè)又怎么理解呢,這就是采集俠采集文章的條件了,采集俠找到了一個(gè)頁(yè)面,在這個(gè)頁(yè)面里發(fā)現(xiàn)了一段文字,那要不要采集呢就是這個(gè)設(shè)置決定了,我們默認(rèn)是200,也就是說(shuō)發(fā)現(xiàn)有200字以上的文字的文章采集俠就采集了,如果文字少于200字那么這個(gè)頁(yè)面就不采集,如果你修改了這個(gè)數(shù)字為1000,那么就只有發(fā)現(xiàn)1000字的文章才采集,這樣采集的結(jié)果就是文章看起來(lái)更好看了。但是設(shè)置大了有什么弊端 嗎?你應(yīng)該想出來(lái)了設(shè)置大了可能很多字?jǐn)?shù)少的文章都采集不到了,有的用戶把這個(gè)數(shù)字設(shè)置得很大然后來(lái)找我們說(shuō)采集不到,就是這個(gè)原因。如果設(shè)置小了會(huì)怎么樣,那可能就是有極短的文字都當(dāng)成文章采集了。
如何設(shè)置關(guān)鍵詞提高采集質(zhì)量?
剛接觸采集俠的很多用戶都喜歡設(shè)置這樣的關(guān)鍵詞 “新聞”、“國(guó)內(nèi)新聞”,然后發(fā)現(xiàn)并不能采集到好的文章,為什么呢?這樣的詞搜索引擎怎么可能搜不到?是的,這樣的詞 搜索引擎確實(shí)可以搜到很多東西,但是搜到的點(diǎn)進(jìn)去就是文章嗎,搜到很多都是新聞網(wǎng)站的首頁(yè)或者欄目吧,不信去試試。
搜索到網(wǎng)站首頁(yè)或者欄目的地址時(shí)采集俠并不能采集的也不應(yīng)該采集,但當(dāng)大量的首頁(yè)和欄目的時(shí)候可能會(huì)誤導(dǎo)采集俠給你采集回一些本不是文章的東西回來(lái)了!那怎么辦,優(yōu)化我們的關(guān)鍵詞,想采集新聞怎么辦,直接把關(guān)鍵詞設(shè)置成最近的新聞動(dòng)態(tài)事件,去哪里知道最近的事件?利用其它網(wǎng)站的一些工具,比如百度風(fēng)云榜http://top.baidu.com/,試試這樣的詞搜索出來(lái)的結(jié)果是不是都是文章呢。再此我們推薦兩個(gè)工具:愛(ài)站的關(guān)鍵詞挖掘http://ci.aizhan.com/ 詞庫(kù)網(wǎng)http://www.ciku5.com/