西西軟件園多重安全檢測下載網(wǎng)站、值得信賴的軟件下載站!
西西首頁 電腦軟件 安卓軟件 電腦游戲 安卓游戲 排行榜 專題合集

Apache Nutch

v2.3最新版
  • Apache Nutchv2.3最新版
  • 軟件大小:7.2M
  • 更新時間:2017-03-27 16:39
  • 軟件語言:英文
  • 軟件廠商:
  • 軟件類別:國外軟件 / 免費軟件 / 編程工具
  • 軟件等級:4級
  • 應用平臺:WinAll
  • 官方網(wǎng)站:暫無
  • 應用備案:
好評:50%
壞評:50%

軟件介紹

Apache Nutch是一款Java實現(xiàn)的網(wǎng)絡爬蟲的編程搜索引擎工具,可以幫助你快速的完成編程工作,現(xiàn)在比較流行的分布式爬蟲,是Apache的Nutch,使用的讓人很多,智能檢索java資源便捷使用。

軟件介紹

Nutch是一個開源Java 實現(xiàn)的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。Nutch誕生于2002年8月,是Apache旗下的一個用Java實現(xiàn)的開源搜索引擎項目,自Nutch1.2版本之后,Nutch已經(jīng)從搜索引擎演化為網(wǎng)絡爬蟲,接著Nutch進一步演化為兩大分支版本:1.X和2.X,這兩大分支最大的區(qū)別在于2.X對底層的數(shù)據(jù)存儲進行了抽象以支持各種底層存儲技術。Nutch 致力于讓每個人能很容易, 同時花費很少就可以配置世界一流的Web搜索引擎.

使用原理

在創(chuàng)建一個WebDB之后(步驟1), “產(chǎn)生/抓取/更新”循環(huán)(步驟3-6)根據(jù)一些種子URLs開始啟動。當這個循環(huán)徹底結束,Crawler根據(jù)抓取中生成的segments創(chuàng)建索引(步驟7-10)。在進行重復URLs清除(步驟9)之前,每個segment的索引都是獨立的(步驟8)。最終,各個獨立的segment索引被合并為一個最終的索引index(步驟10)。

其中有一個細節(jié)問題,Dedup操作主要用于清除segment索引中的重復URLs,但是我們知道,在WebDB中是不允許重復的URL存在的,那么為什么這里還要進行清除呢?原因在于抓取的更新。比方說一個月之前你抓取過這些網(wǎng)頁,一個月后為了更新進行了重新抓取,那么舊的segment在沒有刪除之前仍然起作用,這個時候就需要在新舊segment之間進行除重。

軟件標簽: apache nutch教程

軟件截圖

Apache Nutch v2.3最新版

其他版本下載

發(fā)表評論

昵稱:
表情: 高興 可 汗 我不要 害羞 好 下下下 送花 屎 親親
查看所有(0)條評論 > 字數(shù): 0/500

TOP
軟件下載