畢竟受文章和理論之限,本文將摒棄絕大部分的細(xì)節(jié),只談方法/模式論,且注重用最通俗最直白的語(yǔ)言闡述相關(guān)問(wèn)題。最后,有一點(diǎn)必須強(qiáng)調(diào)的是,全文行文是基于面試題的分析基礎(chǔ)之上的,具體實(shí)踐過(guò)程中,還是得具體情況具體分析,且場(chǎng)景也遠(yuǎn)比本文所述的任何一種場(chǎng)景復(fù)雜得多。
OK,若有任何問(wèn)題,歡迎隨時(shí)不吝賜教。謝謝。
何謂海量數(shù)據(jù)處理?
所謂海量數(shù)據(jù)處理,其實(shí)很簡(jiǎn)單,海量,海量,何謂海量,就是數(shù)據(jù)量太大,所以導(dǎo)致要么是無(wú)法在較短時(shí)間內(nèi)迅速解決,要么是數(shù)據(jù)太大,導(dǎo)致無(wú)法一次性裝入內(nèi)存。那解決辦法呢?針對(duì)時(shí)間,我們可以采用巧妙的算法搭配合適的數(shù)據(jù)結(jié)構(gòu),如Bloom filter/Hash/bit-map/堆/數(shù)據(jù)庫(kù)或倒排索引/trie/,針對(duì)空間,無(wú)非就一個(gè)辦法:大而化。悍侄沃/hash映射,你不是說(shuō)規(guī)模太大嘛,那簡(jiǎn)單啊,就把規(guī)模大化為規(guī)模小的,各個(gè)擊破不就完了嘛。
至于所謂的單機(jī)及集群?jiǎn)栴},通俗點(diǎn)來(lái)講,單機(jī)就是處理裝載數(shù)據(jù)的機(jī)器有限(只要考慮cpu,內(nèi)存,硬盤(pán)的數(shù)據(jù)交互),而集群,機(jī)器有多輛,適合分布式處理,并行計(jì)算(更多考慮節(jié)點(diǎn)和節(jié)點(diǎn)間的數(shù)據(jù)交互)。
再者,通過(guò)本blog內(nèi)的有關(guān)海量數(shù)據(jù)處理的文章:http://blog.csdn.net/v_july_v/article/category/1106578,我們已經(jīng)大致知道,處理海量數(shù)據(jù)問(wèn)題,無(wú)非就是: