本期的QClub活動暨百度技術(shù)沙龍第五期主題確定為“走進搜索核心技術(shù)”。對于普羅大眾尤其是技術(shù)人員來說,搜索引擎的出現(xiàn)很大程度上改變了我們的生活和工作習慣。生活中遇到什么問題,先百度一下,工作中遇到什么困難,再Google一下,大大節(jié)約了我們的時間。對于稍有規(guī)模的網(wǎng)站,特別是面向特定人群的垂直網(wǎng)站,提供搜索功能也是一個必選項,比如豆瓣網(wǎng)和旅游資訊垂直網(wǎng)站去哪兒等。
搜索技術(shù)已經(jīng)不是秘密,但是卻也遠未到取得一個搜索引擎源代碼后,就能立刻、馬上應用得很好。這次技術(shù)交流活動我們有幸邀請了來自百度搜索技術(shù)部的研究員殷慶軒和去哪兒網(wǎng)站的搜索技術(shù)負責人何偉平,請他們帶我們一起走進搜索的核心技術(shù),來探討如何讓搜索結(jié)果更具時效性,以及數(shù)據(jù)庫技術(shù)在現(xiàn)代搜索技術(shù)中的應用。
演講嘉賓及主題
嘉賓簡介:殷慶軒
百度搜索技術(shù)部研究員,2007年從清華大學獲碩士學位后加入百度,從事網(wǎng)頁搜索相關(guān)性改進方面的工作。目前負責網(wǎng)頁搜索的時效性、需求滿足多樣性、阿拉丁相關(guān)性這幾方面的工作。
演講主題:走進搜索核心技術(shù)——時效性
主要內(nèi)容:“全、準、快、新”是搜索引擎的四大評價指標,其中的“新”指代的就是時效性。隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)民對信息獲取的時效性要求越來越高。同時越來越多的網(wǎng)民更多的參與到創(chuàng)造互聯(lián)網(wǎng)內(nèi)容中去,互聯(lián)網(wǎng)上的新信息也在迅速的膨脹。這都給搜索引擎時效性需求的滿足帶來了前所未有的沖擊。
本次沙龍希望與大家交流一下,百度在提升搜索引擎時效性上面,是怎樣考慮的。演講者會從用戶的時效性需求出發(fā),逐步分析為了滿足這樣的需求,搜索引擎需要做哪些應對和改變,并解釋時效性改進方面的難點。演講的內(nèi)容,也會體現(xiàn)出百度工程師,他們在做什么事情,以及是怎么做事情的。
嘉賓簡介:何偉平
PostgreSQL數(shù)據(jù)庫研究人員和中文文檔維護人員,Perl 編程第三版譯者,Linux 集群管理員及數(shù)據(jù)庫研究人員和軟件開發(fā)人員。Qunar工程師和搜索技術(shù)負責人。
演講主題:數(shù)據(jù)庫在現(xiàn)代搜索技術(shù)中的應用
主要內(nèi)容:搜索引擎搜索質(zhì)量與分層以及數(shù)據(jù)庫在現(xiàn)代搜索技術(shù)中的應用。搜索引擎有量和速度之間的平衡,如何利用分層的機制實現(xiàn)速度與總量的平衡。傳統(tǒng)數(shù)據(jù)庫在處理關(guān)系型數(shù)據(jù)之外,如何在 NoSQL的大潮中看待傳統(tǒng)數(shù)據(jù)庫技術(shù)?
百度索引中提供檢索的數(shù)據(jù)只有百億條,而現(xiàn)在每天增加的數(shù)據(jù)量已是2-3億條,現(xiàn)在每一天增加的數(shù)據(jù)量是2003年一年數(shù)據(jù)的增長量。對于如此強勢的增長,要對數(shù)據(jù)進行全部索引并在200-300個毫秒級返回檢索結(jié)果幾乎是不可能的,所以就要對數(shù)據(jù)進行優(yōu)化。
數(shù)據(jù)是有時效性的,索引可以為分最新最常使用的、不常使用的、很少使用的和很老又不用的等。所以可以多幾個索引庫,并對數(shù)據(jù)進行整理,對于時效性不強的可以向后面的索引里轉(zhuǎn)移,檢索時對這幾個索引并發(fā)檢索,最后將結(jié)果合并后返回用戶。對于不用的數(shù)據(jù)只是一個保存,而不提供檢索,或是在檢索結(jié)果很少的情況下,再多增加一個鏈接"點擊查看更多",點擊后就去查找老而全的庫。雖然返回時間可能會很長,但是用戶體驗的感受是不會降低的。