基于日志分析的搜索引擎查詢結(jié)果緩存研究.ppt
本文關(guān)鍵詞:基于日志分析的搜索引擎查詢結(jié)果緩存研究,,由筆耕文化傳播整理發(fā)布。
網(wǎng)友wz_198614近日為您收集整理了關(guān)于基于日志分析的搜索引擎查詢結(jié)果緩存研究的文檔,希望對您的工作和學(xué)習(xí)有所幫助。以下是文檔介紹:基于日志分析的搜索引擎查詢結(jié)果緩存研究馬宏遠(yuǎn)王斌ICTIR1引言網(wǎng)民增多,對搜索引擎的使用日益頻繁。同時互聯(lián)網(wǎng)網(wǎng)頁的規(guī)模也在不斷膨脹。搜索引擎需要盡可能多的索引網(wǎng)頁并迅速提供查詢結(jié)果。緩存通過復(fù)制頻繁請求的數(shù)據(jù)到速度較快的存儲層次,使后續(xù)相同的請求得以快速訪問,并減少服務(wù)器的系統(tǒng)負(fù)載。21.主要工作對sogou搜索引擎一個月的用戶查詢?nèi)罩具M(jìn)行分析,研究其面向緩存應(yīng)用的工作負(fù)載特性。通過實驗和分析,研究緩存設(shè)置對搜索引擎系統(tǒng)優(yōu)化的貢獻(xiàn)。這是在中文商業(yè)搜索引擎環(huán)境下,第一次對搜索引擎緩存特性進(jìn)行分析。32.搜索引擎查詢結(jié)果緩存特性分析本文中性能特性的衡量指標(biāo)是命中率(Hit)Hit=Requstcache / Requst#4命中緩存的查詢所有查詢2.搜索引擎查詢結(jié)果緩存特性分析 ess=Hit*T1 + (1-Hit)*T2T1 為緩存訪問時間, T2 為磁盤訪問時間有 T1 << T252.1 局部性計算機(jī)在較短時期內(nèi),程序訪問局限在一定區(qū)域。這只是一種經(jīng)驗性質(zhì),不能保證成立,但可能性通常很高。查詢的詞符合Zipf定律,即一個單詞出現(xiàn)的頻率與它在頻率表里的排名成反比。62.1 局部性對查詢?nèi)罩镜姆治?查詢頻率(次數(shù))查詢詞按照查詢頻率的排序頻率最高的20%查詢占據(jù)了80.45%的查詢請求量80200040006000800010000120000 100000 200000 300000 400000 500000 600000查詢頻率(次數(shù))查詢詞按照查詢頻率的排序用搜狗實驗室中,sogou搜索引擎2008.8.26的53萬查詢數(shù)據(jù)實驗,也能得出相同結(jié)果2.2 查詢結(jié)果緩存策略分為靜態(tài)策略和動態(tài)策略靜態(tài)策略是離線方法。通過對用戶查詢?nèi)罩镜念l率統(tǒng)計,將頻率最高的一部分查詢結(jié)果放到緩存中。動態(tài)策略是在線方法。緩存的容量是固定的,隨著時間推進(jìn),當(dāng)所存的內(nèi)容超過緩存容量時,就需要到替代算法。最常用的算法即為LRU(最近最少使用算法)9102.2 查詢結(jié)果緩存策略命中率(%)緩存容量(千個查詢詞)以8月23日的用戶查詢?nèi)罩咀鳛闅v史信息8月24日的用戶查詢?nèi)罩咀鳛闇y試集動態(tài)策略靜態(tài)策略實驗:
1
播放器加載中,請稍候...
系統(tǒng)無法檢測到您的Adobe Flash Player版本
建議您在線安裝最新版本的Flash Player 在線安裝
本文關(guān)鍵詞:基于日志分析的搜索引擎查詢結(jié)果緩存研究,由筆耕文化傳播整理發(fā)布。
本文編號:47994
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/47994.html