基于Solr的海量數(shù)據(jù)并行索引及搜索緩存研究
本文關(guān)鍵詞:基于Solr的海量數(shù)據(jù)并行索引及搜索緩存研究 出處:《華中師范大學(xué)》2016年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 搜索引擎 Solr 并行索引 分級(jí)緩存 詞語(yǔ)相似度
【摘要】:隨著互聯(lián)網(wǎng)信息技術(shù)的快速發(fā)展,企業(yè)信息化程度不斷提高,各個(gè)行業(yè)內(nèi)的數(shù)據(jù)信息急劇增長(zhǎng),而且信息的存在形式也越來越多樣。這也使得如何使用戶能夠快速、精確的從企業(yè)的海量數(shù)據(jù)中找出所需要的關(guān)鍵信息變得越來越重要,而解決這一個(gè)問題的關(guān)鍵就是搜索引擎技術(shù)。隨著開源企業(yè)級(jí)搜索應(yīng)用服務(wù)器Solr的出現(xiàn),越來越多的企業(yè)開始構(gòu)建以此為基礎(chǔ)的海量數(shù)據(jù)搜索服務(wù)系統(tǒng)。傳統(tǒng)的搜索方式是使用文本數(shù)據(jù)庫(kù),雖然文本數(shù)據(jù)庫(kù)和搜索引擎的技術(shù)基礎(chǔ)都是全文檢索技術(shù),但是文本數(shù)據(jù)庫(kù)在處理海量數(shù)據(jù)方面的能力無法跟搜索引擎相媲美。搜索引擎采用服務(wù)器集群和分布式計(jì)算的策略,能夠處理較大的數(shù)據(jù)量。在海量數(shù)據(jù)的背景下,如何更好地利用開源Solr搜索引擎服務(wù)器搭建起快速高效的搜索引擎也成為重要的研究課題之一本文針對(duì)這種需求,在基于Solr搜索引擎服務(wù)器的基礎(chǔ)上,進(jìn)行海量數(shù)據(jù)搜索服務(wù)的研究。本文首先分析搜索引擎服務(wù)器集群的運(yùn)行特點(diǎn),運(yùn)用隨機(jī)過程中的排隊(duì)模型對(duì)集群系統(tǒng)的可用性進(jìn)行分析。接著在可用性的基礎(chǔ)上深入研究搜索引擎的索引構(gòu)建和搜索索引兩個(gè)關(guān)鍵過程。索引構(gòu)建的過程是將文本轉(zhuǎn)化為能夠被搜索引擎搜索的索引文件。本文在分析的基礎(chǔ)上提出并行索引的方式,將文檔構(gòu)建索引過程中的部分串行操作并行化,并通過性能負(fù)載均衡的策略提高各節(jié)點(diǎn)的資源利用率,以應(yīng)對(duì)海量數(shù)據(jù)構(gòu)建索引的場(chǎng)景,加速索引的構(gòu)建。對(duì)于搜索的過程,本文首先分析Solr的搜索過程,提出分級(jí)緩存模型。模型將頻繁搜索的熱點(diǎn)數(shù)據(jù)放置在緩存中,并對(duì)緩存數(shù)據(jù)進(jìn)行分級(jí),同時(shí)提出熱相關(guān)數(shù)據(jù)的概念,通過詞語(yǔ)相似度計(jì)算出與熱點(diǎn)數(shù)據(jù)相似的數(shù)據(jù),加載至緩存模型并進(jìn)行分級(jí)操作。本文同時(shí)針對(duì)分級(jí)緩存模型提出了維護(hù)策略,充分利用緩存空間,最后改進(jìn)傳統(tǒng)的緩存預(yù)熱算法,提高系統(tǒng)運(yùn)行初期的緩存命中率。本文通過搭建搜索引擎服務(wù)器集群,對(duì)海量數(shù)據(jù)的索引構(gòu)建和搜索過程進(jìn)行實(shí)驗(yàn)研究。實(shí)驗(yàn)結(jié)果表明,本文提出的并行索引和分級(jí)緩存模型能夠有效提升搜索引擎的索引構(gòu)建速度和請(qǐng)求響應(yīng)速度。
【學(xué)位授予單位】:華中師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP311.13;TP391.3
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前6條
1 付劍生;徐林龍;林文斌;;分布式全網(wǎng)職位搜索引擎的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)技術(shù)與發(fā)展;2015年05期
2 郭永利;盧穎穎;;網(wǎng)絡(luò)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];微型電腦應(yīng)用;2014年04期
3 祝官文;王念濱;王紅濱;;基于主題和表單屬性的深層網(wǎng)絡(luò)數(shù)據(jù)源分類方法[J];電子學(xué)報(bào);2013年02期
4 游彬;嚴(yán)岳松;孫英閣;劉靖;;基于HowNet的信息量計(jì)算語(yǔ)義相似度算法[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2013年01期
5 何詠梅;毛云舸;;搜索引擎的發(fā)展現(xiàn)狀與趨勢(shì)研究[J];吉林省經(jīng)濟(jì)管理干部學(xué)院學(xué)報(bào);2007年04期
6 秦春秀;趙捧未;劉懷亮;;詞語(yǔ)相似度計(jì)算研究[J];情報(bào)理論與實(shí)踐;2007年01期
,本文編號(hào):1313810
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1313810.html