基于Lucene多核并行索引方法的設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-08-20 20:20
隨著多核處理器技術(shù)日趨成熟,并行計(jì)算思想得到了推廣和普及,這為大幅提高軟件性能提供了有力的軟硬件支持。本文通過對(duì)多核并行計(jì)算技術(shù)的分析和研究,針對(duì)全文檢索引擎Lucene在索引大數(shù)據(jù)集文檔時(shí)的性能瓶頸問題,提出了一種基于Lucene多核并行索引的設(shè)計(jì)實(shí)現(xiàn)方法。本文提出的多核并行索引是一種在多核環(huán)境下進(jìn)行高效快速構(gòu)建Lucene索引的設(shè)計(jì)方案。多核并行索引以多核并行計(jì)算思想為理論基礎(chǔ),根據(jù)Lucene索引特性和并行庫的支持,通過使用工作池和緩沖策略,優(yōu)化了傳統(tǒng)Lucene索引的I/O瓶頸,并采用生產(chǎn)者/消費(fèi)者模式,解決了并行多任務(wù)索引的負(fù)載均衡問題。最終對(duì)Lucene傳統(tǒng)的串行索引過程進(jìn)行了多核并行化整合設(shè)計(jì)與實(shí)現(xiàn)。本文提出了一種多核并行索引的觀點(diǎn)用以提高Lucene索引速度,其主要有兩種具體實(shí)現(xiàn):一種是并行緩存索引,主要針對(duì)大數(shù)據(jù)集初次創(chuàng)建索引和數(shù)據(jù)恢復(fù)重建索引的場(chǎng)景;另一種是并行增量索引,主要針對(duì)由于文檔數(shù)據(jù)增減而需要頻繁更新索引的場(chǎng)景。本文對(duì)多核并行緩存索引方法的設(shè)計(jì)和實(shí)現(xiàn)進(jìn)行了詳細(xì)的論述,闡述了任務(wù)池的構(gòu)建、緩存索引的并行化、并發(fā)任務(wù)隊(duì)列的應(yīng)用等。最后針對(duì)基于Lucene的多核并...
【文章來源】:上海交通大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:55 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Lucene系統(tǒng)結(jié)構(gòu)圖
Lucene索引過程
圖 2-3 Lucene 索引文件概念結(jié)構(gòu)圖Fig.2-3 Diagram of logic structure of Lucene index file項(xiàng)(Term)是最小的索引概念,它直接代表了一個(gè)字符串以及其在文件中的位置現(xiàn)次數(shù)等相關(guān)信息。而域 (Filed) 是一個(gè)關(guān)聯(lián)的二元組,由一個(gè)域名和一個(gè)域值成。域名是一個(gè)字符串,域值是一個(gè)項(xiàng)。例如將“Title”作為域名和將代表“Title
【參考文獻(xiàn)】:
期刊論文
[1]Lucene全文檢索系統(tǒng)的研究與實(shí)現(xiàn)[J]. 龔磊,武友新. 計(jì)算機(jī)與數(shù)字工程. 2010(05)
[2]基于Lucene的中文倒排索引技術(shù)的研究[J]. 鄭榕增,林世平. 計(jì)算機(jī)技術(shù)與發(fā)展. 2010(03)
[3]基于Lucene.Net的分布式全文檢索系統(tǒng)[J]. 譚文堂,賀明科,李阜. 計(jì)算機(jī)應(yīng)用與軟件. 2009(09)
[4]基于Lucene的索引系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 黃少林,王華,張玉紅,蔣一峰. 現(xiàn)代情報(bào). 2009(07)
[5]基于Lucene搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J]. 嚴(yán)良達(dá). 寧波職業(yè)技術(shù)學(xué)院學(xué)報(bào). 2009(02)
[6]走進(jìn)多核時(shí)代[J]. 李曉明,王韜,劉東,杜江凌. 計(jì)算機(jī)科學(xué)與探索. 2008(06)
[7]基于Lucene的全文檢索系統(tǒng)研究與開發(fā)[J]. 郎小偉,王申康. 計(jì)算機(jī)工程. 2006(04)
[8]一種基于Lucene檢索引擎的全文數(shù)據(jù)庫的研究與實(shí)現(xiàn)[J]. 張校乾,金玉玲,侯麗波. 現(xiàn)代圖書情報(bào)技術(shù). 2005(02)
碩士論文
[1]基于多核的并行軟件工程的CDT模型的研究[D]. 陳輝.北京工業(yè)大學(xué) 2009
[2]基于Lucene的全文檢索系統(tǒng)的研究與應(yīng)用[D]. 張校乾.大連理工大學(xué) 2005
本文編號(hào):3354164
【文章來源】:上海交通大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:55 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Lucene系統(tǒng)結(jié)構(gòu)圖
Lucene索引過程
圖 2-3 Lucene 索引文件概念結(jié)構(gòu)圖Fig.2-3 Diagram of logic structure of Lucene index file項(xiàng)(Term)是最小的索引概念,它直接代表了一個(gè)字符串以及其在文件中的位置現(xiàn)次數(shù)等相關(guān)信息。而域 (Filed) 是一個(gè)關(guān)聯(lián)的二元組,由一個(gè)域名和一個(gè)域值成。域名是一個(gè)字符串,域值是一個(gè)項(xiàng)。例如將“Title”作為域名和將代表“Title
【參考文獻(xiàn)】:
期刊論文
[1]Lucene全文檢索系統(tǒng)的研究與實(shí)現(xiàn)[J]. 龔磊,武友新. 計(jì)算機(jī)與數(shù)字工程. 2010(05)
[2]基于Lucene的中文倒排索引技術(shù)的研究[J]. 鄭榕增,林世平. 計(jì)算機(jī)技術(shù)與發(fā)展. 2010(03)
[3]基于Lucene.Net的分布式全文檢索系統(tǒng)[J]. 譚文堂,賀明科,李阜. 計(jì)算機(jī)應(yīng)用與軟件. 2009(09)
[4]基于Lucene的索引系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 黃少林,王華,張玉紅,蔣一峰. 現(xiàn)代情報(bào). 2009(07)
[5]基于Lucene搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J]. 嚴(yán)良達(dá). 寧波職業(yè)技術(shù)學(xué)院學(xué)報(bào). 2009(02)
[6]走進(jìn)多核時(shí)代[J]. 李曉明,王韜,劉東,杜江凌. 計(jì)算機(jī)科學(xué)與探索. 2008(06)
[7]基于Lucene的全文檢索系統(tǒng)研究與開發(fā)[J]. 郎小偉,王申康. 計(jì)算機(jī)工程. 2006(04)
[8]一種基于Lucene檢索引擎的全文數(shù)據(jù)庫的研究與實(shí)現(xiàn)[J]. 張校乾,金玉玲,侯麗波. 現(xiàn)代圖書情報(bào)技術(shù). 2005(02)
碩士論文
[1]基于多核的并行軟件工程的CDT模型的研究[D]. 陳輝.北京工業(yè)大學(xué) 2009
[2]基于Lucene的全文檢索系統(tǒng)的研究與應(yīng)用[D]. 張校乾.大連理工大學(xué) 2005
本文編號(hào):3354164
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3354164.html
最近更新
教材專著