分布式搜索引擎索引安全及緩存策略研究
發(fā)布時(shí)間:2020-10-29 18:23
本課題所依托的國(guó)家863項(xiàng)目“分布式密文全文檢索系統(tǒng)關(guān)鍵技術(shù)研究”的主要應(yīng)用場(chǎng)景是具有較高文檔保密需求的政府機(jī)關(guān)和大中型企業(yè)。這些機(jī)構(gòu)的文檔保有規(guī)模和用戶數(shù)量十分巨大,需要使用分布式搜索引擎才能滿足日常搜索需要,而且他們對(duì)文檔的安全性和訪問控制均有較高要求,希望在滿足日常搜索需求的同時(shí)可以兼顧索引安全和訪問控制,盡量減少不必要的信息外泄。 作者所在課題組研究索引安全和分布式檢索已有時(shí)日,先后研發(fā)出集中式密文全文檢索系統(tǒng)和分布式密文全文檢索系統(tǒng),并且在湖北省電子政務(wù)領(lǐng)域有成功的應(yīng)用案例。但是先期系統(tǒng)仍然存在索引安全性不高,無獨(dú)立緩存機(jī)制等不足之處,本課題在已有成果的基礎(chǔ)上,針對(duì)上述問題進(jìn)行了優(yōu)化和改進(jìn)。 對(duì)索引安全策略的加密對(duì)象和加密方式進(jìn)行了結(jié)構(gòu)性調(diào)整,采用基于索引詞倒排表物理分塊加密的安全索引結(jié)構(gòu),直接面向底層索引文件進(jìn)行操作,全部分塊保持相同長(zhǎng)度,避免了惡意用戶利用分塊大小不同進(jìn)行統(tǒng)計(jì)攻擊的可能性,獲得了更高的安全性和索引處理效率。 新增了適用于原有系統(tǒng)的分布式緩存機(jī)制,為檢索服務(wù)器和索引服務(wù)器分別設(shè)置緩存。檢索服務(wù)器緩存查詢結(jié)果集,并且融入了對(duì)訪問控制信息的支持;索引服務(wù)器緩存索引詞倒排表,分為靜態(tài)和動(dòng)態(tài)兩部分,前者存放日常查詢中的高頻索引詞倒排表,負(fù)責(zé)處理大多數(shù)長(zhǎng)期穩(wěn)定的通用查詢請(qǐng)求;后者存放系統(tǒng)新近查詢用到的索引詞倒排表,滿足短期突發(fā)性熱點(diǎn)詞匯的查詢需求。
【學(xué)位單位】:華中科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2011
【中圖分類】:TP391.3;TP333
【部分圖文】:
如圖 2.1 所示。安全…計(jì)算機(jī)…新聞新鮮…<2,10><5,3,12><15,7>…<1,3><5,2><7,2><10,4><30,22>…<9,6><12,14><17,5>………………圖 2.1 倒排表模型示意圖2.1.2 PAT 數(shù)組PAT 數(shù)組是 Gonnet 在 1987 年提出的[23],由 PAT 樹發(fā)展而來,只要將 PAT 樹的葉子節(jié)點(diǎn)按照一定規(guī)則串行化就可以得到 PAT 數(shù)組,如圖 2.2 所示。與倒排表模型將文本看成單個(gè)索引詞的集合不同,PAT 數(shù)組將文本看成一系列字符串的集合,檢索時(shí)直接將用戶輸入的檢索條件作為一個(gè)完整的字符串,與 PAT 數(shù)組中的字符串進(jìn)行匹配。圖 2.2 PAT 數(shù)組模型示意圖
…新聞新鮮…<7,2><10,4><30,22>…<9,6><12,14><17,5>…………圖 2.1 倒排表模型示意圖.1.2 PAT 數(shù)組PAT 數(shù)組是 Gonnet 在 1987 年提出的[23],由 PAT 樹發(fā)展而來,只要將 PAT 樹子節(jié)點(diǎn)按照一定規(guī)則串行化就可以得到 PAT 數(shù)組,如圖 2.2 所示。與倒排表模文本看成單個(gè)索引詞的集合不同,PAT 數(shù)組將文本看成一系列字符串的集合,時(shí)直接將用戶輸入的檢索條件作為一個(gè)完整的字符串,與 PAT 數(shù)組中的字符串匹配。
華 中 科 技 大 學(xué) 碩 士 學(xué) 位 論 文 索引分布策略Stanfill 在 1989 年和 1990 年先后兩次描述了怎樣將索引信息分布到多個(gè)緊行處理器上,其底層的索引結(jié)構(gòu)設(shè)計(jì)非常簡(jiǎn)單[26, 27],Couvreur 比較了將幾引結(jié)構(gòu)(倒排表、簽名文件等)應(yīng)用于并行文本檢索環(huán)境時(shí)的優(yōu)劣[28]。分布式環(huán)境下的索引分布策略主要分為兩個(gè)大類:按詞條劃分(titioning)和按文檔劃分(Document Partitioning),其本質(zhì)區(qū)別為單個(gè)索引項(xiàng)件是存放在一臺(tái)還是多臺(tái)索引服務(wù)器上[29],如圖 2.4 所示。
【參考文獻(xiàn)】
本文編號(hào):2861283
【學(xué)位單位】:華中科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2011
【中圖分類】:TP391.3;TP333
【部分圖文】:
如圖 2.1 所示。安全…計(jì)算機(jī)…新聞新鮮…<2,10><5,3,12><15,7>…<1,3><5,2><7,2><10,4><30,22>…<9,6><12,14><17,5>………………圖 2.1 倒排表模型示意圖2.1.2 PAT 數(shù)組PAT 數(shù)組是 Gonnet 在 1987 年提出的[23],由 PAT 樹發(fā)展而來,只要將 PAT 樹的葉子節(jié)點(diǎn)按照一定規(guī)則串行化就可以得到 PAT 數(shù)組,如圖 2.2 所示。與倒排表模型將文本看成單個(gè)索引詞的集合不同,PAT 數(shù)組將文本看成一系列字符串的集合,檢索時(shí)直接將用戶輸入的檢索條件作為一個(gè)完整的字符串,與 PAT 數(shù)組中的字符串進(jìn)行匹配。圖 2.2 PAT 數(shù)組模型示意圖
…新聞新鮮…<7,2><10,4><30,22>…<9,6><12,14><17,5>…………圖 2.1 倒排表模型示意圖.1.2 PAT 數(shù)組PAT 數(shù)組是 Gonnet 在 1987 年提出的[23],由 PAT 樹發(fā)展而來,只要將 PAT 樹子節(jié)點(diǎn)按照一定規(guī)則串行化就可以得到 PAT 數(shù)組,如圖 2.2 所示。與倒排表模文本看成單個(gè)索引詞的集合不同,PAT 數(shù)組將文本看成一系列字符串的集合,時(shí)直接將用戶輸入的檢索條件作為一個(gè)完整的字符串,與 PAT 數(shù)組中的字符串匹配。
華 中 科 技 大 學(xué) 碩 士 學(xué) 位 論 文 索引分布策略Stanfill 在 1989 年和 1990 年先后兩次描述了怎樣將索引信息分布到多個(gè)緊行處理器上,其底層的索引結(jié)構(gòu)設(shè)計(jì)非常簡(jiǎn)單[26, 27],Couvreur 比較了將幾引結(jié)構(gòu)(倒排表、簽名文件等)應(yīng)用于并行文本檢索環(huán)境時(shí)的優(yōu)劣[28]。分布式環(huán)境下的索引分布策略主要分為兩個(gè)大類:按詞條劃分(titioning)和按文檔劃分(Document Partitioning),其本質(zhì)區(qū)別為單個(gè)索引項(xiàng)件是存放在一臺(tái)還是多臺(tái)索引服務(wù)器上[29],如圖 2.4 所示。
【參考文獻(xiàn)】
相關(guān)期刊論文 前4條
1 李新;密文數(shù)據(jù)庫(kù)系統(tǒng)的設(shè)計(jì)[J];計(jì)算機(jī)工程與應(yīng)用;2005年32期
2 閔高照,邵志清;中文搜索引擎FlyingSender的緩存優(yōu)化策略[J];計(jì)算機(jī)工程;2005年16期
3 顏維龍,蓋杰,武港山,袁春風(fēng);面向網(wǎng)絡(luò)的全文檢索中索引文件的組織[J];計(jì)算機(jī)應(yīng)用研究;2002年11期
4 許濤,吳淑燕;Google搜索引擎及其技術(shù)簡(jiǎn)介[J];現(xiàn)代圖書情報(bào)技術(shù);2003年04期
本文編號(hào):2861283
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2861283.html
最近更新
教材專著