基于64位體系結(jié)構(gòu)的倒排索引壓縮算法
本文關(guān)鍵詞:基于64位體系結(jié)構(gòu)的倒排索引壓縮算法
更多相關(guān)文章: 倒排索引 索引壓縮 位體系結(jié)構(gòu) 搜索引擎 信息檢索
【摘要】:在64位體系結(jié)構(gòu)的CPU中,字長從32位擴展到64位,處理器每次可以處理的數(shù)據(jù)也增加到64位。這對搜索引擎使用的核心數(shù)據(jù)結(jié)構(gòu)——倒排索引的壓縮與解壓縮帶來一定的影響。針對當(dāng)前32位整數(shù)字對齊壓縮算法Simple不適用于64位系統(tǒng)的問題,對其進行改進,并提出3種基于64位的字對齊壓縮算法,即SimpleX64-16、SimpleX64-32和SimpleX64-64。3種算法都采用多種壓縮模式,并對每個模式進行壓縮空間的優(yōu)化。在64位機器上GOV2和ClueWeb09B數(shù)據(jù)集的倒排索引實驗結(jié)果表明,與傳統(tǒng)的基于32位字對齊的壓縮算法相比,3種基于64位字對齊的算法在解壓速度方面最多提高14.5%,在壓縮率方面最多提高2.5%。
【作者單位】: 北京大學(xué)網(wǎng)絡(luò)與信息系統(tǒng)研究所;哈爾濱醫(yī)科大學(xué)附屬第一醫(yī)院信息中心;
【關(guān)鍵詞】: 倒排索引 索引壓縮 位體系結(jié)構(gòu) 搜索引擎 信息檢索
【基金】:國家自然科學(xué)基金資助項目(61272340,61073082) 人人游戲基金資助項目(QXWJ-YX-201206017)
【分類號】:TP391.3
【正文快照】: 1概述搜索引擎作為網(wǎng)絡(luò)時代的信息檢索工具,目前已成為用戶獲取網(wǎng)絡(luò)信息的主要途徑之一,其核心數(shù)據(jù)結(jié)構(gòu)是倒排索引。搜索引擎通常利用倒排索引壓縮技術(shù)來提升查詢處理速度。該技術(shù)除了能夠減少倒排索引占用的磁盤空間外,還能減少內(nèi)存占用,提高CPU緩存的命中率[1]。為了不斷提
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前3條
1 朱虹,吳林;倒排索引壓縮及在RDBMS全文檢索中的實現(xiàn)[J];華中科技大學(xué)學(xué)報(自然科學(xué)版);2005年04期
2 王虎;王潛平;;對幾種倒排文件壓縮技術(shù)的研究與分析[J];計算機工程與應(yīng)用;2006年07期
3 紀蕾,陳英;基于文檔重排的索引壓縮技術(shù)[J];清華大學(xué)學(xué)報(自然科學(xué)版);2005年S1期
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前4條
1 丁維;周長勝;崔凌云;馬志強;楊娜;;基于多級指引索引的高效技術(shù)[J];計算機與信息技術(shù);2006年06期
2 劉小珠;彭智勇;陳旭;;高效的隨機訪問分塊倒排文件自索引技術(shù)[J];計算機學(xué)報;2010年06期
3 方雪華;劉祖潤;;中小型中文報刊全文數(shù)據(jù)庫的建立及其應(yīng)用[J];邵陽學(xué)院學(xué)報(自然科學(xué)版);2006年01期
4 霍林;黃俊文;盧正鼎;黃保華;潘英花;王力;;二元互關(guān)聯(lián)后繼樹精簡索引模型研究[J];小型微型計算機系統(tǒng);2011年02期
中國重要會議論文全文數(shù)據(jù)庫 前3條
1 ;Improved Self-Indexing Inverted Files for Full-Text Retrieval[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(下)[C];2008年
2 朱虹;黃歡;;DM4全文檢索機制的改進[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2006年
3 劉小珠;孫莎;曾承;彭智勇;;基于緩存的倒排索引機制研究[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2007年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前4條
1 楊傳耀;中文信息檢索索引模型及相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2007年
2 劉健;面向信息檢索的文本信息組織關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2009年
3 朱明杰;互聯(lián)網(wǎng)搜索系統(tǒng)中的高性能查詢問題研究[D];中國科學(xué)技術(shù)大學(xué);2009年
4 吳煒;密文全文檢索系統(tǒng)中的索引機制研究[D];華中科技大學(xué);2009年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 馬靜;基于web的數(shù)字化資源全文檢索系統(tǒng)的設(shè)計與實現(xiàn)[D];西安電子科技大學(xué);2010年
2 劉巍;基于內(nèi)容的同源音頻和視頻檢索[D];北京郵電大學(xué);2011年
3 陳恒;基于內(nèi)容的視頻搜索引擎[D];北京郵電大學(xué);2011年
4 李春豐;面向動態(tài)文本的在線索引若干問題研究[D];廣東工業(yè)大學(xué);2011年
5 蔣勵;關(guān)系數(shù)據(jù)庫中教育信息全文檢索效率的改進研究與實現(xiàn)[D];天津師范大學(xué);2011年
6 薛煜陽;農(nóng)業(yè)搜索引擎倒排索引緩沖機制研究[D];新疆農(nóng)業(yè)大學(xué);2011年
7 潘勝一;基于倒排索引的壓縮算法性能研究[D];杭州電子科技大學(xué);2009年
8 孫德才;相似字符串匹配過濾算法研究[D];湖南大學(xué);2009年
9 苗帥;海量數(shù)據(jù)存儲與全文檢索[D];江蘇科技大學(xué);2011年
10 漆團;數(shù)據(jù)庫中基于多索引段的全文索引研究[D];華中科技大學(xué);2011年
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 王濤;吳潔明;;搜索引擎建立倒排索引的算法研究[J];現(xiàn)代計算機(專業(yè)版);2008年01期
2 王路芳;張虎;;一種面向搜索引擎的基于集合模型的搜索算法[J];山西農(nóng)業(yè)大學(xué)學(xué)報(自然科學(xué)版);2009年06期
3 方冰;張一中;;高性能FTP搜索引擎的設(shè)計[J];南京郵電大學(xué)學(xué)報(自然科學(xué)版);2007年03期
4 李棟;史曉東;;一種支持高效檢索的實時更新倒排索引策略[J];情報學(xué)報;2006年01期
5 趙麗紅;維尼拉·木沙江;;維、哈、柯多語種搜索引擎中改進索引創(chuàng)建的新方法的構(gòu)思[J];現(xiàn)代計算機;2011年06期
6 吳文娟;車明;;搜索引擎倒排索引技術(shù)的改進[J];微處理機;2006年06期
7 李曉明;單棟棟;;基于文檔重要度的靜態(tài)索引剪枝方法[J];華南理工大學(xué)學(xué)報(自然科學(xué)版);2011年04期
8 匡振國;倪宏;嵇智輝;劉磊;;一種基于Lucene的影片搜索引擎的研究和應(yīng)用[J];計算機工程與應(yīng)用;2008年29期
9 郭立力;趙春江;;高效FTP搜索引擎的設(shè)計與實現(xiàn)[J];華南理工大學(xué)學(xué)報(自然科學(xué)版);2009年01期
10 易清亮;劉克劍;蔡祖戀;;基于P2P技術(shù)的大型分布式FTP搜索引擎研究[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2010年01期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 維尼拉·木沙江;吳俊森;吐爾根·依布拉音;;維吾爾文搜索引擎的倒排索引設(shè)計與實現(xiàn)[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年
2 孫宇;劉憬;張宇;劉挺;;基于分詞和倒排索引的短文本檢索技術(shù)的研究與實現(xiàn)[A];黑龍江省計算機學(xué)會2007年學(xué)術(shù)交流年會論文集[C];2007年
3 李棟;史曉東;;對搜索引擎中倒排索引更新策略的研究和改進[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2005年
4 彭軻;廖聞劍;;淺析搜索引擎[A];中國通信學(xué)會第五屆學(xué)術(shù)年會論文集[C];2008年
5 鄧長壽;郭景峰;楊焱林;鄧安遠;;下一代Web搜索引擎初探[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2001年
6 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網(wǎng)頁爬行器的設(shè)計與實現(xiàn)[A];少數(shù)民族青年自然語言處理技術(shù)研究與進展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設(shè)聯(lián)合學(xué)術(shù)研討會論文集[C];2010年
7 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國中醫(yī)藥信息研究會第二屆理事大會暨學(xué)術(shù)交流會議論文匯編[C];2003年
8 湯薇;曾艷;;構(gòu)建校園網(wǎng)搜索引擎必要性分析[A];廣西計算機學(xué)會2008年年會論文集[C];2008年
9 姚樹宇;趙少東;;一種使用分布式技術(shù)的搜索引擎[A];2005年全國開放式分布與并行計算學(xué)術(shù)會議論文集[C];2005年
10 倪俊峰;;基于黃頁搜索引擎的關(guān)鍵字排名廣告系統(tǒng)的設(shè)計與實現(xiàn)[A];2005年中國索引學(xué)會年會暨學(xué)術(shù)研討會論文集[C];2005年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 李一鑫;搜索排名的紅與黑[N];財經(jīng)時報;2007年
2 周文林;搜狗3.0能否撼動搜索市場[N];經(jīng)濟參考報;2007年
3 惠正一;比爾·蓋茨:微軟不怕Google[N];第一財經(jīng)日報;2005年
4 賽迪顧問股份有限公司互聯(lián)網(wǎng)與電子商務(wù)咨詢中心 常燕杰;搜索,,還是門戶[N];中國計算機報;2005年
5 陳珊;浙江移動推出手機搜索引擎服務(wù)[N];人民郵電;2005年
6 趙法忠;搜索引擎還需悠著點[N];中國經(jīng)營報;2005年
7 金朝力;搜索引擎火拼搜索質(zhì)量[N];北京商報;2006年
8 本報記者 趙曉輝 孟昭麗;搜索引擎駛?cè)搿氨茱L(fēng)港”[N];中國證券報;2006年
9 孫t;搜索引擎驚喜侵權(quán)官司止于“避風(fēng)港”?[N];第一財經(jīng)日報;2006年
10 姜蕊;問天下誰識搜索?[N];中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報;2006年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年
2 陳旭毅;基于索引云的企業(yè)搜索引擎實現(xiàn)研究[D];武漢大學(xué);2011年
3 岑榮偉;基于用戶行為分析的搜索引擎評價研究[D];清華大學(xué);2010年
4 蘇君華;面向搜索引擎的技術(shù)接受模型研究[D];南京大學(xué);2011年
5 劉佐達;分布協(xié)作式搜索引擎模型及算法研究[D];清華大學(xué);2011年
6 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學(xué);2012年
7 王昤璞;基于用戶體驗的互聯(lián)網(wǎng)搜索引擎醫(yī)學(xué)信息檢索可用性評估研究[D];吉林大學(xué);2010年
8 李莎莎;面向搜索引擎的自然語言處理關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年
9 鄭文良;基于簡單本體的農(nóng)業(yè)P2P搜索引擎關(guān)鍵技術(shù)研究[D];沈陽農(nóng)業(yè)大學(xué);2013年
10 張帆;搜索引擎中索引表求交和提前停止技術(shù)優(yōu)化研究[D];南開大學(xué);2012年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 吳寶貴;搜索引擎中索引技術(shù)研究與實現(xiàn)[D];西安電子科技大學(xué);2008年
2 吳俊森;維哈柯多語種搜索引擎倒排索引模塊的實現(xiàn)[D];新疆大學(xué);2007年
3 封俊;基于Hadoop的分布式搜索引擎研究與實現(xiàn)[D];太原理工大學(xué);2010年
4 尉建興;基于Lucene搜索引擎的研究與應(yīng)用[D];太原理工大學(xué);2011年
5 王珍;維、哈、柯文搜索引擎中的自動分類技術(shù)研究[D];新疆大學(xué);2010年
6 劉雪芹;單漢字全文檢索技術(shù)研究[D];河北工業(yè)大學(xué);2005年
7 王穎;中文局域網(wǎng)搜索引擎設(shè)計與實現(xiàn)[D];電子科技大學(xué);2009年
8 胡曉翠;站點搜索引擎的研究與實現(xiàn)[D];武漢科技大學(xué);2009年
9 劉宇波;面向可下載資源的WEB搜索引擎的設(shè)計與實現(xiàn)[D];湖南大學(xué);2005年
10 薛云;Internet上元搜索引擎的研究與設(shè)計[D];太原理工大學(xué);2003年
本文編號:692641
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/692641.html