基于壓縮后綴數(shù)組技術(shù)的搜索引擎
[Abstract]:At present, the core module of search engine (indexer) adopts inverted file structure, and the accuracy of phrase query is low. In this paper, suffix array technology is introduced to carry out full-text indexing. In order to overcome the shortcoming of large space in full-text index, the technique of compressed suffix array is studied, and the size of suffix array index is compressed to O (n) bit. The steps of applying compressed suffix array index and the core operation pseudo code are also given. The comparative experiments show that the phrase precision of the index based on compressed suffix array is improved by nearly 20% compared with the traditional inverted file index.
【作者單位】: 西安理工大學(xué)計(jì)算機(jī)學(xué)院 西安理工大學(xué)計(jì)算機(jī)學(xué)院 西安理工大學(xué)計(jì)算機(jī)學(xué)院 西安理工大學(xué)計(jì)算機(jī)學(xué)院
【基金】:陜西省自然科學(xué)基金資助項(xiàng)目(2005F07)
【分類號(hào)】:TP391.3
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 景虹;詹海生;;基于Web Services的個(gè)性化學(xué)習(xí)資源獲取[J];中國(guó)遠(yuǎn)程教育;2006年08期
2 徐甜;田有貴;;數(shù)據(jù)挖掘在Web中的應(yīng)用研究[J];福建電腦;2006年09期
3 李彥,賈愛軍,占向輝,李翔龍;面向創(chuàng)新設(shè)計(jì)的多層次Web信息檢索研究[J];工程設(shè)計(jì)學(xué)報(bào);2005年03期
4 劉杰;談個(gè)人數(shù)字圖書館[J];甘肅科技;2004年04期
5 張強(qiáng)弓,喻國(guó)寶,廖湖聲,隋樹林;一種元搜索引擎的查詢結(jié)果處理模型[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年S1期
6 董民輝;;海洋類學(xué)科數(shù)字圖書館門戶體系建設(shè)與實(shí)踐初探[J];海洋信息;2006年01期
7 陳金陽(yáng),蔣建中,張良勝;FTP協(xié)議分析及其客戶端程序?qū)崿F(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2005年32期
8 潘靜,饒若楠;基于Web數(shù)據(jù)挖掘的信息獲取系統(tǒng)的研究及設(shè)計(jì)[J];計(jì)算機(jī)工程;2004年S1期
9 劉東飛;陳智賢;鄧俊濤;余俊;;一種輔助翻譯搜索引擎的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2007年01期
10 李富萍,曾建潮;基于多Agent的搜索引擎設(shè)計(jì)研究[J];計(jì)算機(jī)應(yīng)用;2004年S2期
相關(guān)會(huì)議論文 前2條
1 王虎;王潛平;;對(duì)整詞二分自動(dòng)分詞機(jī)制的改進(jìn)[A];中國(guó)計(jì)算技術(shù)與語(yǔ)言問題研究——第七屆中文信息處理國(guó)際會(huì)議論文集[C];2007年
2 吐爾地·托合提;維尼拉·木沙江;艾斯卡爾·艾木都拉;;基于Web的民文信息檢索中維、哈、柯文關(guān)鍵詞的預(yù)處理[A];中國(guó)計(jì)算技術(shù)與語(yǔ)言問題研究——第七屆中文信息處理國(guó)際會(huì)議論文集[C];2007年
相關(guān)博士學(xué)位論文 前7條
1 張宏斌;信息獲取中的兩類不確定問題研究[D];華中科技大學(xué);2004年
2 南凱;面向關(guān)系型數(shù)據(jù)共享的數(shù)據(jù)網(wǎng)格中間件研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2006年
3 楊傳耀;中文信息檢索索引模型及相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2007年
4 王樹梅;信息檢索相關(guān)技術(shù)研究[D];南京理工大學(xué);2007年
5 顏端武;面向知識(shí)服務(wù)的智能推薦系統(tǒng)研究[D];南京理工大學(xué);2007年
6 朱婕;網(wǎng)絡(luò)環(huán)境下個(gè)體信息獲取行為研究[D];吉林大學(xué);2007年
7 王輝;基于質(zhì)心具有增量性質(zhì)的主題爬行[D];吉林大學(xué);2007年
相關(guān)碩士學(xué)位論文 前10條
1 肖燕華;基于特征分塊的面向?qū)I(yè)領(lǐng)域的網(wǎng)絡(luò)信息搜索系統(tǒng)的研究與實(shí)現(xiàn)[D];東華大學(xué);2004年
2 陳菡;基于Web的遠(yuǎn)程答疑系統(tǒng)的研究與開發(fā)[D];上海師范大學(xué);2004年
3 董志勇;Web信息檢索中基于超鏈接的網(wǎng)頁(yè)評(píng)估算法的研究[D];河海大學(xué);2004年
4 鄭大慶;基于Multi-Agent Systems(MAS)的商務(wù)智能系統(tǒng)及其信息搜索引擎研究[D];廣東工業(yè)大學(xué);2004年
5 胡珍新;面向用戶的查詢擴(kuò)展研究與實(shí)現(xiàn)[D];江西師范大學(xué);2004年
6 吳福英;面向用戶的信息過濾研究與實(shí)現(xiàn)[D];江西師范大學(xué);2004年
7 萬中英;基于投影尋蹤中文網(wǎng)頁(yè)自動(dòng)分類[D];江西師范大學(xué);2004年
8 劉峰;通用中英文專業(yè)搜索引擎技術(shù)的研究及應(yīng)用[D];大連理工大學(xué);2004年
9 羅然;網(wǎng)絡(luò)媒體傳播的局限性問題及規(guī)避研究[D];廣西大學(xué);2004年
10 于愛軍;NERMS中基于Internet的搜索引擎研究與實(shí)現(xiàn)[D];吉林大學(xué);2004年
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 趙鎮(zhèn);沈滇明;王玉霞;劉月蘭;;漢字多功能設(shè)備管理系統(tǒng)[J];實(shí)驗(yàn)技術(shù)與管理;1985年01期
2 趙麗紅;維尼拉·木沙江;;維、哈、柯多語(yǔ)種搜索引擎中改進(jìn)索引創(chuàng)建的新方法的構(gòu)思[J];現(xiàn)代計(jì)算機(jī);2011年06期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
相關(guān)會(huì)議論文 前10條
1 孫琦;牛軍鈺;;基于倒排文件的索引模型綜述[A];第二十四屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2007年
2 張剛;孫健;丁國(guó)棟;米嘉;王斌;;海量數(shù)據(jù)的索引與檢索系統(tǒng)[A];全國(guó)網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)’2004論文集[C];2004年
3 周水庚;孫敬宇;胡運(yùn)發(fā);;一種文檔聚類新方法[A];第十六屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集[C];1999年
4 辛欣;李涓子;;基于Java語(yǔ)言全文信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];促進(jìn)企業(yè)信息化進(jìn)程——第十屆中國(guó)Java技術(shù)及應(yīng)用大會(huì)文集[C];2007年
5 劉莉;肖詩(shī)斌;王濤;施水才;;基于RSS的分布式博客搜索引擎設(shè)計(jì)[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
6 董祥千;左志宏;劉強(qiáng)國(guó);;Lucene倒排索引文件的實(shí)現(xiàn)與優(yōu)化[A];四川省通信學(xué)會(huì)2006年學(xué)術(shù)年會(huì)論文集(二)[C];2006年
7 王洪俊;施水才;俞士汶;肖詩(shī)斌;;人民日?qǐng)?bào)標(biāo)注語(yǔ)料的索引方法研究[A];全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
8 駱吉洲;李建中;高宏;;頻率向量的一種壓縮存儲(chǔ)方法[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年
9 張誼巖;張霞;;OpenBASE中BLOB型文本數(shù)據(jù)全文檢索的設(shè)計(jì)與實(shí)現(xiàn)[A];第十六屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集[C];1999年
10 鄧志鴻;張銘;陳捷;楊冬青;唐世渭;;基于本體的Web信息檢索模型初探[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年
相關(guān)碩士學(xué)位論文 前10條
1 程傳鵬;基于分類的智能信息檢索研究與實(shí)現(xiàn)[D];云南師范大學(xué);2005年
2 王齊;一種基于文本節(jié)點(diǎn)的XML文檔索引和查詢方法[D];山西大學(xué);2005年
3 李帥;全文檢索在“2008奧運(yùn)多語(yǔ)言系統(tǒng)”中的應(yīng)用研究與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2009年
4 王遠(yuǎn)定;中文搜索引擎的快速檢索方法研究[D];江南大學(xué);2009年
5 李s,
本文編號(hào):2155850
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2155850.html