實(shí)時(shí)壓縮文本索引技術(shù)研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2017-11-02 06:24
本文關(guān)鍵詞:實(shí)時(shí)壓縮文本索引技術(shù)研究與實(shí)現(xiàn)
更多相關(guān)文章: 全文索引 自索引 并行計(jì)算 數(shù)據(jù)壓縮 模糊搜索
【摘要】:互聯(lián)網(wǎng)的不斷發(fā)展導(dǎo)致網(wǎng)絡(luò)信息量越來越龐大,這也給信息檢索帶來了很大的挑戰(zhàn)。全文索引技術(shù)是搜索引擎、信息過濾等信息檢索領(lǐng)域中的關(guān)鍵技術(shù),全文索引是在龐大的文本字符串上建立的一種數(shù)據(jù)結(jié)構(gòu),利用該數(shù)據(jù)結(jié)構(gòu)可以實(shí)現(xiàn)對(duì)原文本的任意子串進(jìn)行高效搜索。 傳統(tǒng)的全文索引技術(shù)首先對(duì)原始文本建立索引,然后利用索引和原始文本實(shí)現(xiàn)對(duì)子串的搜索,所需空間大小是原始文本的4至20倍,造成了巨大的空間浪費(fèi)。壓縮的全文自索引技術(shù)是近期研究的熱點(diǎn),該技術(shù)僅利用索引即可完成子串搜索,并且可以從索引無損地還原出原始文本,是一種無需存儲(chǔ)原始文本的自索引技術(shù),在有些情況下,索引空間消耗不足原文本的50%,這就節(jié)省了很大的存儲(chǔ)空間,壓縮的全文自索引技術(shù)達(dá)到了很好的時(shí)間和空間的平衡。此外,壓縮的全文自索引技術(shù)直接對(duì)二進(jìn)制數(shù)據(jù)進(jìn)行處理,索引的創(chuàng)建過程是與語義無關(guān)的,無需進(jìn)行分詞處理,這樣就避免了自然語言分詞技術(shù)帶來的麻煩。本文的研究?jī)?nèi)容和取得的研究成果如下: (1)本文綜述了關(guān)于壓縮的全文自索引技術(shù)的典型算法,并在多種數(shù)據(jù)集上對(duì)各種壓縮的全文自索引算法進(jìn)行綜合的測(cè)試評(píng)估,驗(yàn)證了壓縮的全文自索引技術(shù)的有效性和實(shí)用性。 (2)為了支持模糊搜索功能的應(yīng)用需求,在壓縮的全文自索引技術(shù)的基礎(chǔ)上,研究并實(shí)現(xiàn)了支持通配符搜索、編輯距離搜索、正則表達(dá)式搜索的文本索引技術(shù),對(duì)文本索引技術(shù)進(jìn)行了功能擴(kuò)展。 (3)設(shè)計(jì)并實(shí)現(xiàn)了高性能文本索引系統(tǒng),該系統(tǒng)采用可并行的壓縮的全文自索引算法RLCSA作為基礎(chǔ)解決方案,在眾核CPU高性能處理器上可實(shí)現(xiàn)多線程并行處理,提高了處理速度。該文本索引系統(tǒng)節(jié)省了空間開銷,可以對(duì)文本進(jìn)行實(shí)時(shí)索引,避免了自然語言分詞方法的影響,,整個(gè)系統(tǒng)的實(shí)現(xiàn)是基于Web方式的,可以跨平臺(tái)運(yùn)行,滿足了對(duì)社交網(wǎng)絡(luò)等實(shí)時(shí)更新數(shù)據(jù)對(duì)文本索引實(shí)時(shí)性的需求。
【關(guān)鍵詞】:全文索引 自索引 并行計(jì)算 數(shù)據(jù)壓縮 模糊搜索
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.1
【目錄】:
- 摘要4-5
- ABSTRACT5-9
- 第一章 引言9-14
- 1.1 研究背景與意義9-11
- 1.1.1 大數(shù)據(jù)時(shí)代的興起帶來新的挑戰(zhàn)9-10
- 1.1.2 傳統(tǒng)文本索引技術(shù)的缺陷與不足10-11
- 1.1.3 壓縮文本索引技術(shù)的特征11
- 1.1.4 新型體系結(jié)構(gòu)的發(fā)展11
- 1.2 論文主要內(nèi)容11-12
- 1.3 論文組織結(jié)構(gòu)12-14
- 第二章 國(guó)內(nèi)外研究現(xiàn)狀14-26
- 2.1 經(jīng)典的文本索引技術(shù)14-22
- 2.1.1 后綴樹和后綴數(shù)組14-17
- 2.1.2 倒排索引17-20
- 2.1.3 中文分詞20-22
- 2.2 全文索引系統(tǒng)22-24
- 2.2.1 Lucene22-23
- 2.2.2 Sphinx23
- 2.2.3 Xapian23-24
- 2.3 文本索引技術(shù)近期研究進(jìn)展24-26
- 第三章 壓縮的全文自索引技術(shù)綜述及性能評(píng)估26-36
- 3.1 基本概念26-27
- 3.2 壓縮的全文自索引算法27-30
- 3.2.1 后綴數(shù)組系列28-29
- 3.2.2 FM-Index系列29-30
- 3.2.3 LZ-Index系列30
- 3.3 復(fù)雜度比較30-31
- 3.4 實(shí)驗(yàn)評(píng)估31-35
- 3.4.1 索引建立32
- 3.4.2 計(jì)數(shù)和定位32-34
- 3.4.3 提取34
- 3.4.4 實(shí)驗(yàn)結(jié)果小結(jié)34-35
- 3.5 本章小結(jié)35-36
- 第四章 支持模糊搜索的文本索引技術(shù)36-43
- 4.1 通配符搜索36-38
- 4.1.1 算法思想36-37
- 4.1.2 算法描述37-38
- 4.2 編輯距離搜索38-40
- 4.2.1 編輯距離概述38
- 4.2.2 算法思想38-39
- 4.2.3 算法描述39-40
- 4.3 正則表達(dá)式搜索40-43
- 4.3.1 正則表達(dá)式概述40-41
- 4.3.2 算法思想41
- 4.3.3 算法描述41-43
- 第五章 高性能文本索引系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)43-53
- 5.1 RLCSA算法43-46
- 5.1.1 算法介紹43-44
- 5.1.2 算法測(cè)評(píng)44-46
- 5.2 模糊搜索46-47
- 5.3 實(shí)時(shí)索引47-49
- 5.4 系統(tǒng)總體設(shè)計(jì)與實(shí)現(xiàn)49-51
- 5.4.1 實(shí)時(shí)索引建立模塊50
- 5.4.2 模糊搜索處理模塊50
- 5.4.3 查詢客戶端模塊50-51
- 5.5 系統(tǒng)性能對(duì)比51-52
- 5.6 本章小結(jié)52-53
- 第六章 總結(jié)與展望53-55
- 6.1 研究成果總結(jié)53-54
- 6.2 下一步工作展望54-55
- 參考文獻(xiàn)55-61
- 致謝61-63
- 作者攻讀碩士學(xué)位期間發(fā)表的論文目錄63
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前6條
1 劉小珠;彭智勇;陳旭;;高效的隨機(jī)訪問分塊倒排文件自索引技術(shù)[J];計(jì)算機(jī)學(xué)報(bào);2010年06期
2 王曉龍,王開鑄,李仲榮,白小華;最少分詞問題及其解法[J];科學(xué)通報(bào);1989年13期
3 劉源,梁南元;漢語處理的基礎(chǔ)工程——現(xiàn)代漢語詞頻統(tǒng)計(jì)[J];中文信息學(xué)報(bào);1986年01期
4 劉學(xué)文,陶曉鵬,于玉,胡運(yùn)發(fā);一種全新的全文索引模型——后繼數(shù)組模型[J];軟件學(xué)報(bào);2002年01期
5 周水庚,胡運(yùn)發(fā),關(guān)佶紅;基于鄰接矩陣的全文索引模型(英文)[J];軟件學(xué)報(bào);2002年10期
6 劉小珠;彭智勇;;全文索引技術(shù)時(shí)空效率分析[J];軟件學(xué)報(bào);2009年07期
,本文編號(hào):1130370
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1130370.html
最近更新
教材專著