天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 社科論文 > 圖書檔案論文 >

大數(shù)據(jù)的全文檢索研究

發(fā)布時間:2020-06-10 16:14
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的持續(xù)快速發(fā)展,人類社會進入了一個前所未有的信息化時代,那就是大數(shù)據(jù)時代。在大數(shù)據(jù)時代,人們掌握的數(shù)據(jù)在以爆炸性的速度增長,因而大數(shù)據(jù)的存儲和分析方法成為處理大數(shù)據(jù)的關(guān)鍵。大數(shù)據(jù)不僅僅是數(shù)據(jù)量的增長,數(shù)據(jù)的形態(tài)也在發(fā)生著根本性的變化。據(jù)統(tǒng)計,目前互聯(lián)網(wǎng)上80%以上的數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù)。因此,研究如何處理大規(guī)模非結(jié)構(gòu)化數(shù)據(jù),成為解決人們在大數(shù)據(jù)時代如何快速獲取有效信息的必由之路。 全文檢索是信息檢索領(lǐng)域一個非常重要的研究方向,它在非結(jié)構(gòu)化數(shù)據(jù)處理方面具有無可比擬的優(yōu)勢,它的核心就是索引技術(shù)。本文著重介紹了兩種不同索引結(jié)構(gòu)的索引模型,分別是基于外存的B+樹索引模型和基于外存的線性散列索引模型,并對兩種索引模型的性能進行了比較實驗研究。 首先,本文介紹了本課題的研究背景和研究意義,以及國內(nèi)外對大數(shù)據(jù)和全文檢索系統(tǒng)的研究現(xiàn)狀,并結(jié)合國內(nèi)外研究進展情況提出了本文的研究內(nèi)容、研究目標和擬解決的關(guān)鍵問題。對大數(shù)據(jù)的概念、全文檢索的概念、系統(tǒng)的整體架構(gòu)設(shè)計及全文檢索系統(tǒng)涉及到的關(guān)鍵技術(shù)也進行了詳細闡述。 其次,本文研究了基于兩種不同索引結(jié)構(gòu)的全文檢索系統(tǒng)的設(shè)計和實現(xiàn)過程。整個全文檢索系統(tǒng)主要包括三個模塊:索引模型構(gòu)建模塊、索引存儲結(jié)構(gòu)的設(shè)計與實現(xiàn)模塊與系統(tǒng)檢索模型構(gòu)建模塊,并詳細介紹了每個模塊的設(shè)計思路和實現(xiàn)細節(jié)。整個系統(tǒng)主要包括文檔集合來源、文檔預(yù)處理、正排索引構(gòu)建、分塊式倒排索引構(gòu)建、詞典文件的結(jié)構(gòu)設(shè)計、索引文件的結(jié)構(gòu)設(shè)計、緩沖區(qū)的管理機制、基于B+樹的倒排索引的實現(xiàn)、基于線性散列的倒排索引的實現(xiàn)、系統(tǒng)檢索模型構(gòu)建等內(nèi)容。 最后,本文對兩種不同索引結(jié)構(gòu)的倒排索引模型從時間復(fù)雜度和空間復(fù)雜度兩個方面進行了比較測試研究。具體是對檢索效率、索引維護效率以及兩種索引模式下磁盤占用體積等方面進行了對比實驗,并對實驗結(jié)果進行了分析。實驗結(jié)果表明,查詢每萬條數(shù)據(jù)耗時線性散列比B+樹索引快74.21%,插入每萬條數(shù)據(jù)耗時線性散列為B+樹索引的2.44倍,刪除每萬條數(shù)據(jù)耗時線性散列為B+樹索引的83.52%,線性散列索引文件大小為B+樹索引文件大小的109.56%。由測試結(jié)果可知,B+樹索引具有較快的索引構(gòu)建和更新速度,而線性散列索引則具有較高的磁盤空間占用率和較好的查詢性能。
【圖文】:

中國網(wǎng)


大數(shù)據(jù)的浪潮正席卷全世界,給技術(shù)和商業(yè)帶來巨大的變化。隨著網(wǎng)、下一代互聯(lián)網(wǎng)和下一代移動通信技術(shù)為代表的新一輪信息技術(shù)變革的信息產(chǎn)業(yè)競爭將逐漸從“軟件為王”轉(zhuǎn)向“數(shù)據(jù)為王”[1],這意味著大數(shù),這是信息化的一個嶄新發(fā)展方向。全球知名咨詢公司麥肯錫最早提出大來,進入 2012 年以后,大數(shù)據(jù)一詞越來越多的被提及。2012 年 3 月,美宣布開展“大數(shù)據(jù)的研究和發(fā)展計劃”[2],該計劃涉及到 6 個聯(lián)邦部門的承諾投資超過兩億美元。這標志著大數(shù)據(jù)在美國的發(fā)展已經(jīng)被提升至國家奧巴馬政府甚至將大數(shù)據(jù)定義為“未來的石油”。由此可見,大數(shù)據(jù)已成建設(shè)重大突破的前沿,也為信息化展現(xiàn)新的前景。根據(jù)第 33 次中國互聯(lián)網(wǎng)發(fā)展狀況統(tǒng)計報告[3](以下簡稱統(tǒng)計)描述,截止,中國網(wǎng)站數(shù)量為 320 萬,見下圖:

中國網(wǎng),頁數(shù),增長率


圖 1-2 中國網(wǎng)頁數(shù)量及增長率數(shù)據(jù)來源:中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計調(diào)查綜上所述,我國互聯(lián)網(wǎng)網(wǎng)站為我國網(wǎng)民提供了數(shù)量極為龐大的網(wǎng)絡(luò)信息資統(tǒng)計網(wǎng)站新聞和搜索引擎分別是我國網(wǎng)民使用規(guī)模排名第二、第三的互聯(lián)網(wǎng)第一的是即時通訊軟件 QQ),由此可知,互聯(lián)網(wǎng)的出現(xiàn)及迅速普及,深刻地了人們的生活方式,并從根本上改變了人們獲取信息的方式,網(wǎng)站成為人們息的主要來源之一。但也同時帶來了一個極具挑戰(zhàn)的現(xiàn)實問題,那就是面對信息量,人們?nèi)绾慰焖儆行У貜倪@些海量信息中獲取自己想要的信息。搜索這種應(yīng)用背景下被催生出來的一大新興技術(shù),從廣義上講,,搜索引擎實際上索引擎,其實質(zhì)是全文索引,它將自然語言處理與海量內(nèi)容管理技術(shù)融合在頁、文本、電子文檔、視頻和圖像等非結(jié)構(gòu)化信息提供強大的管理功能,從解決上述問題,讓人們能真正利用好互聯(lián)網(wǎng)的這種海量信息特性。
【學(xué)位授予單位】:新疆農(nóng)業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:G252.7

【參考文獻】

相關(guān)期刊論文 前10條

1 王英強;石永生;;B+樹在數(shù)據(jù)庫索引中的應(yīng)用[J];長江大學(xué)學(xué)報(自然科學(xué)版)理工卷;2008年01期

2 趙雄峰;;一種高效檢索XML文檔的倒排索引技術(shù)[J];電腦知識與技術(shù);2010年30期

3 趙鵬;一種基于壓縮的全文本數(shù)據(jù)庫倒排索引方法[J];黑龍江大學(xué)自然科學(xué)學(xué)報;2005年03期

4 曾海泉,劉永丹,宋揚,胡運發(fā);基于互關(guān)聯(lián)后繼樹的多時間序列關(guān)聯(lián)模式挖掘[J];計算機研究與發(fā)展;2003年07期

5 王冬;左萬利;赫楓齡;彭濤;張長利;;一種增量倒排索引結(jié)構(gòu)的設(shè)計與實現(xiàn)[J];吉林大學(xué)學(xué)報(理學(xué)版);2007年06期

6 鄧攀;劉功申;;一種高效的倒排索引存儲結(jié)構(gòu)[J];計算機工程與應(yīng)用;2008年31期

7 申展;江寶林;陳yN;唐磊;胡運發(fā);;全文檢索模型綜述[J];計算機科學(xué);2004年05期

8 蘇潭英;郭憲勇;金鑫;;一種基于Lucene的中文全文檢索系統(tǒng)[J];計算機工程;2007年23期

9 陳華輝;一個中英文全文搜索引擎的設(shè)計與實現(xiàn)[J];計算機應(yīng)用研究;2001年03期

10 郎楊琴;孔麗華;;美國發(fā)布“大數(shù)據(jù)的研究和發(fā)展計劃”[J];科研信息化技術(shù)與應(yīng)用;2012年02期

相關(guān)博士學(xué)位論文 前1條

1 單棟棟;搜索引擎中索引剪枝的研究[D];北京大學(xué);2013年



本文編號:2706538

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/tushudanganlunwen/2706538.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶4dbd2***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com