基于HDFS的非結(jié)構(gòu)化數(shù)據(jù)檢索技術(shù)的研究與應(yīng)用
本文關(guān)鍵詞:基于HDFS的非結(jié)構(gòu)化數(shù)據(jù)檢索技術(shù)的研究與應(yīng)用,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著信息化程度的加深以及計算機技術(shù)在普通大眾中的普及,人們每天創(chuàng)造的數(shù)據(jù)量是驚人的,而且這些大規(guī)模的數(shù)據(jù)形式各異。其中非結(jié)構(gòu)化的數(shù)據(jù)占據(jù)大部分的比重,而人們?nèi)粘9ぷ髦兴璧男畔⒋蠖及谶@些非結(jié)構(gòu)化數(shù)據(jù)中。全文檢索是處理非結(jié)構(gòu)化數(shù)據(jù)的強有力的工具,為滿足用戶從數(shù)據(jù)資源中獲取日常所需信息提供了便捷的方法。本文針對全文檢索主要從索引構(gòu)建及更新策略和檢索結(jié)果的排序兩個方面對非結(jié)構(gòu)化數(shù)據(jù)的檢索進行研究。倒排索引是一種高效構(gòu)建非結(jié)構(gòu)化數(shù)據(jù)索引的方法,同時也是全文檢索的核心,而索引更新的速度影響檢索的效率,在此基礎(chǔ)上對檢索結(jié)果的排序算法進行了研究,使最終返回的檢索結(jié)果符合用戶心理預(yù)期和滿足用戶需求。本文經(jīng)過深入研究典型的索引合并更新策略和PageRank排序算法,分析了它們在應(yīng)用中存在的不足,提出了基于DHT的合并更新策略和改進的PageRank排序算法。本文主要工作有以下幾個方面:(1)針對非結(jié)構(gòu)化數(shù)據(jù)的特點,本文對HDFS的數(shù)據(jù)讀寫機制進行了深入研究,理解MapReduce模型創(chuàng)建非結(jié)構(gòu)化數(shù)據(jù)倒排索引的過程,分析MapReduce的任務(wù)調(diào)度和作業(yè)處理流程。(2)提出了基于DHT的倒排索引合并更新算法,在滿足動態(tài)文檔實時性的同時,這種算法采用多路歸并的方式有效地降低了索引合并代價,利用參數(shù)控制動態(tài)地調(diào)節(jié)倒排索引更新效率和檢索性能兩者的平衡。通過在HDFS集群上搭建檢索平臺進行對比實驗,驗證了該算法具有一定的優(yōu)越性。(3)提出改進的VSMT-PageRank排序算法,該算法在PageRank算法的基礎(chǔ)上引入了時間因子和相似度計算,有效地解決了偏重舊頁面和檢索結(jié)果缺乏時效性的問題,并且可以克服傳統(tǒng)排序算法中主題漂移的缺陷,從而提高了用戶對結(jié)果的滿意度和滿足了用戶的檢索需求。通過在HDFS集群上搭建檢索平臺,從新浪抓取數(shù)據(jù)集進行對比實驗,驗證了該算法的有效性。
【關(guān)鍵詞】:非結(jié)構(gòu)化數(shù)據(jù) HDFS系統(tǒng) 倒排索引更新 結(jié)果排序
【學(xué)位授予單位】:浙江理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.3
【目錄】:
- 摘要4-5
- ABSTRACT5-9
- 第一章 緒論9-15
- 1.1 研究背景及意義9-10
- 1.2 國內(nèi)外研究現(xiàn)狀10-11
- 1.3 論文的主要工作11-13
- 1.3.1 論文的寫作思想11-12
- 1.3.2 論文的主要工作12-13
- 1.4 論文章節(jié)安排13-15
- 第二章 相關(guān)技術(shù)研究15-30
- 2.1 全文檢索相關(guān)技術(shù)15-18
- 2.1.1 全文檢索15
- 2.1.2 Lucene技術(shù)簡介15-18
- 2.2 中文分詞算法18-23
- 2.2.1 基于字符串匹配的分詞算法18-19
- 2.2.2 基于統(tǒng)計的分詞算法19-22
- 2.2.3 基于理解的分詞算法22-23
- 2.3 分布式文件系統(tǒng)HDFS研究23-27
- 2.3.1 分布式文件系統(tǒng)簡介23
- 2.3.2 HDFS系統(tǒng)架構(gòu)概述23-24
- 2.3.3 分布式文件系統(tǒng)讀寫數(shù)據(jù)流24-27
- 2.4 MapReduce編程模型27-28
- 2.4.1 MapReduce模型概述27
- 2.4.2 MapReduce的作業(yè)處理流程27-28
- 2.5 倒排索引28-29
- 2.5.1 倒排索引的概述28
- 2.5.2 倒排索引的構(gòu)建28-29
- 2.6 本章小結(jié)29-30
- 第三章 非結(jié)構(gòu)化數(shù)據(jù)倒排索引更新策略30-42
- 3.1 引言30-31
- 3.2 動態(tài)索引與更新策略31-33
- 3.2.1 動態(tài)索引31
- 3.2.2 動態(tài)索引更新策略31-33
- 3.3 基于動態(tài)哈夫曼樹的更新算法33-37
- 3.3.1 提高合并效率的策略33
- 3.3.2 動態(tài)哈夫曼樹33-35
- 3.3.3 基于DHT的索引歸并算法35-36
- 3.3.4 基于DHT的索引碎片處理機制36-37
- 3.4 實驗與分析37-41
- 3.4.1 實驗環(huán)境37
- 3.4.2 實驗結(jié)果與分析37-41
- 3.5 本章小結(jié)41-42
- 第四章 結(jié)合向量空間模型和PageRank的結(jié)果排序算法42-55
- 4.1 引言42
- 4.2 向量空間模型42-44
- 4.3 PageRank結(jié)果排序算法的改進44-47
- 4.3.1 傳統(tǒng)的PageRank結(jié)果排序算法44-46
- 4.3.2 改進的PageRank結(jié)果排序算法46-47
- 4.4 結(jié)合向量空間模型和PageRank的結(jié)果排序算法47-48
- 4.5 實驗與分析48-54
- 4.5.1 實驗環(huán)境與實驗方案48-49
- 4.5.2 評價標準49-50
- 4.5.3 實驗結(jié)果與分析50-54
- 4.6 本章小結(jié)54-55
- 第五章 總結(jié)與展望55-57
- 5.1 論文工作總結(jié)55-56
- 5.2 研究展望56-57
- 參考文獻57-61
- 致謝61-62
- 攻讀學(xué)位期間的研究成果62
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 劉晴;;昆騰創(chuàng)新歸檔解決方案減輕了主存儲上非結(jié)構(gòu)化數(shù)據(jù)增長的負擔(dān)[J];計算機與網(wǎng)絡(luò);2013年23期
2 繆紅;鐘華;龍昕;;元器件企業(yè)保護非結(jié)構(gòu)化大數(shù)據(jù)的研究[J];電子元件與材料;2014年06期
3 王曉麗;;基于網(wǎng)絡(luò)的中學(xué)非結(jié)構(gòu)化教育資源建設(shè)探析[J];中國教育信息化;2007年08期
4 ToddMatsler;;深耕大數(shù)據(jù) 助力平安城市智慧轉(zhuǎn)型[J];中國信息界;2013年12期
5 經(jīng)有國;但斌;張旭梅;郭鋼;;基于本體的非結(jié)構(gòu)化客戶需求智能解析方法[J];計算機集成制造系統(tǒng);2010年05期
6 張廣泉;非結(jié)構(gòu)化程序流程圖及其等價變換[J];重慶師范學(xué)院學(xué)報(自然科學(xué)版);1993年03期
7 王曉波;;非結(jié)構(gòu)化數(shù)據(jù)采集和檢索技術(shù)的研究與實現(xiàn)[J];中國內(nèi)部審計;2014年07期
8 黃遠鳴;;一種非結(jié)構(gòu)化數(shù)據(jù)的多牽度分配存取實現(xiàn)方法[J];科技通報;2014年08期
9 劉威,武家春,廖建新,丁軼;非結(jié)構(gòu)化補充業(yè)務(wù)數(shù)據(jù)中心的設(shè)計與實現(xiàn)[J];計算機工程與應(yīng)用;2005年10期
10 羅文華;;非結(jié)構(gòu)化數(shù)據(jù)處理分析在電子數(shù)據(jù)取證中的應(yīng)用[J];警察技術(shù);2010年03期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 祝世京;陳s,
本文編號:418863
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/418863.html