天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于HDFS的非結(jié)構(gòu)化數(shù)據(jù)檢索技術(shù)的研究與應(yīng)用

發(fā)布時間:2017-06-03 18:12

  本文關(guān)鍵詞:基于HDFS的非結(jié)構(gòu)化數(shù)據(jù)檢索技術(shù)的研究與應(yīng)用,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著信息化程度的加深以及計算機技術(shù)在普通大眾中的普及,人們每天創(chuàng)造的數(shù)據(jù)量是驚人的,而且這些大規(guī)模的數(shù)據(jù)形式各異。其中非結(jié)構(gòu)化的數(shù)據(jù)占據(jù)大部分的比重,而人們?nèi)粘9ぷ髦兴璧男畔⒋蠖及谶@些非結(jié)構(gòu)化數(shù)據(jù)中。全文檢索是處理非結(jié)構(gòu)化數(shù)據(jù)的強有力的工具,為滿足用戶從數(shù)據(jù)資源中獲取日常所需信息提供了便捷的方法。本文針對全文檢索主要從索引構(gòu)建及更新策略和檢索結(jié)果的排序兩個方面對非結(jié)構(gòu)化數(shù)據(jù)的檢索進行研究。倒排索引是一種高效構(gòu)建非結(jié)構(gòu)化數(shù)據(jù)索引的方法,同時也是全文檢索的核心,而索引更新的速度影響檢索的效率,在此基礎(chǔ)上對檢索結(jié)果的排序算法進行了研究,使最終返回的檢索結(jié)果符合用戶心理預(yù)期和滿足用戶需求。本文經(jīng)過深入研究典型的索引合并更新策略和PageRank排序算法,分析了它們在應(yīng)用中存在的不足,提出了基于DHT的合并更新策略和改進的PageRank排序算法。本文主要工作有以下幾個方面:(1)針對非結(jié)構(gòu)化數(shù)據(jù)的特點,本文對HDFS的數(shù)據(jù)讀寫機制進行了深入研究,理解MapReduce模型創(chuàng)建非結(jié)構(gòu)化數(shù)據(jù)倒排索引的過程,分析MapReduce的任務(wù)調(diào)度和作業(yè)處理流程。(2)提出了基于DHT的倒排索引合并更新算法,在滿足動態(tài)文檔實時性的同時,這種算法采用多路歸并的方式有效地降低了索引合并代價,利用參數(shù)控制動態(tài)地調(diào)節(jié)倒排索引更新效率和檢索性能兩者的平衡。通過在HDFS集群上搭建檢索平臺進行對比實驗,驗證了該算法具有一定的優(yōu)越性。(3)提出改進的VSMT-PageRank排序算法,該算法在PageRank算法的基礎(chǔ)上引入了時間因子和相似度計算,有效地解決了偏重舊頁面和檢索結(jié)果缺乏時效性的問題,并且可以克服傳統(tǒng)排序算法中主題漂移的缺陷,從而提高了用戶對結(jié)果的滿意度和滿足了用戶的檢索需求。通過在HDFS集群上搭建檢索平臺,從新浪抓取數(shù)據(jù)集進行對比實驗,驗證了該算法的有效性。
【關(guān)鍵詞】:非結(jié)構(gòu)化數(shù)據(jù) HDFS系統(tǒng) 倒排索引更新 結(jié)果排序
【學(xué)位授予單位】:浙江理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.3
【目錄】:
  • 摘要4-5
  • ABSTRACT5-9
  • 第一章 緒論9-15
  • 1.1 研究背景及意義9-10
  • 1.2 國內(nèi)外研究現(xiàn)狀10-11
  • 1.3 論文的主要工作11-13
  • 1.3.1 論文的寫作思想11-12
  • 1.3.2 論文的主要工作12-13
  • 1.4 論文章節(jié)安排13-15
  • 第二章 相關(guān)技術(shù)研究15-30
  • 2.1 全文檢索相關(guān)技術(shù)15-18
  • 2.1.1 全文檢索15
  • 2.1.2 Lucene技術(shù)簡介15-18
  • 2.2 中文分詞算法18-23
  • 2.2.1 基于字符串匹配的分詞算法18-19
  • 2.2.2 基于統(tǒng)計的分詞算法19-22
  • 2.2.3 基于理解的分詞算法22-23
  • 2.3 分布式文件系統(tǒng)HDFS研究23-27
  • 2.3.1 分布式文件系統(tǒng)簡介23
  • 2.3.2 HDFS系統(tǒng)架構(gòu)概述23-24
  • 2.3.3 分布式文件系統(tǒng)讀寫數(shù)據(jù)流24-27
  • 2.4 MapReduce編程模型27-28
  • 2.4.1 MapReduce模型概述27
  • 2.4.2 MapReduce的作業(yè)處理流程27-28
  • 2.5 倒排索引28-29
  • 2.5.1 倒排索引的概述28
  • 2.5.2 倒排索引的構(gòu)建28-29
  • 2.6 本章小結(jié)29-30
  • 第三章 非結(jié)構(gòu)化數(shù)據(jù)倒排索引更新策略30-42
  • 3.1 引言30-31
  • 3.2 動態(tài)索引與更新策略31-33
  • 3.2.1 動態(tài)索引31
  • 3.2.2 動態(tài)索引更新策略31-33
  • 3.3 基于動態(tài)哈夫曼樹的更新算法33-37
  • 3.3.1 提高合并效率的策略33
  • 3.3.2 動態(tài)哈夫曼樹33-35
  • 3.3.3 基于DHT的索引歸并算法35-36
  • 3.3.4 基于DHT的索引碎片處理機制36-37
  • 3.4 實驗與分析37-41
  • 3.4.1 實驗環(huán)境37
  • 3.4.2 實驗結(jié)果與分析37-41
  • 3.5 本章小結(jié)41-42
  • 第四章 結(jié)合向量空間模型和PageRank的結(jié)果排序算法42-55
  • 4.1 引言42
  • 4.2 向量空間模型42-44
  • 4.3 PageRank結(jié)果排序算法的改進44-47
  • 4.3.1 傳統(tǒng)的PageRank結(jié)果排序算法44-46
  • 4.3.2 改進的PageRank結(jié)果排序算法46-47
  • 4.4 結(jié)合向量空間模型和PageRank的結(jié)果排序算法47-48
  • 4.5 實驗與分析48-54
  • 4.5.1 實驗環(huán)境與實驗方案48-49
  • 4.5.2 評價標準49-50
  • 4.5.3 實驗結(jié)果與分析50-54
  • 4.6 本章小結(jié)54-55
  • 第五章 總結(jié)與展望55-57
  • 5.1 論文工作總結(jié)55-56
  • 5.2 研究展望56-57
  • 參考文獻57-61
  • 致謝61-62
  • 攻讀學(xué)位期間的研究成果62

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 劉晴;;昆騰創(chuàng)新歸檔解決方案減輕了主存儲上非結(jié)構(gòu)化數(shù)據(jù)增長的負擔(dān)[J];計算機與網(wǎng)絡(luò);2013年23期

2 繆紅;鐘華;龍昕;;元器件企業(yè)保護非結(jié)構(gòu)化大數(shù)據(jù)的研究[J];電子元件與材料;2014年06期

3 王曉麗;;基于網(wǎng)絡(luò)的中學(xué)非結(jié)構(gòu)化教育資源建設(shè)探析[J];中國教育信息化;2007年08期

4 ToddMatsler;;深耕大數(shù)據(jù) 助力平安城市智慧轉(zhuǎn)型[J];中國信息界;2013年12期

5 經(jīng)有國;但斌;張旭梅;郭鋼;;基于本體的非結(jié)構(gòu)化客戶需求智能解析方法[J];計算機集成制造系統(tǒng);2010年05期

6 張廣泉;非結(jié)構(gòu)化程序流程圖及其等價變換[J];重慶師范學(xué)院學(xué)報(自然科學(xué)版);1993年03期

7 王曉波;;非結(jié)構(gòu)化數(shù)據(jù)采集和檢索技術(shù)的研究與實現(xiàn)[J];中國內(nèi)部審計;2014年07期

8 黃遠鳴;;一種非結(jié)構(gòu)化數(shù)據(jù)的多牽度分配存取實現(xiàn)方法[J];科技通報;2014年08期

9 劉威,武家春,廖建新,丁軼;非結(jié)構(gòu)化補充業(yè)務(wù)數(shù)據(jù)中心的設(shè)計與實現(xiàn)[J];計算機工程與應(yīng)用;2005年10期

10 羅文華;;非結(jié)構(gòu)化數(shù)據(jù)處理分析在電子數(shù)據(jù)取證中的應(yīng)用[J];警察技術(shù);2010年03期

中國重要會議論文全文數(shù)據(jù)庫 前10條

1 祝世京;陳s,

本文編號:418863


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/418863.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶10166***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com