天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

面向大數(shù)據(jù)的關(guān)鍵字檢索算法研究及優(yōu)化

發(fā)布時(shí)間:2017-03-28 17:11

  本文關(guān)鍵詞:面向大數(shù)據(jù)的關(guān)鍵字檢索算法研究及優(yōu)化,由筆耕文化傳播整理發(fā)布。


【摘要】:針對(duì)傳統(tǒng)檢索模型在檢索上存在的數(shù)據(jù)冗余、模糊匹配、檢索結(jié)果差等缺點(diǎn),結(jié)合當(dāng)前研究熱點(diǎn),論述異構(gòu)數(shù)據(jù)集成、冗余數(shù)據(jù)排除、高效數(shù)據(jù)分類、關(guān)鍵字檢索等模型與方法,旨在大數(shù)據(jù)環(huán)境下,充分利用傳統(tǒng)技術(shù)與虛擬化技術(shù)、MapReduce并行框架模型、改進(jìn)向量空間檢索模型等技術(shù)相結(jié)合優(yōu)化存儲(chǔ)模型、改進(jìn)分類算法以及優(yōu)化檢索算法,進(jìn)而提高算法運(yùn)算效率,為用戶提供一套集數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分類、數(shù)據(jù)檢索于一體的大數(shù)據(jù)檢索基礎(chǔ)平臺(tái)。以關(guān)鍵字檢索算法作為研究對(duì)象,主要研究?jī)?nèi)容為:首先,為了更好地對(duì)數(shù)據(jù)檢索提供良好的數(shù)據(jù)存儲(chǔ)基礎(chǔ),研究數(shù)據(jù)模型的設(shè)計(jì)與優(yōu)化,并在云計(jì)算環(huán)境下研討設(shè)計(jì)數(shù)據(jù)存儲(chǔ)模型,文件塊的數(shù)據(jù)更新算法設(shè)計(jì),以及云存儲(chǔ)的故障恢復(fù)機(jī)制等。第二,為了達(dá)到準(zhǔn)確地對(duì)不同數(shù)據(jù)的檢索要求,在原有分類算法的基礎(chǔ)上提出了并行分類混合算法(PCHA算法),該算法利用鄰近分類算法適合處理屬性多、數(shù)據(jù)大的分類問(wèn)題的優(yōu)勢(shì),引入Map-Reduce并行框架與其融合設(shè)計(jì),優(yōu)化并提升原有分類算法的建模預(yù)測(cè)能力和分類識(shí)別率。第三,研討傳統(tǒng)檢索算法并提出無(wú)序關(guān)鍵字檢索算法(DKRA算法),該算法利用向量檢索模型計(jì)算方便、復(fù)雜度低等優(yōu)點(diǎn),引入K-D矩陣構(gòu)造及相似度等計(jì)算方法設(shè)計(jì)檢索算法,并與計(jì)算關(guān)鍵字序列權(quán)重得到相關(guān)數(shù)據(jù)相似度的計(jì)算方法做比較,從而體現(xiàn)DKRA算法在計(jì)算效率上的優(yōu)勢(shì)。最后,在DKRA算法的基礎(chǔ)上提出了有序關(guān)鍵字檢索算法(OKRA算法),該算法利用檢索關(guān)鍵字的有序性,給出了關(guān)鍵字檢索步長(zhǎng)、總體檢索步長(zhǎng)、相關(guān)數(shù)據(jù)檢索步長(zhǎng)、總體相關(guān)數(shù)據(jù)檢索步長(zhǎng)、位置匹配度的計(jì)算公式等的定義,在計(jì)算相似度中引入位置匹配度解決了由于檢索關(guān)鍵字順序組合造成的檢索錯(cuò)誤率問(wèn)題,利用該算法可以過(guò)濾掉較差無(wú)關(guān)數(shù)據(jù),降低數(shù)據(jù)集遍歷所耗時(shí)長(zhǎng),提高了相關(guān)檢索數(shù)據(jù)的返回質(zhì)量。
【關(guān)鍵詞】:大數(shù)據(jù) 存儲(chǔ)模型 并行分類 關(guān)鍵字檢索 算法優(yōu)化
【學(xué)位授予單位】:華北理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.3;TP311.13
【目錄】:
  • 摘要4-5
  • Abstract5-9
  • 注釋說(shuō)明清單9-10
  • 引言10-11
  • 第1章 緒論11-16
  • 1.1 研究背景及意義11-12
  • 1.2 檢索算法研究現(xiàn)狀12-15
  • 1.3 本文組織結(jié)構(gòu)15-16
  • 第2章 模型與算法16-36
  • 2.1 大數(shù)據(jù)基礎(chǔ)與技術(shù)16-23
  • 2.1.1 大數(shù)據(jù)的發(fā)展背景16
  • 2.1.2 大數(shù)據(jù)的概念和特征16-17
  • 2.1.3 大數(shù)據(jù)的產(chǎn)生和類型17-18
  • 2.1.4 大數(shù)據(jù)的存儲(chǔ)和處理18-21
  • 2.1.5 大數(shù)據(jù)的查詢和分析21-22
  • 2.1.6 大數(shù)據(jù)的分析和可視化22-23
  • 2.2 存儲(chǔ)模型與設(shè)計(jì)23-26
  • 2.2.1 基于云計(jì)算的數(shù)據(jù)存儲(chǔ)系統(tǒng)23-24
  • 2.2.2 基于文件塊的數(shù)據(jù)更新算法24-25
  • 2.2.3 基于云存儲(chǔ)的故障恢復(fù)機(jī)制25-26
  • 2.3 分類模型與算法26-28
  • 2.3.1 決策樹(shù)分類模型27
  • 2.3.2 樸素貝葉斯分類模型27-28
  • 2.3.3 k最近鄰分類模型28
  • 2.4 檢索模型與算法28-36
  • 2.4.1 向量空間模型28-30
  • 2.4.2 概率檢索模型30-32
  • 2.4.3 泊松檢索模型32-34
  • 2.4.4 布爾檢索模型34-36
  • 第3章 并行分類混合算法36-43
  • 3.1 引言36
  • 3.2 Map-Reduce模型36-38
  • 3.3 PCHA算法提出38-40
  • 3.3.1 相關(guān)定義38
  • 3.3.2 算法設(shè)計(jì)38-40
  • 3.4 算法驗(yàn)證及分析40-42
  • 3.4.1 環(huán)境配置40
  • 3.4.2 結(jié)果分析40-42
  • 3.5 本章小結(jié)42-43
  • 第4章 無(wú)序關(guān)鍵字檢索算法43-51
  • 4.1 引言43
  • 4.2 DKRA算法提出43-45
  • 4.2.1 基本定義43-44
  • 4.2.2 改進(jìn)算法44-45
  • 4.3 算法驗(yàn)證及分析45-50
  • 4.4 本章小結(jié)50-51
  • 第5章 有序關(guān)鍵字檢索算法51-59
  • 5.1 引言51
  • 5.2 正排索引和倒排索引51-55
  • 5.2.1 正排索引51-53
  • 5.2.2 倒排索引53-55
  • 5.3 OKRA算法提出55-57
  • 5.3.1 基本定義55
  • 5.3.2 改進(jìn)算法55-57
  • 5.4 算法驗(yàn)證及分析57-58
  • 5.5 本章小結(jié)58-59
  • 結(jié)論59-60
  • 參考文獻(xiàn)60-64
  • 附錄64-68
  • 致謝68-69
  • 導(dǎo)師簡(jiǎn)介69-70
  • 作者簡(jiǎn)介70-71
  • 學(xué)位論文數(shù)據(jù)集71

  本文關(guān)鍵詞:面向大數(shù)據(jù)的關(guān)鍵字檢索算法研究及優(yōu)化,由筆耕文化傳播整理發(fā)布。

,

本文編號(hào):272685

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/272685.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶72364***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com