面向大數(shù)據(jù)的關(guān)鍵字檢索算法研究及優(yōu)化
發(fā)布時(shí)間:2017-03-28 17:11
本文關(guān)鍵詞:面向大數(shù)據(jù)的關(guān)鍵字檢索算法研究及優(yōu)化,由筆耕文化傳播整理發(fā)布。
【摘要】:針對(duì)傳統(tǒng)檢索模型在檢索上存在的數(shù)據(jù)冗余、模糊匹配、檢索結(jié)果差等缺點(diǎn),結(jié)合當(dāng)前研究熱點(diǎn),論述異構(gòu)數(shù)據(jù)集成、冗余數(shù)據(jù)排除、高效數(shù)據(jù)分類、關(guān)鍵字檢索等模型與方法,旨在大數(shù)據(jù)環(huán)境下,充分利用傳統(tǒng)技術(shù)與虛擬化技術(shù)、MapReduce并行框架模型、改進(jìn)向量空間檢索模型等技術(shù)相結(jié)合優(yōu)化存儲(chǔ)模型、改進(jìn)分類算法以及優(yōu)化檢索算法,進(jìn)而提高算法運(yùn)算效率,為用戶提供一套集數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分類、數(shù)據(jù)檢索于一體的大數(shù)據(jù)檢索基礎(chǔ)平臺(tái)。以關(guān)鍵字檢索算法作為研究對(duì)象,主要研究?jī)?nèi)容為:首先,為了更好地對(duì)數(shù)據(jù)檢索提供良好的數(shù)據(jù)存儲(chǔ)基礎(chǔ),研究數(shù)據(jù)模型的設(shè)計(jì)與優(yōu)化,并在云計(jì)算環(huán)境下研討設(shè)計(jì)數(shù)據(jù)存儲(chǔ)模型,文件塊的數(shù)據(jù)更新算法設(shè)計(jì),以及云存儲(chǔ)的故障恢復(fù)機(jī)制等。第二,為了達(dá)到準(zhǔn)確地對(duì)不同數(shù)據(jù)的檢索要求,在原有分類算法的基礎(chǔ)上提出了并行分類混合算法(PCHA算法),該算法利用鄰近分類算法適合處理屬性多、數(shù)據(jù)大的分類問(wèn)題的優(yōu)勢(shì),引入Map-Reduce并行框架與其融合設(shè)計(jì),優(yōu)化并提升原有分類算法的建模預(yù)測(cè)能力和分類識(shí)別率。第三,研討傳統(tǒng)檢索算法并提出無(wú)序關(guān)鍵字檢索算法(DKRA算法),該算法利用向量檢索模型計(jì)算方便、復(fù)雜度低等優(yōu)點(diǎn),引入K-D矩陣構(gòu)造及相似度等計(jì)算方法設(shè)計(jì)檢索算法,并與計(jì)算關(guān)鍵字序列權(quán)重得到相關(guān)數(shù)據(jù)相似度的計(jì)算方法做比較,從而體現(xiàn)DKRA算法在計(jì)算效率上的優(yōu)勢(shì)。最后,在DKRA算法的基礎(chǔ)上提出了有序關(guān)鍵字檢索算法(OKRA算法),該算法利用檢索關(guān)鍵字的有序性,給出了關(guān)鍵字檢索步長(zhǎng)、總體檢索步長(zhǎng)、相關(guān)數(shù)據(jù)檢索步長(zhǎng)、總體相關(guān)數(shù)據(jù)檢索步長(zhǎng)、位置匹配度的計(jì)算公式等的定義,在計(jì)算相似度中引入位置匹配度解決了由于檢索關(guān)鍵字順序組合造成的檢索錯(cuò)誤率問(wèn)題,利用該算法可以過(guò)濾掉較差無(wú)關(guān)數(shù)據(jù),降低數(shù)據(jù)集遍歷所耗時(shí)長(zhǎng),提高了相關(guān)檢索數(shù)據(jù)的返回質(zhì)量。
【關(guān)鍵詞】:大數(shù)據(jù) 存儲(chǔ)模型 并行分類 關(guān)鍵字檢索 算法優(yōu)化
【學(xué)位授予單位】:華北理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.3;TP311.13
【目錄】:
- 摘要4-5
- Abstract5-9
- 注釋說(shuō)明清單9-10
- 引言10-11
- 第1章 緒論11-16
- 1.1 研究背景及意義11-12
- 1.2 檢索算法研究現(xiàn)狀12-15
- 1.3 本文組織結(jié)構(gòu)15-16
- 第2章 模型與算法16-36
- 2.1 大數(shù)據(jù)基礎(chǔ)與技術(shù)16-23
- 2.1.1 大數(shù)據(jù)的發(fā)展背景16
- 2.1.2 大數(shù)據(jù)的概念和特征16-17
- 2.1.3 大數(shù)據(jù)的產(chǎn)生和類型17-18
- 2.1.4 大數(shù)據(jù)的存儲(chǔ)和處理18-21
- 2.1.5 大數(shù)據(jù)的查詢和分析21-22
- 2.1.6 大數(shù)據(jù)的分析和可視化22-23
- 2.2 存儲(chǔ)模型與設(shè)計(jì)23-26
- 2.2.1 基于云計(jì)算的數(shù)據(jù)存儲(chǔ)系統(tǒng)23-24
- 2.2.2 基于文件塊的數(shù)據(jù)更新算法24-25
- 2.2.3 基于云存儲(chǔ)的故障恢復(fù)機(jī)制25-26
- 2.3 分類模型與算法26-28
- 2.3.1 決策樹(shù)分類模型27
- 2.3.2 樸素貝葉斯分類模型27-28
- 2.3.3 k最近鄰分類模型28
- 2.4 檢索模型與算法28-36
- 2.4.1 向量空間模型28-30
- 2.4.2 概率檢索模型30-32
- 2.4.3 泊松檢索模型32-34
- 2.4.4 布爾檢索模型34-36
- 第3章 并行分類混合算法36-43
- 3.1 引言36
- 3.2 Map-Reduce模型36-38
- 3.3 PCHA算法提出38-40
- 3.3.1 相關(guān)定義38
- 3.3.2 算法設(shè)計(jì)38-40
- 3.4 算法驗(yàn)證及分析40-42
- 3.4.1 環(huán)境配置40
- 3.4.2 結(jié)果分析40-42
- 3.5 本章小結(jié)42-43
- 第4章 無(wú)序關(guān)鍵字檢索算法43-51
- 4.1 引言43
- 4.2 DKRA算法提出43-45
- 4.2.1 基本定義43-44
- 4.2.2 改進(jìn)算法44-45
- 4.3 算法驗(yàn)證及分析45-50
- 4.4 本章小結(jié)50-51
- 第5章 有序關(guān)鍵字檢索算法51-59
- 5.1 引言51
- 5.2 正排索引和倒排索引51-55
- 5.2.1 正排索引51-53
- 5.2.2 倒排索引53-55
- 5.3 OKRA算法提出55-57
- 5.3.1 基本定義55
- 5.3.2 改進(jìn)算法55-57
- 5.4 算法驗(yàn)證及分析57-58
- 5.5 本章小結(jié)58-59
- 結(jié)論59-60
- 參考文獻(xiàn)60-64
- 附錄64-68
- 致謝68-69
- 導(dǎo)師簡(jiǎn)介69-70
- 作者簡(jiǎn)介70-71
- 學(xué)位論文數(shù)據(jù)集71
本文關(guān)鍵詞:面向大數(shù)據(jù)的關(guān)鍵字檢索算法研究及優(yōu)化,由筆耕文化傳播整理發(fā)布。
,本文編號(hào):272685
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/272685.html
最近更新
教材專著