基于Spark計算環(huán)境的改進Bayes文本分類并行算法的研究與實現(xiàn)
發(fā)布時間:2021-05-15 11:29
隨著信息社會的迅速發(fā)展,互聯(lián)網(wǎng)得到了廣泛的應(yīng)用,目前已然成為最重要的信息來源。特別是隨著云計算和大數(shù)據(jù)的出現(xiàn),互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)量呈指數(shù)等級增長。這些數(shù)據(jù)具有以下特點:數(shù)量大,維度高,結(jié)構(gòu)復(fù)雜,噪聲多,但具有廣泛的應(yīng)用前景。此外大部分的數(shù)據(jù)都是以文本的形式存儲在互聯(lián)網(wǎng)上。如何去有效的組織并使用這些數(shù)據(jù),在當前計算能力不足的情況下將會成為一個巨大的難題,特別是在互聯(lián)網(wǎng)應(yīng)用程序中,當用戶希望能準確、高效、快速地從大量的數(shù)據(jù)查找到自己需要的數(shù)據(jù)時,會對系統(tǒng)的計算能力和自然語言處理的算法提出更高的要求。樸素貝葉斯算法(Naive Bayesian)是十大經(jīng)典的數(shù)據(jù)挖掘算法之一,它作為在文本分類中的基本理論而廣為流傳。隨著互聯(lián)網(wǎng)和信息系統(tǒng)的高速發(fā)展,海量的數(shù)據(jù)在隨時隨地被產(chǎn)生出來。當傳統(tǒng)的Bayesian分類算法應(yīng)用到海量的大數(shù)據(jù)中時一些問題就會暴露出來。文本提出了一種在Spark計算環(huán)境中進行文本分類的Bayesian改進算法:INBPCS。因為多元伯努利模型并沒有考慮屬性維度對文本分類的影響,因此本文改進了基于多項式模型的Bayesian算法。另外對于文本分類的數(shù)據(jù)處理過程,本文首先提出了一種...
【文章來源】:湖南大學(xué)湖南省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:69 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 文本分類算法研究現(xiàn)狀
1.2.2 大數(shù)據(jù)處理框架研究現(xiàn)狀
1.2.3 噪聲處理和維度降低研究現(xiàn)狀
1.3 本文主要工作
1.4 論文組織架構(gòu)
第2章 一種改進的多元貝葉斯模型
2.1 樸素貝葉斯分類算法原理
2.2 改進的樸素貝葉斯文本分類算法原理
2.3 噪聲消除
2.4 維度縮減
2.4.1 信息增益
2.4.2 Trie樹和雙數(shù)組Trie樹
2.4.3 Viterbi維特比算法
2.5 數(shù)據(jù)傾斜消除
2.6 本章小結(jié)
第3章 Spark在 Shuffle過程中的內(nèi)存預(yù)測
3.1 MapReduce的原理
3.2 內(nèi)存預(yù)測
3.3 預(yù)測算法
3.4 本章小結(jié)
第4章 INBPCS算法在Spark平臺上的并行實現(xiàn)
4.1 INBPCS算法具體實現(xiàn)步驟
4.2 全局變量聲明
4.3 并行算法的訓(xùn)練和測試
4.4 本章小結(jié)
第5章 實驗結(jié)果與分析
5.1 實驗設(shè)置
5.2 性能分析
5.3 本章小結(jié)
結(jié)論
參考文獻
致謝
附錄A 攻讀學(xué)位期間所發(fā)表的學(xué)術(shù)論文目錄
附錄B 攻讀學(xué)位期間所參與的項目
【參考文獻】:
期刊論文
[1]基于雙數(shù)組Trie樹的中文分詞詞典算法優(yōu)化研究[J]. 楊文川,劉健,于淼. 計算機工程與科學(xué). 2013(09)
本文編號:3187555
【文章來源】:湖南大學(xué)湖南省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:69 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 文本分類算法研究現(xiàn)狀
1.2.2 大數(shù)據(jù)處理框架研究現(xiàn)狀
1.2.3 噪聲處理和維度降低研究現(xiàn)狀
1.3 本文主要工作
1.4 論文組織架構(gòu)
第2章 一種改進的多元貝葉斯模型
2.1 樸素貝葉斯分類算法原理
2.2 改進的樸素貝葉斯文本分類算法原理
2.3 噪聲消除
2.4 維度縮減
2.4.1 信息增益
2.4.2 Trie樹和雙數(shù)組Trie樹
2.4.3 Viterbi維特比算法
2.5 數(shù)據(jù)傾斜消除
2.6 本章小結(jié)
第3章 Spark在 Shuffle過程中的內(nèi)存預(yù)測
3.1 MapReduce的原理
3.2 內(nèi)存預(yù)測
3.3 預(yù)測算法
3.4 本章小結(jié)
第4章 INBPCS算法在Spark平臺上的并行實現(xiàn)
4.1 INBPCS算法具體實現(xiàn)步驟
4.2 全局變量聲明
4.3 并行算法的訓(xùn)練和測試
4.4 本章小結(jié)
第5章 實驗結(jié)果與分析
5.1 實驗設(shè)置
5.2 性能分析
5.3 本章小結(jié)
結(jié)論
參考文獻
致謝
附錄A 攻讀學(xué)位期間所發(fā)表的學(xué)術(shù)論文目錄
附錄B 攻讀學(xué)位期間所參與的項目
【參考文獻】:
期刊論文
[1]基于雙數(shù)組Trie樹的中文分詞詞典算法優(yōu)化研究[J]. 楊文川,劉健,于淼. 計算機工程與科學(xué). 2013(09)
本文編號:3187555
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3187555.html
最近更新
教材專著