基于分布式框架下的中文文本特征分類研究
發(fā)布時間:2021-04-23 17:18
互聯(lián)網(wǎng)技術(shù)的快速發(fā)展為人類提供了一個源源不斷的信息源,面對海量的信息資源,如何利用自動化的方式快速、精準(zhǔn)地從海量的中文文本中提取出對用戶有價值的信息,已成為自然語言處理領(lǐng)域中的核心的研究焦點之一。云計算的迅速變化為海量中文文本數(shù)據(jù)的分布式存儲和挖掘分析帶來了優(yōu)勢和友好的條件。該中文計算系統(tǒng)的存儲是HDFS文件系統(tǒng),HDFS文件系統(tǒng)擁有的吞吐率高和容錯性好等一連串的特點,此與大數(shù)據(jù)挖掘分析的要求也很相符。本研究選取Spark用做數(shù)據(jù)分析處理的平臺,由于Spark具有Apache Hadoop和MapReduce的兩者優(yōu)勢,還有Spark因基于內(nèi)存的計算引擎框架,此對迭代計算和機器學(xué)習(xí)算法效率提高有幫助。在這項研究中,樸素貝葉斯(NB)和邏輯回歸分析(LR)被用于并行的中文文本分類,并對NB算法進(jìn)行了優(yōu)化,建立了自己的優(yōu)化分類模型,最終在Spark平臺上并行優(yōu)化實現(xiàn)。其中的工作主要包括:針對海量數(shù)據(jù)的特征需要進(jìn)行了一系列的預(yù)處理工作,本實驗對于海量的文本數(shù)據(jù)的特征建立了改進(jìn)的文本分類TNBIF模型。首先對文本數(shù)據(jù)進(jìn)行去除噪聲信息,句子分割,并進(jìn)行分詞和詞性標(biāo)注處理,對數(shù)據(jù)進(jìn)行清洗過濾只保留...
【文章來源】:內(nèi)蒙古科技大學(xué)內(nèi)蒙古自治區(qū)
【文章頁數(shù)】:65 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 本文研究背景
1.2 本文研究現(xiàn)狀
1.2.1 Spark的研究現(xiàn)狀
1.2.2 樸素貝葉斯算法研究現(xiàn)狀
1.2.3 邏輯回歸算法研究現(xiàn)狀
1.2.4 TextRank模型研究現(xiàn)狀
1.3 本文研究的主要工作
1.4 本文文章組織結(jié)構(gòu)
2 理論和技術(shù)基礎(chǔ)
2.1 中文文本特征與詞分析技術(shù)
2.1.1 中文文本存在的基本特征
2.1.2 中文文本數(shù)據(jù)結(jié)構(gòu)特征
2.1.3 基于統(tǒng)計的句法分析方法
2.1.4 中文分詞技術(shù)
2.2 Spark的體系結(jié)構(gòu)和編程模型
2.2.1 MapReduce計算框架
2.2.2 Spark編程模型
2.2.3 Spark內(nèi)存模型
2.3 文本分類算法
2.3.1 樸素貝葉斯算法
2.3.2 Logistic回歸分析
2.3.3 關(guān)鍵字提取的TextRank
2.4 本章小結(jié)
3 分布式框架下樸素貝葉斯改進(jìn)與Logistic回歸分類器實現(xiàn)
3.1 對數(shù)據(jù)集預(yù)處理去噪和降維
3.2 特征加權(quán)樸素貝葉斯算法
3.3 訓(xùn)練和測試階段
3.3.1 改進(jìn)中文分類模型在Spark上的實現(xiàn)
3.3.2 樸素貝葉斯(NB)
3.3.3 Logistic回歸(LR)
3.4 本章小結(jié)
4 實驗結(jié)果與分析
4.1 實驗數(shù)據(jù)
4.2 實驗環(huán)境
4.3 分布式框架下并行NB和 LR分類器實現(xiàn)
4.4 并行效率
4.5 性能評估
4.5.1 實驗最佳影響系數(shù)的測量
4.5.2 實驗中分類性能對比
4.5.3 實驗中時間性能和加速比分析
4.6 本章小結(jié)
結(jié)論
參考文獻(xiàn)
在學(xué)研究成果
致謝
【參考文獻(xiàn)】:
期刊論文
[1]一種改進(jìn)的MapReduce互信息文本特征選擇機制[J]. 陶永才,趙國樺,石磊,衛(wèi)琳. 小型微型計算機系統(tǒng). 2018(03)
[2]基于非均衡局部敏感哈希的并行文本分類研究[J]. 趙彤,劉斌,李濤. 微電子學(xué)與計算機. 2017(12)
[3]基于Spark與詞語相關(guān)度的KNN文本分類算法[J]. 于蘋蘋,倪建成,韋錦濤,曹博,姚彬修. 計算機技術(shù)與發(fā)展. 2018(03)
[4]大數(shù)據(jù)下基于MapReduce的Dirichlet樸素貝葉斯文本分類算法[J]. 胡曉東,高嘉偉. 科技通報. 2017(09)
[5]基于Spark的MapReduce相似度計算效率優(yōu)化[J]. 廖彬,張?zhí)?于炯,國冰磊,劉炎. 計算機科學(xué). 2017(08)
[6]Spark DAG優(yōu)化MapReduce協(xié)同過濾算法[J]. 廖彬,張?zhí)?于炯,國冰磊,張旭光,劉炎. 中山大學(xué)學(xué)報(自然科學(xué)版). 2017(03)
[7]Spark平臺下的高效Web文本分類系統(tǒng)的研究[J]. 李濤,劉斌. 計算機應(yīng)用與軟件. 2016(11)
[8]一種樸素貝葉斯文本分類算法的分布并行實現(xiàn)[J]. 郭緒坤,范冰冰. 計算機應(yīng)用與軟件. 2016(11)
[9]融合Word2vec與TextRank的關(guān)鍵詞抽取研究[J]. 寧建飛,劉降珍. 現(xiàn)代圖書情報技術(shù). 2016(06)
[10]基于圖計算的論文審稿自動推薦系統(tǒng)[J]. 謝瑋,沈一,馬永征. 計算機應(yīng)用研究. 2016(03)
碩士論文
[1]基于Spark的超大文本分類方法的設(shè)計與實現(xiàn)[D]. 宋福星.北京交通大學(xué) 2017
[2]基于Spark的文本譜聚類算法并行化研究[D]. 吳浩.華中科技大學(xué) 2016
[3]基于卷積神經(jīng)網(wǎng)絡(luò)的短文本分類方法研究[D]. 蔡慧蘋.西南大學(xué) 2016
[4]基于Hadoop的文本分類系統(tǒng)的設(shè)計與實現(xiàn)[D]. 潘振鵬.哈爾濱工業(yè)大學(xué) 2013
[5]基于Hadoop的文本分類研究[D]. 劉叢山.上海交通大學(xué) 2012
本文編號:3155724
【文章來源】:內(nèi)蒙古科技大學(xué)內(nèi)蒙古自治區(qū)
【文章頁數(shù)】:65 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 本文研究背景
1.2 本文研究現(xiàn)狀
1.2.1 Spark的研究現(xiàn)狀
1.2.2 樸素貝葉斯算法研究現(xiàn)狀
1.2.3 邏輯回歸算法研究現(xiàn)狀
1.2.4 TextRank模型研究現(xiàn)狀
1.3 本文研究的主要工作
1.4 本文文章組織結(jié)構(gòu)
2 理論和技術(shù)基礎(chǔ)
2.1 中文文本特征與詞分析技術(shù)
2.1.1 中文文本存在的基本特征
2.1.2 中文文本數(shù)據(jù)結(jié)構(gòu)特征
2.1.3 基于統(tǒng)計的句法分析方法
2.1.4 中文分詞技術(shù)
2.2 Spark的體系結(jié)構(gòu)和編程模型
2.2.1 MapReduce計算框架
2.2.2 Spark編程模型
2.2.3 Spark內(nèi)存模型
2.3 文本分類算法
2.3.1 樸素貝葉斯算法
2.3.2 Logistic回歸分析
2.3.3 關(guān)鍵字提取的TextRank
2.4 本章小結(jié)
3 分布式框架下樸素貝葉斯改進(jìn)與Logistic回歸分類器實現(xiàn)
3.1 對數(shù)據(jù)集預(yù)處理去噪和降維
3.2 特征加權(quán)樸素貝葉斯算法
3.3 訓(xùn)練和測試階段
3.3.1 改進(jìn)中文分類模型在Spark上的實現(xiàn)
3.3.2 樸素貝葉斯(NB)
3.3.3 Logistic回歸(LR)
3.4 本章小結(jié)
4 實驗結(jié)果與分析
4.1 實驗數(shù)據(jù)
4.2 實驗環(huán)境
4.3 分布式框架下并行NB和 LR分類器實現(xiàn)
4.4 并行效率
4.5 性能評估
4.5.1 實驗最佳影響系數(shù)的測量
4.5.2 實驗中分類性能對比
4.5.3 實驗中時間性能和加速比分析
4.6 本章小結(jié)
結(jié)論
參考文獻(xiàn)
在學(xué)研究成果
致謝
【參考文獻(xiàn)】:
期刊論文
[1]一種改進(jìn)的MapReduce互信息文本特征選擇機制[J]. 陶永才,趙國樺,石磊,衛(wèi)琳. 小型微型計算機系統(tǒng). 2018(03)
[2]基于非均衡局部敏感哈希的并行文本分類研究[J]. 趙彤,劉斌,李濤. 微電子學(xué)與計算機. 2017(12)
[3]基于Spark與詞語相關(guān)度的KNN文本分類算法[J]. 于蘋蘋,倪建成,韋錦濤,曹博,姚彬修. 計算機技術(shù)與發(fā)展. 2018(03)
[4]大數(shù)據(jù)下基于MapReduce的Dirichlet樸素貝葉斯文本分類算法[J]. 胡曉東,高嘉偉. 科技通報. 2017(09)
[5]基于Spark的MapReduce相似度計算效率優(yōu)化[J]. 廖彬,張?zhí)?于炯,國冰磊,劉炎. 計算機科學(xué). 2017(08)
[6]Spark DAG優(yōu)化MapReduce協(xié)同過濾算法[J]. 廖彬,張?zhí)?于炯,國冰磊,張旭光,劉炎. 中山大學(xué)學(xué)報(自然科學(xué)版). 2017(03)
[7]Spark平臺下的高效Web文本分類系統(tǒng)的研究[J]. 李濤,劉斌. 計算機應(yīng)用與軟件. 2016(11)
[8]一種樸素貝葉斯文本分類算法的分布并行實現(xiàn)[J]. 郭緒坤,范冰冰. 計算機應(yīng)用與軟件. 2016(11)
[9]融合Word2vec與TextRank的關(guān)鍵詞抽取研究[J]. 寧建飛,劉降珍. 現(xiàn)代圖書情報技術(shù). 2016(06)
[10]基于圖計算的論文審稿自動推薦系統(tǒng)[J]. 謝瑋,沈一,馬永征. 計算機應(yīng)用研究. 2016(03)
碩士論文
[1]基于Spark的超大文本分類方法的設(shè)計與實現(xiàn)[D]. 宋福星.北京交通大學(xué) 2017
[2]基于Spark的文本譜聚類算法并行化研究[D]. 吳浩.華中科技大學(xué) 2016
[3]基于卷積神經(jīng)網(wǎng)絡(luò)的短文本分類方法研究[D]. 蔡慧蘋.西南大學(xué) 2016
[4]基于Hadoop的文本分類系統(tǒng)的設(shè)計與實現(xiàn)[D]. 潘振鵬.哈爾濱工業(yè)大學(xué) 2013
[5]基于Hadoop的文本分類研究[D]. 劉叢山.上海交通大學(xué) 2012
本文編號:3155724
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3155724.html
最近更新
教材專著