基于Spark的文本分類的研究
本文關(guān)鍵詞:基于Spark的文本分類的研究
更多相關(guān)文章: 文本分類 特征選擇 Spark 并行化 樸素貝葉斯
【摘要】:隨著互聯(lián)網(wǎng)和信息技術(shù)的不斷發(fā)展,文本形式的非結(jié)構(gòu)化數(shù)據(jù)正在不斷的增加。文本分類技術(shù)能夠有效地對文本數(shù)據(jù)進行組織和處理,廣泛地應(yīng)用在各個領(lǐng)域。文本分類的預(yù)處理、特征選擇、文本向量化以及文本分類器的生成都需要較大的時間和空間的開銷,當面對大規(guī)模的文本數(shù)據(jù)時,傳統(tǒng)的技術(shù)并不能滿足該需求。大數(shù)據(jù)技術(shù)的出現(xiàn)為大規(guī)模數(shù)據(jù)的處理提供了有效的解決方案,然而Hadoop采用的MapReduce并行編程模型具有一定的局限性,它是基于磁盤的,不能高效地利用計算產(chǎn)生的中間結(jié)果,而Spark是一種基于內(nèi)存的,能非常高效地利用中間結(jié)果,并且具有較高的處理速度。本文基于Spark對文本分類的各個過程進行并行化提高文本分類效率。本文先對文本分類和Spark計算框架分別進行了分析研究,然后完成了文本分類的各個過程在Spark平臺下的并行化設(shè)計,提高文本分類各個過程的處理效率。在特征選擇階段采用χ2統(tǒng)計方法進行特征降維,對該方法進行分析,并針對其中的不足,引入詞頻因子、類內(nèi)分散程度以及類間集中程度三種因子對其進行改進。在構(gòu)造文本分類器時,采用樸素貝葉斯分類算法對文本進行分類,通過對樸素貝葉斯分類算法分析得知該算法中最為關(guān)鍵的是計算特征項在類別屬性條件下的概率,將一種改進的TF-IDF算法用于計算特征詞在類別條件下的概率。最后,通過實驗對比,對本文提出的改進方案的有效性進行了驗證,實驗結(jié)果表明本文提出的改進方案提高了文本分類的準確率,基于Spark計算框架的并行化提高了文本分類各個過程的處理效率,減少了文本分類的時間開銷,并且具有可擴展性。在Spark計算平臺下對文本分類的預(yù)處理、特征選擇、文本表示、文本分類器的訓練以及對待分類文本進行分類的并行化,提高了文本分類的效率,實現(xiàn)了對大規(guī)模文本數(shù)據(jù)的處理。
【關(guān)鍵詞】:文本分類 特征選擇 Spark 并行化 樸素貝葉斯
【學位授予單位】:長春工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.1
【目錄】:
- 摘要3-4
- Abstract4-7
- 第一章 緒論7-10
- 1.1 研究背景與意義7
- 1.2 國內(nèi)外研究現(xiàn)狀7-8
- 1.3 論文主要內(nèi)容8
- 1.4 論文組織結(jié)構(gòu)8-10
- 第二章 文本分類相關(guān)技術(shù)研究10-17
- 2.1 文本分類概述10-11
- 2.2 預(yù)處理11-12
- 2.3 特征降維12-14
- 2.4 文本表示模型14-15
- 2.5 分類算法15-16
- 2.6 本章小結(jié)16-17
- 第三章 Spark相關(guān)技術(shù)研究17-25
- 3.1 Spark概述17-18
- 3.2 Spark編程模型18-23
- 3.2.1 數(shù)據(jù)抽象模型RDD18-19
- 3.2.2 并行操作19-22
- 3.2.3 共享變量22-23
- 3.3 編程示例23-24
- 3.4 本章小結(jié)24-25
- 第四章 基于Spark的文本分類并行化研究25-39
- 4.1 基于Spark的文本預(yù)處理25-26
- 4.2 基于Spark的特征選擇26-31
- 4.2.1 χ~2 統(tǒng)計方法分析26-27
- 4.2.2 χ~2 統(tǒng)計方法的改進27-29
- 4.2.3 特征選擇的并行化設(shè)計29-31
- 4.3 基于Spark的樸素貝葉斯分類器31-37
- 4.3.1 引入改進的TF-IDF算法32-33
- 4.3.2 樸素貝葉斯分類算法33-34
- 4.3.3 樸素貝葉斯分類器的并行化34-37
- 4.4 待分類文本分類的并行化設(shè)計37-38
- 4.5 本章小結(jié)38-39
- 第五章 實驗驗證與分析39-45
- 5.1 實驗環(huán)境39-41
- 5.2 實驗語料41-42
- 5.3 實驗結(jié)果與分析42-44
- 5.4 本章小結(jié)44-45
- 第六章 總結(jié)與展望45-46
- 6.1 總結(jié)45
- 6.2 展望45-46
- 致謝46-47
- 參考文獻47-50
- 作者簡介50
- 攻讀碩士學位期間研究成果50
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 李盛瑜;何文;;一種對聊天文本進行特征選取的方法研究[J];計算機科學;2007年05期
2 蔣志方;祝翠玲;吳強;;一個對不帶類別標記文本進行分類的方法[J];計算機工程;2007年12期
3 趙鋼;;從復(fù)雜文本中導(dǎo)入數(shù)據(jù)的方法[J];中國審計;2007年18期
4 易樹鴻;張為群;;一種基于粗集的文本數(shù)據(jù)特征信息的挖掘方法[J];計算機科學;2002年08期
5 李建中,楊艷,張艷秋;并行文本管理原型系統(tǒng)PDoc的功能與總體框架[J];哈爾濱工業(yè)大學學報;2004年09期
6 覃曉;元昌安;彭昱忠;丁超;;基于基因表達式編程的Web文本分類研究[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2009年03期
7 諶志群;;文本趨勢挖掘綜述[J];情報科學;2010年02期
8 王亞民;劉洋;;含附件文本的分類算法研究[J];情報雜志;2012年08期
9 江偉;潘昊;;基于優(yōu)化的多核學習方法的Web文本分類的研究[J];計算機技術(shù)與發(fā)展;2013年10期
10 陳福海;C++中用>>和<<重載實現(xiàn)文本文件的方便存取[J];現(xiàn)代計算機;1997年05期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 許君;王朝坤;劉立超;王建民;劉璋;;云環(huán)境中的近似復(fù)制文本檢測[A];第29屆中國數(shù)據(jù)庫學術(shù)會議論文集(B輯)(NDBC2012)[C];2012年
2 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國控制與決策學術(shù)年會論文集[C];1997年
3 胡蓉;唐常杰;陳敏敏;欒江;;關(guān)聯(lián)規(guī)則制導(dǎo)的遺傳算法在文本分類中的應(yīng)用[A];第十九屆全國數(shù)據(jù)庫學術(shù)會議論文集(研究報告篇)[C];2002年
4 李文波;孫樂;黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類新算法[A];第三屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2007年
5 黃云平;孫樂;李文波;;基于上下文圖模型文本表示的文本分類研究[A];第四屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集(上)[C];2008年
6 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國控制會議論文集[C];2008年
7 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復(fù)制文本檢測[A];NDBC2010第27屆中國數(shù)據(jù)庫學術(shù)會議論文集(B輯)[C];2010年
8 胡俊;黃厚寬;;一種基于SVM的可視化文本分類的方法[A];第二十一屆中國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2004年
9 勞錦明;韋崗;;文本壓縮技術(shù)研究的新進展[A];開創(chuàng)新世紀的通信技術(shù)——第七屆全國青年通信學術(shù)會議論文集[C];2001年
10 江荻;;藏語文本信息處理的歷程與進展[A];中文信息處理前沿進展——中國中文信息學會二十五周年學術(shù)會議論文集[C];2006年
中國重要報紙全文數(shù)據(jù)庫 前1條
1 戴洪玲;向Excel中快速輸入相同文本[N];中國電腦教育報;2004年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 宋歌;基于聚類森林的文本流分類方法研究[D];哈爾濱工業(yè)大學;2014年
2 韓開旭;基于支持向量機的文本情感分析研究[D];東北石油大學;2014年
3 鄭立洲;短文本信息抽取若干技術(shù)研究[D];中國科學技術(shù)大學;2016年
4 胡明涵;面向領(lǐng)域的文本分類與挖掘關(guān)鍵技術(shù)研究[D];東北大學 ;2009年
5 孫曉華;基于聚類的文本機會發(fā)現(xiàn)關(guān)鍵問題研究[D];哈爾濱工程大學;2010年
6 尚文倩;文本分類及其相關(guān)技術(shù)研究[D];北京交通大學;2007年
7 霍躍紅;典籍英譯譯者文體分析與文本的譯者識別[D];大連理工大學;2010年
8 熊云波;文本信息處理的若干關(guān)鍵技術(shù)研究[D];復(fù)旦大學;2006年
9 李自強;大規(guī)模文本分類的若干問題研究[D];電子科技大學;2013年
10 楊震;文本分類和聚類中若干問題的研究[D];北京郵電大學;2007年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 王軼霞;基于半監(jiān)督遞歸自編碼的情感分類研究[D];內(nèi)蒙古大學;2015年
2 金傳鑫;氣象文本分類特征選擇方法及其在MapReduce上的實現(xiàn)[D];南京信息工程大學;2015年
3 李少卿;不良文本及其變體信息的檢測過濾技術(shù)研究[D];復(fù)旦大學;2014年
4 董秦濤;基于文本的個人情感狀態(tài)分析研究[D];蘭州大學;2015年
5 鐘文波;搜索引擎中關(guān)鍵詞分類方法評估及推薦應(yīng)用[D];華南理工大學;2015年
6 黃晨;基于新詞識別和時間跨度的微博熱點研究[D];上海交通大學;2015年
7 陳紅陽;中文微博話題發(fā)現(xiàn)技術(shù)研究[D];重慶理工大學;2015年
8 王s,
本文編號:1134957
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1134957.html