基于SPARK的中文文本特征提取及分類方法研究與實(shí)現(xiàn)

發(fā)布時(shí)間：2020-01-23 14:08

【摘要】：隨著數(shù)字化中文文本信息的爆發(fā)式增長(zhǎng),如何快速有效地挖掘這些數(shù)據(jù)背后的價(jià)值已經(jīng)成為擺在人們面前的一個(gè)挑戰(zhàn)。中文文本分類是中文文本處理和分析的關(guān)鍵技術(shù)之一,可以幫助人們解決信息雜亂的問(wèn)題。而當(dāng)數(shù)據(jù)規(guī)模比較大時(shí),單機(jī)版的分類處理會(huì)出現(xiàn)存儲(chǔ)和計(jì)算速度的瓶頸。針對(duì)這個(gè)問(wèn)題,可以借助于目前的分布式存儲(chǔ)和分布式計(jì)算技術(shù)來(lái)解決。HDFS是Hadoop的核心模塊之一,作為一個(gè)分布式文件系統(tǒng)可以很好的滿足分布式存儲(chǔ)的需要。Spark是MapReduce的繼承者,最大的特點(diǎn)就是就是利用內(nèi)存進(jìn)行計(jì)算,因而比MapReduce更快。本文在中文文本特征提取及分類方法的工作主要如下:(1)提出新的文本特征選擇方法,并與傳統(tǒng)的特征選擇方法做對(duì)比。該特征選擇方法綜合考慮詞在類內(nèi)和類間的文檔頻率分布情況,并運(yùn)用統(tǒng)計(jì)學(xué)中的方差思想,刻畫詞在文本分類中的重要程度從而進(jìn)行詞的篩選。(2)研究了基于文檔類別向量分布的文本特征表示方法和基于選舉思想的文本分類方法。文本特征表示一般采用向量空間模型,在經(jīng)典的文本特征表示方法中,文檔向量的一個(gè)元素對(duì)應(yīng)于該文檔中一個(gè)詞項(xiàng)。而在本文研究的方法中,文檔向量的一個(gè)元素對(duì)應(yīng)于該文檔屬于某一類別的概率估計(jì)。為了得到其中的概率估計(jì),本文探索了兩種方法,一種方法是基于樸素貝葉斯,另一種方法是基于選舉的思想。不像樸素貝葉斯方法存在著獨(dú)立性假設(shè),基于選舉思想的文本分類方法僅僅把詞視作選民,由它們投票決定文檔屬于哪個(gè)類別及其類別向量分布。對(duì)于訓(xùn)練集中的每個(gè)詞而言,通過(guò)統(tǒng)計(jì)分析,可以獲得它們屬于各個(gè)類別的概率估計(jì)。這種概率估計(jì)可以視作是一個(gè)詞投給各個(gè)類別的選票。本文類比樸素貝葉斯的兩種文本分類模型BIM和MM,提出了兩種選舉策略,此外還考慮了每個(gè)詞具有不同投票權(quán)重的情形。最后,利用以上思路改進(jìn)基于LDA的文本分類方法。在傳統(tǒng)的方式中,LDA獲取測(cè)試集的主題向量分布是通過(guò)Gibbs Sampling,存在速度慢的問(wèn)題。本文探索了基于選舉思想的測(cè)試集主題向量分布獲取,并通過(guò)相同的方法重新獲取訓(xùn)練集的主題向量分布,最后再用分類器進(jìn)行分類,在速度和分類效果上都有提升。(3)在HDFS和Spark平臺(tái)上,利用MLlib算法組件,分別實(shí)現(xiàn)了在新聞和微博語(yǔ)料庫(kù)上分類效果最好的方法。
【圖文】：

流程圖,文本分類,流程圖,訓(xùn)練集

電子科技大學(xué)碩士學(xué)位論文第二章相關(guān)理論和技術(shù)分類基本流程文本分類的基本步驟依次為構(gòu)建訓(xùn)練集、分詞、向量、構(gòu)建訓(xùn)練模型和測(cè)試評(píng)判。圖 2-1 展示了基練集：對(duì)于文本分類來(lái)說(shuō)，高質(zhì)量的訓(xùn)練集至關(guān)確保分類標(biāo)簽的正確性，，而且各類文本在數(shù)量上在文本分類方面，中文跟英文區(qū)別最大之處，就詞匯之間是連在一起的，沒(méi)有間隔，分詞就是在

決策樹(shù)分類,例子,不純度

圖 2-3 決策樹(shù)分類的例子策樹(shù)的構(gòu)建是從上而下的，自根節(jié)點(diǎn)開(kāi)始，每個(gè)非葉節(jié)點(diǎn)選擇一個(gè)行分裂，每個(gè)分支對(duì)應(yīng)一個(gè)屬性上的取值，如此遞歸直到滿足停止立決策樹(shù)的要點(diǎn)是選好節(jié)點(diǎn)對(duì)應(yīng)的分裂屬性。理想情況下，分裂屬是最優(yōu)的，那么它每個(gè)分支都應(yīng)該是純的，因此可以定義一個(gè)函數(shù)不純度，這個(gè)函數(shù)值越大則節(jié)點(diǎn)越不純，而一個(gè)最優(yōu)的分裂屬性應(yīng)所有子節(jié)點(diǎn)的不純度之差達(dá)到最大值[29]。常用的用于刻畫不純度的純度和熵不純度等[29]。決策樹(shù)模型建立過(guò)過(guò)程中需要通過(guò)剪枝來(lái)應(yīng)擬合的問(wèn)題。剪枝技術(shù)有兩種：預(yù)先剪枝是在決策樹(shù)生長(zhǎng)過(guò)程中，制，使其在產(chǎn)生擬合之前就不繼續(xù)生長(zhǎng)了；后剪枝方式是在決策樹(shù)底向上修剪決策樹(shù)。一般而言，后剪枝技術(shù)效果更好，但存在計(jì)算浪見(jiàn)的決策樹(shù)有 ID3、C4.5 和 CART，在選擇節(jié)點(diǎn)對(duì)應(yīng)的分裂屬性時(shí)，增益最大的屬性，存在的問(wèn)題是偏向多值屬性，很難處理連續(xù)型數(shù)據(jù)息增益率最大的屬性，標(biāo)稱型數(shù)據(jù)和連續(xù)型數(shù)據(jù)都能處理，解決了
【學(xué)位授予單位】：電子科技大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2017
【分類號(hào)】：TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文前10條

1 祖弦;謝飛;;LDA主題模型研究綜述[J];合肥師范學(xué)院學(xué)報(bào);2015年06期

2 唐勇;;基于樸素貝葉斯算法對(duì)論壇文本分類的技術(shù)實(shí)現(xiàn)[J];電腦知識(shí)與技術(shù);2014年32期

3 徐戈;張科;;基于隨機(jī)森林模型的房產(chǎn)價(jià)格評(píng)估[J];統(tǒng)計(jì)與決策;2014年17期

4 周庭銳;;互聯(lián)網(wǎng)思維與大數(shù)據(jù)變革[J];商學(xué)院;2014年08期

5 勞雙恩;曾良;韓志杰;周佩蓮;陳巖;;討論:審視技術(shù)的創(chuàng)新[J];中國(guó)廣告;2014年07期

6 劉海峰;于利軍;劉守生;;一種基于類別分布信息的文本特征選擇模型[J];圖書情報(bào)工作;2013年15期

7 張志飛;苗奪謙;高燦;;基于LDA主題模型的短文本分類方法[J];計(jì)算機(jī)應(yīng)用;2013年06期

8 董師師;黃哲學(xué);;隨機(jī)森林理論淺析[J];集成技術(shù);2013年01期

9 馮海超;;大數(shù)據(jù)時(shí)代正式到來(lái)[J];互聯(lián)網(wǎng)周刊;2012年24期

10 姚全珠;宋志理;彭程;;基于LDA模型的文本分類研究[J];計(jì)算機(jī)工程與應(yīng)用;2011年13期

相關(guān)會(huì)議論文前1條

1 石志偉;吳功宜;;改善樸素貝葉斯在文本分類中的穩(wěn)定性[A];NCIRCS2004第一屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年

相關(guān)碩士學(xué)位論文前4條

1 李Pr;基于樸素貝葉斯的文本分類研究及其在微博分類中的應(yīng)用[D];北京理工大學(xué);2015年

2 彭君睿;面向文本分類的特征提取算法研究[D];北京郵電大學(xué);2014年

3 李丹;基于樸素貝葉斯方法的中文文本分類研究[D];河北大學(xué);2011年

4 王懿;基于自然語(yǔ)言處理和機(jī)器學(xué)習(xí)的文本分類及其應(yīng)用研究[D];中國(guó)科學(xué)院研究生院（成都計(jì)算機(jī)應(yīng)用研究所）;2006年

本文編號(hào)：2572309

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2572309.html

上一篇：查詢結(jié)果可用性研究綜述
下一篇：特征顯著性的車輛目標(biāo)檢測(cè)算法

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于SPARK的中文文本特征提取及分類方法研究與實(shí)現(xiàn)