天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

基于SPARK的中文文本特征提取及分類方法研究與實現(xiàn)

發(fā)布時間:2020-01-23 14:08
【摘要】:隨著數(shù)字化中文文本信息的爆發(fā)式增長,如何快速有效地挖掘這些數(shù)據(jù)背后的價值已經(jīng)成為擺在人們面前的一個挑戰(zhàn)。中文文本分類是中文文本處理和分析的關(guān)鍵技術(shù)之一,可以幫助人們解決信息雜亂的問題。而當數(shù)據(jù)規(guī)模比較大時,單機版的分類處理會出現(xiàn)存儲和計算速度的瓶頸。針對這個問題,可以借助于目前的分布式存儲和分布式計算技術(shù)來解決。HDFS是Hadoop的核心模塊之一,作為一個分布式文件系統(tǒng)可以很好的滿足分布式存儲的需要。Spark是MapReduce的繼承者,最大的特點就是就是利用內(nèi)存進行計算,因而比MapReduce更快。本文在中文文本特征提取及分類方法的工作主要如下:(1)提出新的文本特征選擇方法,并與傳統(tǒng)的特征選擇方法做對比。該特征選擇方法綜合考慮詞在類內(nèi)和類間的文檔頻率分布情況,并運用統(tǒng)計學(xué)中的方差思想,刻畫詞在文本分類中的重要程度從而進行詞的篩選。(2)研究了基于文檔類別向量分布的文本特征表示方法和基于選舉思想的文本分類方法。文本特征表示一般采用向量空間模型,在經(jīng)典的文本特征表示方法中,文檔向量的一個元素對應(yīng)于該文檔中一個詞項。而在本文研究的方法中,文檔向量的一個元素對應(yīng)于該文檔屬于某一類別的概率估計。為了得到其中的概率估計,本文探索了兩種方法,一種方法是基于樸素貝葉斯,另一種方法是基于選舉的思想。不像樸素貝葉斯方法存在著獨立性假設(shè),基于選舉思想的文本分類方法僅僅把詞視作選民,由它們投票決定文檔屬于哪個類別及其類別向量分布。對于訓(xùn)練集中的每個詞而言,通過統(tǒng)計分析,可以獲得它們屬于各個類別的概率估計。這種概率估計可以視作是一個詞投給各個類別的選票。本文類比樸素貝葉斯的兩種文本分類模型BIM和MM,提出了兩種選舉策略,此外還考慮了每個詞具有不同投票權(quán)重的情形。最后,利用以上思路改進基于LDA的文本分類方法。在傳統(tǒng)的方式中,LDA獲取測試集的主題向量分布是通過Gibbs Sampling,存在速度慢的問題。本文探索了基于選舉思想的測試集主題向量分布獲取,并通過相同的方法重新獲取訓(xùn)練集的主題向量分布,最后再用分類器進行分類,在速度和分類效果上都有提升。(3)在HDFS和Spark平臺上,利用MLlib算法組件,分別實現(xiàn)了在新聞和微博語料庫上分類效果最好的方法。
【圖文】:

流程圖,文本分類,流程圖,訓(xùn)練集


電子科技大學(xué)碩士學(xué)位論文第二章 相關(guān)理論和技術(shù)分類基本流程文本分類的基本步驟依次為構(gòu)建訓(xùn)練集、分詞、向量、構(gòu)建訓(xùn)練模型和測試評判。圖 2-1 展示了基練集:對于文本分類來說,高質(zhì)量的訓(xùn)練集至關(guān)確保分類標簽的正確性,,而且各類文本在數(shù)量上在文本分類方面,中文跟英文區(qū)別最大之處,就詞匯之間是連在一起的,沒有間隔,分詞就是在

決策樹分類,例子,不純度


圖 2-3 決策樹分類的例子策樹的構(gòu)建是從上而下的,自根節(jié)點開始,每個非葉節(jié)點選擇一個行分裂,每個分支對應(yīng)一個屬性上的取值,如此遞歸直到滿足停止立決策樹的要點是選好節(jié)點對應(yīng)的分裂屬性。理想情況下,分裂屬是最優(yōu)的,那么它每個分支都應(yīng)該是純的,因此可以定義一個函數(shù)不純度,這個函數(shù)值越大則節(jié)點越不純,而一個最優(yōu)的分裂屬性應(yīng)所有子節(jié)點的不純度之差達到最大值[29]。常用的用于刻畫不純度的純度和熵不純度等[29]。決策樹模型建立過過程中需要通過剪枝來應(yīng)擬合的問題。剪枝技術(shù)有兩種:預(yù)先剪枝是在決策樹生長過程中,制,使其在產(chǎn)生擬合之前就不繼續(xù)生長了;后剪枝方式是在決策樹底向上修剪決策樹。一般而言,后剪枝技術(shù)效果更好,但存在計算浪見的決策樹有 ID3、C4.5 和 CART,在選擇節(jié)點對應(yīng)的分裂屬性時,增益最大的屬性,存在的問題是偏向多值屬性,很難處理連續(xù)型數(shù)據(jù)息增益率最大的屬性,標稱型數(shù)據(jù)和連續(xù)型數(shù)據(jù)都能處理,解決了
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.1

【參考文獻】

相關(guān)期刊論文 前10條

1 祖弦;謝飛;;LDA主題模型研究綜述[J];合肥師范學(xué)院學(xué)報;2015年06期

2 唐勇;;基于樸素貝葉斯算法對論壇文本分類的技術(shù)實現(xiàn)[J];電腦知識與技術(shù);2014年32期

3 徐戈;張科;;基于隨機森林模型的房產(chǎn)價格評估[J];統(tǒng)計與決策;2014年17期

4 周庭銳;;互聯(lián)網(wǎng)思維與大數(shù)據(jù)變革[J];商學(xué)院;2014年08期

5 勞雙恩;曾良;韓志杰;周佩蓮;陳巖;;討論:審視技術(shù)的創(chuàng)新[J];中國廣告;2014年07期

6 劉海峰;于利軍;劉守生;;一種基于類別分布信息的文本特征選擇模型[J];圖書情報工作;2013年15期

7 張志飛;苗奪謙;高燦;;基于LDA主題模型的短文本分類方法[J];計算機應(yīng)用;2013年06期

8 董師師;黃哲學(xué);;隨機森林理論淺析[J];集成技術(shù);2013年01期

9 馮海超;;大數(shù)據(jù)時代正式到來[J];互聯(lián)網(wǎng)周刊;2012年24期

10 姚全珠;宋志理;彭程;;基于LDA模型的文本分類研究[J];計算機工程與應(yīng)用;2011年13期

相關(guān)會議論文 前1條

1 石志偉;吳功宜;;改善樸素貝葉斯在文本分類中的穩(wěn)定性[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年

相關(guān)碩士學(xué)位論文 前4條

1 李Pr;基于樸素貝葉斯的文本分類研究及其在微博分類中的應(yīng)用[D];北京理工大學(xué);2015年

2 彭君睿;面向文本分類的特征提取算法研究[D];北京郵電大學(xué);2014年

3 李丹;基于樸素貝葉斯方法的中文文本分類研究[D];河北大學(xué);2011年

4 王懿;基于自然語言處理和機器學(xué)習(xí)的文本分類及其應(yīng)用研究[D];中國科學(xué)院研究生院(成都計算機應(yīng)用研究所);2006年



本文編號:2572309

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2572309.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶801bb***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com