基于SPARK的中文文本特征提取及分類方法研究與實現(xiàn)
【圖文】:
電子科技大學(xué)碩士學(xué)位論文第二章 相關(guān)理論和技術(shù)分類基本流程文本分類的基本步驟依次為構(gòu)建訓(xùn)練集、分詞、向量、構(gòu)建訓(xùn)練模型和測試評判。圖 2-1 展示了基練集:對于文本分類來說,高質(zhì)量的訓(xùn)練集至關(guān)確保分類標簽的正確性,,而且各類文本在數(shù)量上在文本分類方面,中文跟英文區(qū)別最大之處,就詞匯之間是連在一起的,沒有間隔,分詞就是在
圖 2-3 決策樹分類的例子策樹的構(gòu)建是從上而下的,自根節(jié)點開始,每個非葉節(jié)點選擇一個行分裂,每個分支對應(yīng)一個屬性上的取值,如此遞歸直到滿足停止立決策樹的要點是選好節(jié)點對應(yīng)的分裂屬性。理想情況下,分裂屬是最優(yōu)的,那么它每個分支都應(yīng)該是純的,因此可以定義一個函數(shù)不純度,這個函數(shù)值越大則節(jié)點越不純,而一個最優(yōu)的分裂屬性應(yīng)所有子節(jié)點的不純度之差達到最大值[29]。常用的用于刻畫不純度的純度和熵不純度等[29]。決策樹模型建立過過程中需要通過剪枝來應(yīng)擬合的問題。剪枝技術(shù)有兩種:預(yù)先剪枝是在決策樹生長過程中,制,使其在產(chǎn)生擬合之前就不繼續(xù)生長了;后剪枝方式是在決策樹底向上修剪決策樹。一般而言,后剪枝技術(shù)效果更好,但存在計算浪見的決策樹有 ID3、C4.5 和 CART,在選擇節(jié)點對應(yīng)的分裂屬性時,增益最大的屬性,存在的問題是偏向多值屬性,很難處理連續(xù)型數(shù)據(jù)息增益率最大的屬性,標稱型數(shù)據(jù)和連續(xù)型數(shù)據(jù)都能處理,解決了
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.1
【參考文獻】
相關(guān)期刊論文 前10條
1 祖弦;謝飛;;LDA主題模型研究綜述[J];合肥師范學(xué)院學(xué)報;2015年06期
2 唐勇;;基于樸素貝葉斯算法對論壇文本分類的技術(shù)實現(xiàn)[J];電腦知識與技術(shù);2014年32期
3 徐戈;張科;;基于隨機森林模型的房產(chǎn)價格評估[J];統(tǒng)計與決策;2014年17期
4 周庭銳;;互聯(lián)網(wǎng)思維與大數(shù)據(jù)變革[J];商學(xué)院;2014年08期
5 勞雙恩;曾良;韓志杰;周佩蓮;陳巖;;討論:審視技術(shù)的創(chuàng)新[J];中國廣告;2014年07期
6 劉海峰;于利軍;劉守生;;一種基于類別分布信息的文本特征選擇模型[J];圖書情報工作;2013年15期
7 張志飛;苗奪謙;高燦;;基于LDA主題模型的短文本分類方法[J];計算機應(yīng)用;2013年06期
8 董師師;黃哲學(xué);;隨機森林理論淺析[J];集成技術(shù);2013年01期
9 馮海超;;大數(shù)據(jù)時代正式到來[J];互聯(lián)網(wǎng)周刊;2012年24期
10 姚全珠;宋志理;彭程;;基于LDA模型的文本分類研究[J];計算機工程與應(yīng)用;2011年13期
相關(guān)會議論文 前1條
1 石志偉;吳功宜;;改善樸素貝葉斯在文本分類中的穩(wěn)定性[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年
相關(guān)碩士學(xué)位論文 前4條
1 李Pr;基于樸素貝葉斯的文本分類研究及其在微博分類中的應(yīng)用[D];北京理工大學(xué);2015年
2 彭君睿;面向文本分類的特征提取算法研究[D];北京郵電大學(xué);2014年
3 李丹;基于樸素貝葉斯方法的中文文本分類研究[D];河北大學(xué);2011年
4 王懿;基于自然語言處理和機器學(xué)習(xí)的文本分類及其應(yīng)用研究[D];中國科學(xué)院研究生院(成都計算機應(yīng)用研究所);2006年
本文編號:2572309
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2572309.html