基于SPARK的中文文本特征提取及分類方法研究與實(shí)現(xiàn)
【圖文】:
電子科技大學(xué)碩士學(xué)位論文第二章 相關(guān)理論和技術(shù)分類基本流程文本分類的基本步驟依次為構(gòu)建訓(xùn)練集、分詞、向量、構(gòu)建訓(xùn)練模型和測(cè)試評(píng)判。圖 2-1 展示了基練集:對(duì)于文本分類來(lái)說(shuō),高質(zhì)量的訓(xùn)練集至關(guān)確保分類標(biāo)簽的正確性,,而且各類文本在數(shù)量上在文本分類方面,中文跟英文區(qū)別最大之處,就詞匯之間是連在一起的,沒(méi)有間隔,分詞就是在
圖 2-3 決策樹(shù)分類的例子策樹(shù)的構(gòu)建是從上而下的,自根節(jié)點(diǎn)開(kāi)始,每個(gè)非葉節(jié)點(diǎn)選擇一個(gè)行分裂,每個(gè)分支對(duì)應(yīng)一個(gè)屬性上的取值,如此遞歸直到滿足停止立決策樹(shù)的要點(diǎn)是選好節(jié)點(diǎn)對(duì)應(yīng)的分裂屬性。理想情況下,分裂屬是最優(yōu)的,那么它每個(gè)分支都應(yīng)該是純的,因此可以定義一個(gè)函數(shù)不純度,這個(gè)函數(shù)值越大則節(jié)點(diǎn)越不純,而一個(gè)最優(yōu)的分裂屬性應(yīng)所有子節(jié)點(diǎn)的不純度之差達(dá)到最大值[29]。常用的用于刻畫不純度的純度和熵不純度等[29]。決策樹(shù)模型建立過(guò)過(guò)程中需要通過(guò)剪枝來(lái)應(yīng)擬合的問(wèn)題。剪枝技術(shù)有兩種:預(yù)先剪枝是在決策樹(shù)生長(zhǎng)過(guò)程中,制,使其在產(chǎn)生擬合之前就不繼續(xù)生長(zhǎng)了;后剪枝方式是在決策樹(shù)底向上修剪決策樹(shù)。一般而言,后剪枝技術(shù)效果更好,但存在計(jì)算浪見(jiàn)的決策樹(shù)有 ID3、C4.5 和 CART,在選擇節(jié)點(diǎn)對(duì)應(yīng)的分裂屬性時(shí),增益最大的屬性,存在的問(wèn)題是偏向多值屬性,很難處理連續(xù)型數(shù)據(jù)息增益率最大的屬性,標(biāo)稱型數(shù)據(jù)和連續(xù)型數(shù)據(jù)都能處理,解決了
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 祖弦;謝飛;;LDA主題模型研究綜述[J];合肥師范學(xué)院學(xué)報(bào);2015年06期
2 唐勇;;基于樸素貝葉斯算法對(duì)論壇文本分類的技術(shù)實(shí)現(xiàn)[J];電腦知識(shí)與技術(shù);2014年32期
3 徐戈;張科;;基于隨機(jī)森林模型的房產(chǎn)價(jià)格評(píng)估[J];統(tǒng)計(jì)與決策;2014年17期
4 周庭銳;;互聯(lián)網(wǎng)思維與大數(shù)據(jù)變革[J];商學(xué)院;2014年08期
5 勞雙恩;曾良;韓志杰;周佩蓮;陳巖;;討論:審視技術(shù)的創(chuàng)新[J];中國(guó)廣告;2014年07期
6 劉海峰;于利軍;劉守生;;一種基于類別分布信息的文本特征選擇模型[J];圖書情報(bào)工作;2013年15期
7 張志飛;苗奪謙;高燦;;基于LDA主題模型的短文本分類方法[J];計(jì)算機(jī)應(yīng)用;2013年06期
8 董師師;黃哲學(xué);;隨機(jī)森林理論淺析[J];集成技術(shù);2013年01期
9 馮海超;;大數(shù)據(jù)時(shí)代正式到來(lái)[J];互聯(lián)網(wǎng)周刊;2012年24期
10 姚全珠;宋志理;彭程;;基于LDA模型的文本分類研究[J];計(jì)算機(jī)工程與應(yīng)用;2011年13期
相關(guān)會(huì)議論文 前1條
1 石志偉;吳功宜;;改善樸素貝葉斯在文本分類中的穩(wěn)定性[A];NCIRCS2004第一屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年
相關(guān)碩士學(xué)位論文 前4條
1 李Pr;基于樸素貝葉斯的文本分類研究及其在微博分類中的應(yīng)用[D];北京理工大學(xué);2015年
2 彭君睿;面向文本分類的特征提取算法研究[D];北京郵電大學(xué);2014年
3 李丹;基于樸素貝葉斯方法的中文文本分類研究[D];河北大學(xué);2011年
4 王懿;基于自然語(yǔ)言處理和機(jī)器學(xué)習(xí)的文本分類及其應(yīng)用研究[D];中國(guó)科學(xué)院研究生院(成都計(jì)算機(jī)應(yīng)用研究所);2006年
本文編號(hào):2572309
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2572309.html