基于詞向量的文本分類算法研究與改進(jìn)
發(fā)布時(shí)間:2017-11-05 02:34
本文關(guān)鍵詞:基于詞向量的文本分類算法研究與改進(jìn)
更多相關(guān)文章: 文本分類 特征選擇 詞向量 word2vec 相似度
【摘要】:隨著信息技術(shù)的日益發(fā)展,人類面臨的數(shù)據(jù)量迅速增長。如何從海量數(shù)據(jù)資源中,準(zhǔn)確、快速、全面地找到所需的相關(guān)信息,已經(jīng)成為信息技術(shù)領(lǐng)域的重點(diǎn)研究課題。文本分類是文本挖掘領(lǐng)域的重要技術(shù)之一,為信息檢索和高效管理海量數(shù)據(jù)提供了便利,具有重要的研究價(jià)值和意義。本文主要研究了文本分類的若干關(guān)鍵技術(shù),包括文本預(yù)處理、文本表示模型、特征選擇算法和分類算法。本文在詳細(xì)了解和深入研究了上述過程的基礎(chǔ)上,還重點(diǎn)研究了Google開源的基于深度學(xué)習(xí)的詞向量訓(xùn)練工具word2vec工作原理,并將其應(yīng)用到傳統(tǒng)特征選擇算法的改進(jìn)上。特征選擇是文本分類中非常重要的一個(gè)部分,如果不進(jìn)行特征選擇達(dá)到降維的目的,面對(duì)高維文本特征很容易產(chǎn)生“維數(shù)災(zāi)難”問題。特征選擇的好壞不僅影響分類器的分類效果,還會(huì)影響分類器訓(xùn)練時(shí)間。本文詳細(xì)研究了目前常用經(jīng)典的特征選擇算法,包括信息增益、卡方檢驗(yàn)、互信息等算法,并分析了各自的優(yōu)缺點(diǎn)。本文針對(duì)卡方檢驗(yàn)特征選擇算法存在的“特征詞不完備”缺陷,提出了基于詞向量的文本特征選擇改進(jìn)算法,并提出“與具有較強(qiáng)類別區(qū)分能力的特征項(xiàng)最相似的特,征項(xiàng)也同樣具有較強(qiáng)的類別區(qū),分能力”這一假設(shè)。本文將word2vec訓(xùn)練得到的詞向量應(yīng)用到傳統(tǒng)的特征選擇過程中,研究了詞向量之間存在的相似性關(guān)聯(lián),對(duì)特征詞進(jìn)行了適當(dāng)?shù)臄U(kuò)充,以彌補(bǔ)“特征詞不完備”的不足。本文還針對(duì)卡方檢驗(yàn)特征選擇算法存在的“低頻詞缺陷”問題,結(jié)合集中度和分散度概念對(duì)其進(jìn)行了改進(jìn)。本文以卡方檢驗(yàn)作為特征選擇算法,SVM作為分類算法開發(fā)了文本自動(dòng)分類系統(tǒng),并將其作為實(shí)驗(yàn)平臺(tái),進(jìn)行了大量對(duì)比實(shí)驗(yàn),以考察本文提出的改進(jìn)算法是否有效可行。實(shí)驗(yàn)數(shù)據(jù)采用的是搜狗實(shí)驗(yàn)室公開的中文文本分類語料庫,本文使用準(zhǔn)確率、召回率和F值作為實(shí)驗(yàn)效果衡量指標(biāo)。實(shí)驗(yàn)結(jié)果表明,本文提出的基于詞向量的特征選擇算法分類效果相比于傳統(tǒng)算法有明顯的提升。結(jié)合集中度和分散度改進(jìn)后的特征選擇算法,實(shí)驗(yàn)分類效果也有一定程度的改進(jìn)。
【學(xué)位授予單位】:華東師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前3條
1 奉國和;;文本分類性能評(píng)價(jià)研究[J];情報(bào)雜志;2011年08期
2 何莘;王琬蕪;;自然語言檢索中的中文分詞技術(shù)研究進(jìn)展及應(yīng)用[J];情報(bào)科學(xué);2008年05期
3 熊文新;宋柔;;信息檢索用戶查詢語句的停用詞過濾[J];計(jì)算機(jī)工程;2007年06期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 王小青;中文文本分類特征選擇方法研究[D];西南大學(xué);2010年
,本文編號(hào):1142238
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1142238.html
最近更新
教材專著