文本向量化方法對文本分類效果影響的改進研究
發(fā)布時間:2020-12-31 23:17
作為文本挖掘的一個重要研究方向,文本分類技術(shù)在自然語言處理領(lǐng)域當中占有至關(guān)重要的地位。隨著互聯(lián)網(wǎng)的迅猛發(fā)展,人們在日常生活當中接收到的信息量也呈現(xiàn)爆炸式的增長,與此同時,如何管理指數(shù)級增長的數(shù)據(jù),使人們獲取目標信息更加快捷便利,已經(jīng)成為學(xué)術(shù)研究領(lǐng)域的重點問題。將文本轉(zhuǎn)化成結(jié)構(gòu)化的數(shù)據(jù)并建立模型是文本分類的必要環(huán)節(jié),目前應(yīng)用較廣的文本建模方法包括向量空間模型以及主題模型,兩者都能有效的表達文本,但也存在著各自的弊端,向量空間模型存在著維度相對較大,文本向量稀疏性較高以及難以區(qū)分同義詞,多義詞等問題。相較于向量空間模型,主題模型能夠?qū)ξ谋緦崿F(xiàn)降維,并發(fā)現(xiàn)文本的潛藏語義,同時,也伴隨著訓(xùn)練樣本多,訓(xùn)練耗時等問題影響分類效率。本文在仔細研究了文本向量化相關(guān)技術(shù)后,做了如下工作:(1)運用網(wǎng)絡(luò)爬蟲技術(shù)爬取了汽車、財經(jīng)、房產(chǎn)、軍事、科技、社會五類一萬余條新聞?wù)Z料以及海量外部語料訓(xùn)練得到的模型用于實驗。(2)在爬取的語料上實驗了基準的文本向量化方法并運用多個分類器進行分類,得出基準的分類準確率以及召回率。(3)結(jié)合了主題模型與向量空間模型各自的優(yōu)點,改進文本向量化方法,得到textrank加權(quán)詞向量...
【文章來源】:首都經(jīng)濟貿(mào)易大學(xué)北京市
【文章頁數(shù)】:51 頁
【學(xué)位級別】:碩士
【部分圖文】:
文本分類流程
介紹基準文本向量化的方法、闡述基準文本向量化方法的不足之文本向量化方法并簡要介紹其中說所涉及到的算法。本向量化算法介紹本向量化方法是將文本預(yù)處理后,利用 word2vec 算法,將每一的向量,然后對該文本所包含的所有詞項的詞向量求平均得到。本向量化方法是用 tfidf 算法,因為本文不是主要改進這個算法首先簡要介紹 word2vec 算法。ec 算法c 是由 Mikolov 構(gòu)建的,于 2013 年谷歌開源的一款詞向量訓(xùn)練工即輸入層、隱藏層和輸出層。word2vec 有兩種重要的訓(xùn)練模型,,另外一個叫 Skip-gram 模型,關(guān)于這兩個模型, CBow 模型的
基于以上思想,首先通過 LDA 訓(xùn)練得到新聞的主題向量,主題向量題信息也就是文本的潛在信息,再訓(xùn)練得到詞向量,通過加權(quán)求和得句子的語義信息,最后利用特征拼接的思想,組合成一個更長的向量組合。通過特征向量組合的方式拼接而成的維度為 506 維的向量,既包含了,又包含了文本潛在的信息。特征拼接之后,可能有造成特征維度高等問題,隨后,文本會采用上文提到的過濾式特征選擇方法,將冗余與分類類別高度相關(guān)的特征,提高模型準確率。A 主題模型 PLSA 的缺陷,2003 年 David、M.Blei 等人提除了 LDA 模型(Latenn)。LDA 的基本思想是:每一篇文本都對應(yīng)著一個主題向量,那么文矩陣的形式來表示,由此,可以建立一個文檔層面的概率模型,并且文本中詞匯的分布,可以看出, LDA 是完全的生成概率模型。LDA9]如下:
本文編號:2950485
【文章來源】:首都經(jīng)濟貿(mào)易大學(xué)北京市
【文章頁數(shù)】:51 頁
【學(xué)位級別】:碩士
【部分圖文】:
文本分類流程
介紹基準文本向量化的方法、闡述基準文本向量化方法的不足之文本向量化方法并簡要介紹其中說所涉及到的算法。本向量化算法介紹本向量化方法是將文本預(yù)處理后,利用 word2vec 算法,將每一的向量,然后對該文本所包含的所有詞項的詞向量求平均得到。本向量化方法是用 tfidf 算法,因為本文不是主要改進這個算法首先簡要介紹 word2vec 算法。ec 算法c 是由 Mikolov 構(gòu)建的,于 2013 年谷歌開源的一款詞向量訓(xùn)練工即輸入層、隱藏層和輸出層。word2vec 有兩種重要的訓(xùn)練模型,,另外一個叫 Skip-gram 模型,關(guān)于這兩個模型, CBow 模型的
基于以上思想,首先通過 LDA 訓(xùn)練得到新聞的主題向量,主題向量題信息也就是文本的潛在信息,再訓(xùn)練得到詞向量,通過加權(quán)求和得句子的語義信息,最后利用特征拼接的思想,組合成一個更長的向量組合。通過特征向量組合的方式拼接而成的維度為 506 維的向量,既包含了,又包含了文本潛在的信息。特征拼接之后,可能有造成特征維度高等問題,隨后,文本會采用上文提到的過濾式特征選擇方法,將冗余與分類類別高度相關(guān)的特征,提高模型準確率。A 主題模型 PLSA 的缺陷,2003 年 David、M.Blei 等人提除了 LDA 模型(Latenn)。LDA 的基本思想是:每一篇文本都對應(yīng)著一個主題向量,那么文矩陣的形式來表示,由此,可以建立一個文檔層面的概率模型,并且文本中詞匯的分布,可以看出, LDA 是完全的生成概率模型。LDA9]如下:
本文編號:2950485
本文鏈接:http://sikaile.net/guanlilunwen/glzh/2950485.html
教材專著