基于特征向量構(gòu)建的文本分類(lèi)方法研究
發(fā)布時(shí)間:2022-02-19 01:41
文本是多樣信息的來(lái)源,由于其非結(jié)構(gòu)化特性,從中獲取見(jiàn)解耗時(shí)過(guò)多且相對(duì)困難。文本分類(lèi)是自然語(yǔ)言處理領(lǐng)域中的經(jīng)典主題,是根據(jù)內(nèi)容分配預(yù)定義標(biāo)簽或類(lèi)別的過(guò)程。神經(jīng)網(wǎng)絡(luò)作為處理文本分類(lèi)的主流技術(shù),是一種自動(dòng)化預(yù)測(cè)分析方法;谏窠(jīng)網(wǎng)絡(luò)模型來(lái)構(gòu)建特征向量的文本表示方法能夠準(zhǔn)確獲取詞義、語(yǔ)義信息,但易呈現(xiàn)高稀疏性,且文本分類(lèi)模型中針對(duì)特定情況常會(huì)出現(xiàn)分類(lèi)性能不佳的情況。面對(duì)上述問(wèn)題,本文進(jìn)行了如下研究:(1)文本表示方面。針對(duì)GloVe模型在詞向量表示訓(xùn)練過(guò)程中存在大批量無(wú)關(guān)詞的問(wèn)題,本文提出了一種基于WT-GloVe的詞向量加權(quán)模型。首先,借助基于詞間距和類(lèi)間貢獻(xiàn)度的特征加權(quán)算法進(jìn)行特征詞提取;其次,根據(jù)GloVe模型的自身缺點(diǎn)提出了一種過(guò)濾無(wú)關(guān)詞方法,以提高詞向量訓(xùn)練質(zhì)量;最后,結(jié)合基于詞間距和類(lèi)間分布的特征加權(quán)算法以及無(wú)關(guān)詞過(guò)濾后的GloVe共同生成了加權(quán)詞向量模型,有效獲取特征詞的重要程度及語(yǔ)義信息,構(gòu)成新的詞向量加權(quán)模型。實(shí)驗(yàn)結(jié)果表明,相同環(huán)境下與其它同類(lèi)模型相比,基于WT-GloVe的詞向量加權(quán)模型能有效提高分類(lèi)效果。(2)文本分類(lèi)方面。針對(duì)fastText模型在中文文本分類(lèi)時(shí),子詞嵌...
【文章來(lái)源】:西安理工大學(xué)陜西省
【文章頁(yè)數(shù)】:70 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景與意義
1.1.1 研究背景
1.1.2 研究意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀及存在問(wèn)題
1.2.1 國(guó)內(nèi)外研究現(xiàn)狀
1.2.2 現(xiàn)存問(wèn)題及難點(diǎn)
1.3 研究框架及內(nèi)容
1.3.1 研究框架
1.3.2 研究?jī)?nèi)容
1.4 本文組織結(jié)構(gòu)
2 相關(guān)理論概述
2.1 傳統(tǒng)文本表示方法
2.1.1 布爾模型
2.1.2 空間向量模型
2.1.3 主題模型
2.2 TF-IDF算法
2.3 Word embedding模型
2.3.1 CBOW模型
2.3.2 Skip-gram模型
2.3.3 Glo Ve模型
2.4 文本分類(lèi)方法
2.4.1 支持向量機(jī)模型
2.4.2 fast Text模型
2.5 評(píng)估指標(biāo)
2.6 本章小結(jié)
3 基于WT-Glo Ve的詞向量加權(quán)模型
3.1 理論基礎(chǔ)
3.2 基于WT-Glo Ve的詞向量加權(quán)模型
3.2.1 基于WDID-TFIDF的特征加權(quán)算法
3.2.2 基于WT-Glo Ve的詞向量加權(quán)模型
3.3 實(shí)驗(yàn)與結(jié)果分析
3.3.1 實(shí)驗(yàn)數(shù)據(jù)
3.3.2 實(shí)驗(yàn)設(shè)置
3.3.3 實(shí)驗(yàn)分析
3.4 本章小結(jié)
4 基于STL-fast Text的文本分類(lèi)模型
4.1 理論基礎(chǔ)
4.2 基于STL-fast Text的文本分類(lèi)模型
4.2.1 基于SLF-TFIDF的低頻詞加權(quán)算法
4.2.2 基于STL-fast Text的文本分類(lèi)模型
4.3 實(shí)驗(yàn)與結(jié)果分析
4.3.1 實(shí)驗(yàn)數(shù)據(jù)
4.3.2 實(shí)驗(yàn)設(shè)置
4.3.3 實(shí)驗(yàn)分析
4.4 本章小結(jié)
5 總結(jié)與展望
5.1 總結(jié)
5.2 展望
致謝
參考文獻(xiàn)
攻讀碩士學(xué)位期間主要研究成果
【參考文獻(xiàn)】:
期刊論文
[1]基于LDA主題模型的文本相似度計(jì)算[J]. 王振振,何明,杜永萍. 計(jì)算機(jī)科學(xué). 2013(12)
[2]一種基于Sigmoid函數(shù)的改進(jìn)協(xié)同過(guò)濾推薦算法[J]. 方耀寧,郭云飛,扈紅超,蘭巨龍. 計(jì)算機(jī)應(yīng)用研究. 2013(06)
[3]基于SVM算法的文本分類(lèi)技術(shù)研究[J]. 崔建明,劉建明,廖周宇. 計(jì)算機(jī)仿真. 2013(02)
[4]基于信息熵的TFIDF文本分類(lèi)特征選擇算法研究[J]. 陳國(guó)松,黃大榮. 湖北民族學(xué)院學(xué)報(bào)(自然科學(xué)版). 2008(04)
[5]基于PLSA模型的文本分割[J]. 石晶,戴國(guó)忠. 計(jì)算機(jī)研究與發(fā)展. 2007(02)
[6]文本分類(lèi)綜述[J]. 靳小波. 自動(dòng)化博覽. 2006(S1)
[7]支持向量機(jī)(SVM)的研究進(jìn)展[J]. 李曉宇,張新峰,沈蘭蓀. 測(cè)控技術(shù). 2006(05)
博士論文
[1]文本分類(lèi)及其相關(guān)技術(shù)研究[D]. 李榮陸.復(fù)旦大學(xué) 2005
碩士論文
[1]基于布爾模型的網(wǎng)頁(yè)查重算法研究[D]. 連浩.中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所) 2006
本文編號(hào):3631957
【文章來(lái)源】:西安理工大學(xué)陜西省
【文章頁(yè)數(shù)】:70 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景與意義
1.1.1 研究背景
1.1.2 研究意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀及存在問(wèn)題
1.2.1 國(guó)內(nèi)外研究現(xiàn)狀
1.2.2 現(xiàn)存問(wèn)題及難點(diǎn)
1.3 研究框架及內(nèi)容
1.3.1 研究框架
1.3.2 研究?jī)?nèi)容
1.4 本文組織結(jié)構(gòu)
2 相關(guān)理論概述
2.1 傳統(tǒng)文本表示方法
2.1.1 布爾模型
2.1.2 空間向量模型
2.1.3 主題模型
2.2 TF-IDF算法
2.3 Word embedding模型
2.3.1 CBOW模型
2.3.2 Skip-gram模型
2.3.3 Glo Ve模型
2.4 文本分類(lèi)方法
2.4.1 支持向量機(jī)模型
2.4.2 fast Text模型
2.5 評(píng)估指標(biāo)
2.6 本章小結(jié)
3 基于WT-Glo Ve的詞向量加權(quán)模型
3.1 理論基礎(chǔ)
3.2 基于WT-Glo Ve的詞向量加權(quán)模型
3.2.1 基于WDID-TFIDF的特征加權(quán)算法
3.2.2 基于WT-Glo Ve的詞向量加權(quán)模型
3.3 實(shí)驗(yàn)與結(jié)果分析
3.3.1 實(shí)驗(yàn)數(shù)據(jù)
3.3.2 實(shí)驗(yàn)設(shè)置
3.3.3 實(shí)驗(yàn)分析
3.4 本章小結(jié)
4 基于STL-fast Text的文本分類(lèi)模型
4.1 理論基礎(chǔ)
4.2 基于STL-fast Text的文本分類(lèi)模型
4.2.1 基于SLF-TFIDF的低頻詞加權(quán)算法
4.2.2 基于STL-fast Text的文本分類(lèi)模型
4.3 實(shí)驗(yàn)與結(jié)果分析
4.3.1 實(shí)驗(yàn)數(shù)據(jù)
4.3.2 實(shí)驗(yàn)設(shè)置
4.3.3 實(shí)驗(yàn)分析
4.4 本章小結(jié)
5 總結(jié)與展望
5.1 總結(jié)
5.2 展望
致謝
參考文獻(xiàn)
攻讀碩士學(xué)位期間主要研究成果
【參考文獻(xiàn)】:
期刊論文
[1]基于LDA主題模型的文本相似度計(jì)算[J]. 王振振,何明,杜永萍. 計(jì)算機(jī)科學(xué). 2013(12)
[2]一種基于Sigmoid函數(shù)的改進(jìn)協(xié)同過(guò)濾推薦算法[J]. 方耀寧,郭云飛,扈紅超,蘭巨龍. 計(jì)算機(jī)應(yīng)用研究. 2013(06)
[3]基于SVM算法的文本分類(lèi)技術(shù)研究[J]. 崔建明,劉建明,廖周宇. 計(jì)算機(jī)仿真. 2013(02)
[4]基于信息熵的TFIDF文本分類(lèi)特征選擇算法研究[J]. 陳國(guó)松,黃大榮. 湖北民族學(xué)院學(xué)報(bào)(自然科學(xué)版). 2008(04)
[5]基于PLSA模型的文本分割[J]. 石晶,戴國(guó)忠. 計(jì)算機(jī)研究與發(fā)展. 2007(02)
[6]文本分類(lèi)綜述[J]. 靳小波. 自動(dòng)化博覽. 2006(S1)
[7]支持向量機(jī)(SVM)的研究進(jìn)展[J]. 李曉宇,張新峰,沈蘭蓀. 測(cè)控技術(shù). 2006(05)
博士論文
[1]文本分類(lèi)及其相關(guān)技術(shù)研究[D]. 李榮陸.復(fù)旦大學(xué) 2005
碩士論文
[1]基于布爾模型的網(wǎng)頁(yè)查重算法研究[D]. 連浩.中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所) 2006
本文編號(hào):3631957
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3631957.html
最近更新
教材專(zhuān)著