改進(jìn)的TF-IDF特征選擇和短文本分類算法研究
發(fā)布時(shí)間:2021-09-04 19:59
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)很快成為互聯(lián)網(wǎng)用戶獲取信息、交流和學(xué)習(xí)的重要平臺(tái),同時(shí)該平臺(tái)也產(chǎn)生了海量的文本數(shù)據(jù),這些數(shù)據(jù)內(nèi)容簡(jiǎn)短,上下文語(yǔ)義關(guān)聯(lián)程度大,表達(dá)方式多樣,但是蘊(yùn)含大量的信息。如何處理這些短文本并從中獲取有價(jià)值的信息,一直以來(lái)是人們所關(guān)心的問(wèn)題。文本分類是指將文本信息歸為一個(gè)或多個(gè)類型的過(guò)程,可以解決短文本雜亂無(wú)章的問(wèn)題、提高信息利用率以及幫助用戶縮小信息檢索范圍?紤]到這些非結(jié)構(gòu)化文本數(shù)據(jù)的特點(diǎn),傳統(tǒng)的特征表示方法和分類模型對(duì)其直接進(jìn)行處理結(jié)果精度有限。針對(duì)這種情況,本文主要從兩個(gè)方面著手改進(jìn):文本特征選擇方法和文本分類算法。一、鑒于短文本數(shù)據(jù)集的非均衡性,傳統(tǒng)特征選擇方法的不適用性,本文首先把類頻方差和卡方檢驗(yàn)引入詞頻-逆文檔頻率算法中,形成兩個(gè)單模型特征選擇算法,將兩個(gè)單模型融合再引入詞向量訓(xùn)練工具Word2vec形成的算法記為WoTFI,用于特征獲取,該模型既考慮到文本數(shù)據(jù)的語(yǔ)義信息,又兼顧到特征詞在類內(nèi)和類間分布的差異。和不同的特征表示模型對(duì)比,WoTFI不僅能夠靈活實(shí)現(xiàn)特征詞權(quán)重的分配,也對(duì)分類結(jié)果產(chǎn)生了積極影響。二、對(duì)傳統(tǒng)分類算法做了改進(jìn),采用雙向長(zhǎng)短時(shí)記憶網(wǎng)...
【文章來(lái)源】:安徽大學(xué)安徽省 211工程院校
【文章頁(yè)數(shù)】:79 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
本文采用的短文本分類系統(tǒng)藍(lán)圖
第二章短文本分類相關(guān)技術(shù)簡(jiǎn)介10稀疏編碼,雖然它編碼效率高,但是獲得的向量中只有有效位為1,無(wú)效的位置全部都為0,效率表達(dá)非常低,便可能不適用于某些應(yīng)用。語(yǔ)料庫(kù)中的詞匯表一般都非常大,常達(dá)到百萬(wàn)級(jí)別,結(jié)果就是一個(gè)詞卻用百萬(wàn)級(jí)別的維度來(lái)表示,但是在實(shí)際實(shí)驗(yàn)時(shí),帶來(lái)的是維度爆炸的結(jié)果。總之one-hot編碼效率高,但是維度大、特征稀疏、向量之間沒(méi)有關(guān)聯(lián)性。(3)VSM向量空間模型該模型是由Salton提出的,VSM作為信息檢索的傳統(tǒng)模型,將一個(gè)文檔轉(zhuǎn)化為空間向量,特征詞個(gè)數(shù)等于向量的維數(shù)。假設(shè)文檔中特征個(gè)數(shù)為m,選擇出n個(gè)特征詞,由n個(gè)特征詞組成的詞序列c=(1,2,…,)。文檔中特征向量是一個(gè)長(zhǎng)度為n,索引1,2,…,,權(quán)值為1,2,…,,剩余位置取值0的向量。文本數(shù)據(jù)集中全部特征向量形成的矩陣如圖2.1所示:圖2.1文本數(shù)據(jù)集中全部特征向量形成的矩陣圖一般來(lái)說(shuō),文本集合的詞匯量很大,VSM獲取的詞向量維度高,特征稀疏,使得計(jì)算復(fù)雜。且由于VSM無(wú)法捕獲特征詞之間語(yǔ)義關(guān)系,便使得兩篇語(yǔ)義相近的文檔因?yàn)闆](méi)有包含相同的特征詞,計(jì)算得出文本的相似度為0,導(dǎo)致文本分類存在誤差。圖2.2特征詞與權(quán)重的對(duì)應(yīng)關(guān)系
第二章短文本分類相關(guān)技術(shù)簡(jiǎn)介10稀疏編碼,雖然它編碼效率高,但是獲得的向量中只有有效位為1,無(wú)效的位置全部都為0,效率表達(dá)非常低,便可能不適用于某些應(yīng)用。語(yǔ)料庫(kù)中的詞匯表一般都非常大,常達(dá)到百萬(wàn)級(jí)別,結(jié)果就是一個(gè)詞卻用百萬(wàn)級(jí)別的維度來(lái)表示,但是在實(shí)際實(shí)驗(yàn)時(shí),帶來(lái)的是維度爆炸的結(jié)果?傊畂ne-hot編碼效率高,但是維度大、特征稀疏、向量之間沒(méi)有關(guān)聯(lián)性。(3)VSM向量空間模型該模型是由Salton提出的,VSM作為信息檢索的傳統(tǒng)模型,將一個(gè)文檔轉(zhuǎn)化為空間向量,特征詞個(gè)數(shù)等于向量的維數(shù)。假設(shè)文檔中特征個(gè)數(shù)為m,選擇出n個(gè)特征詞,由n個(gè)特征詞組成的詞序列c=(1,2,…,)。文檔中特征向量是一個(gè)長(zhǎng)度為n,索引1,2,…,,權(quán)值為1,2,…,,剩余位置取值0的向量。文本數(shù)據(jù)集中全部特征向量形成的矩陣如圖2.1所示:圖2.1文本數(shù)據(jù)集中全部特征向量形成的矩陣圖一般來(lái)說(shuō),文本集合的詞匯量很大,VSM獲取的詞向量維度高,特征稀疏,使得計(jì)算復(fù)雜。且由于VSM無(wú)法捕獲特征詞之間語(yǔ)義關(guān)系,便使得兩篇語(yǔ)義相近的文檔因?yàn)闆](méi)有包含相同的特征詞,計(jì)算得出文本的相似度為0,導(dǎo)致文本分類存在誤差。圖2.2特征詞與權(quán)重的對(duì)應(yīng)關(guān)系
【參考文獻(xiàn)】:
期刊論文
[1]基于詞袋模型和TF-IDF的短文本分類研究[J]. 黃春梅,王松磊. 軟件工程. 2020(03)
[2]CNNIC發(fā)布第44次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[J]. 于朝暉. 網(wǎng)信軍民融合. 2019(09)
[3]基于類別特征擴(kuò)展的短文本分類方法研究[J]. 邵云飛,劉東蘇. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2019(09)
[4]基于Word2vec和改進(jìn)型TF-IDF的卷積神經(jīng)網(wǎng)絡(luò)文本分類模型[J]. 王根生,黃學(xué)堅(jiān). 小型微型計(jì)算機(jī)系統(tǒng). 2019(05)
[5]面向短文本分類的特征提取與算法研究[J]. 劉曉鵬,楊嘉佳,盧凱,田昌海,唐球. 信息技術(shù)與網(wǎng)絡(luò)安全. 2019(05)
[6]面向Twitter情感分析的文本預(yù)處理方法研究[J]. 王永昌,朱立谷. 中國(guó)傳媒大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(02)
[7]基于改進(jìn)K最近鄰算法的中文文本分類[J]. 黃超,陳軍華. 上海師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(01)
[8]字符級(jí)卷積神經(jīng)網(wǎng)絡(luò)短文本分類算法[J]. 劉敬學(xué),孟凡榮,周勇,劉兵. 計(jì)算機(jī)工程與應(yīng)用. 2019(05)
[9]深度學(xué)習(xí)國(guó)內(nèi)研究綜述[J]. 樊雅琴,王炳皓,王偉,唐燁偉. 中國(guó)遠(yuǎn)程教育. 2015(06)
[10]論淺層學(xué)習(xí)與深度學(xué)習(xí)[J]. 葉曉蕓,秦鑒. 軟件導(dǎo)刊. 2006(02)
博士論文
[1]基于深度學(xué)習(xí)的文本表示與分類方法研究[D]. 閆琰.北京科技大學(xué) 2016
[2]支持向量機(jī)分類方法及其在文本分類中的應(yīng)用研究[D]. 趙暉.大連理工大學(xué) 2006
碩士論文
[1]基于機(jī)器學(xué)習(xí)的中文文本分類算法的研究與實(shí)現(xiàn)[D]. 朱夢(mèng).北京郵電大學(xué) 2019
[2]基于word2vec和卷積神經(jīng)網(wǎng)絡(luò)的文本分類研究[D]. 李林.西南大學(xué) 2018
本文編號(hào):3383915
【文章來(lái)源】:安徽大學(xué)安徽省 211工程院校
【文章頁(yè)數(shù)】:79 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
本文采用的短文本分類系統(tǒng)藍(lán)圖
第二章短文本分類相關(guān)技術(shù)簡(jiǎn)介10稀疏編碼,雖然它編碼效率高,但是獲得的向量中只有有效位為1,無(wú)效的位置全部都為0,效率表達(dá)非常低,便可能不適用于某些應(yīng)用。語(yǔ)料庫(kù)中的詞匯表一般都非常大,常達(dá)到百萬(wàn)級(jí)別,結(jié)果就是一個(gè)詞卻用百萬(wàn)級(jí)別的維度來(lái)表示,但是在實(shí)際實(shí)驗(yàn)時(shí),帶來(lái)的是維度爆炸的結(jié)果。總之one-hot編碼效率高,但是維度大、特征稀疏、向量之間沒(méi)有關(guān)聯(lián)性。(3)VSM向量空間模型該模型是由Salton提出的,VSM作為信息檢索的傳統(tǒng)模型,將一個(gè)文檔轉(zhuǎn)化為空間向量,特征詞個(gè)數(shù)等于向量的維數(shù)。假設(shè)文檔中特征個(gè)數(shù)為m,選擇出n個(gè)特征詞,由n個(gè)特征詞組成的詞序列c=(1,2,…,)。文檔中特征向量是一個(gè)長(zhǎng)度為n,索引1,2,…,,權(quán)值為1,2,…,,剩余位置取值0的向量。文本數(shù)據(jù)集中全部特征向量形成的矩陣如圖2.1所示:圖2.1文本數(shù)據(jù)集中全部特征向量形成的矩陣圖一般來(lái)說(shuō),文本集合的詞匯量很大,VSM獲取的詞向量維度高,特征稀疏,使得計(jì)算復(fù)雜。且由于VSM無(wú)法捕獲特征詞之間語(yǔ)義關(guān)系,便使得兩篇語(yǔ)義相近的文檔因?yàn)闆](méi)有包含相同的特征詞,計(jì)算得出文本的相似度為0,導(dǎo)致文本分類存在誤差。圖2.2特征詞與權(quán)重的對(duì)應(yīng)關(guān)系
第二章短文本分類相關(guān)技術(shù)簡(jiǎn)介10稀疏編碼,雖然它編碼效率高,但是獲得的向量中只有有效位為1,無(wú)效的位置全部都為0,效率表達(dá)非常低,便可能不適用于某些應(yīng)用。語(yǔ)料庫(kù)中的詞匯表一般都非常大,常達(dá)到百萬(wàn)級(jí)別,結(jié)果就是一個(gè)詞卻用百萬(wàn)級(jí)別的維度來(lái)表示,但是在實(shí)際實(shí)驗(yàn)時(shí),帶來(lái)的是維度爆炸的結(jié)果?傊畂ne-hot編碼效率高,但是維度大、特征稀疏、向量之間沒(méi)有關(guān)聯(lián)性。(3)VSM向量空間模型該模型是由Salton提出的,VSM作為信息檢索的傳統(tǒng)模型,將一個(gè)文檔轉(zhuǎn)化為空間向量,特征詞個(gè)數(shù)等于向量的維數(shù)。假設(shè)文檔中特征個(gè)數(shù)為m,選擇出n個(gè)特征詞,由n個(gè)特征詞組成的詞序列c=(1,2,…,)。文檔中特征向量是一個(gè)長(zhǎng)度為n,索引1,2,…,,權(quán)值為1,2,…,,剩余位置取值0的向量。文本數(shù)據(jù)集中全部特征向量形成的矩陣如圖2.1所示:圖2.1文本數(shù)據(jù)集中全部特征向量形成的矩陣圖一般來(lái)說(shuō),文本集合的詞匯量很大,VSM獲取的詞向量維度高,特征稀疏,使得計(jì)算復(fù)雜。且由于VSM無(wú)法捕獲特征詞之間語(yǔ)義關(guān)系,便使得兩篇語(yǔ)義相近的文檔因?yàn)闆](méi)有包含相同的特征詞,計(jì)算得出文本的相似度為0,導(dǎo)致文本分類存在誤差。圖2.2特征詞與權(quán)重的對(duì)應(yīng)關(guān)系
【參考文獻(xiàn)】:
期刊論文
[1]基于詞袋模型和TF-IDF的短文本分類研究[J]. 黃春梅,王松磊. 軟件工程. 2020(03)
[2]CNNIC發(fā)布第44次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[J]. 于朝暉. 網(wǎng)信軍民融合. 2019(09)
[3]基于類別特征擴(kuò)展的短文本分類方法研究[J]. 邵云飛,劉東蘇. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2019(09)
[4]基于Word2vec和改進(jìn)型TF-IDF的卷積神經(jīng)網(wǎng)絡(luò)文本分類模型[J]. 王根生,黃學(xué)堅(jiān). 小型微型計(jì)算機(jī)系統(tǒng). 2019(05)
[5]面向短文本分類的特征提取與算法研究[J]. 劉曉鵬,楊嘉佳,盧凱,田昌海,唐球. 信息技術(shù)與網(wǎng)絡(luò)安全. 2019(05)
[6]面向Twitter情感分析的文本預(yù)處理方法研究[J]. 王永昌,朱立谷. 中國(guó)傳媒大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(02)
[7]基于改進(jìn)K最近鄰算法的中文文本分類[J]. 黃超,陳軍華. 上海師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(01)
[8]字符級(jí)卷積神經(jīng)網(wǎng)絡(luò)短文本分類算法[J]. 劉敬學(xué),孟凡榮,周勇,劉兵. 計(jì)算機(jī)工程與應(yīng)用. 2019(05)
[9]深度學(xué)習(xí)國(guó)內(nèi)研究綜述[J]. 樊雅琴,王炳皓,王偉,唐燁偉. 中國(guó)遠(yuǎn)程教育. 2015(06)
[10]論淺層學(xué)習(xí)與深度學(xué)習(xí)[J]. 葉曉蕓,秦鑒. 軟件導(dǎo)刊. 2006(02)
博士論文
[1]基于深度學(xué)習(xí)的文本表示與分類方法研究[D]. 閆琰.北京科技大學(xué) 2016
[2]支持向量機(jī)分類方法及其在文本分類中的應(yīng)用研究[D]. 趙暉.大連理工大學(xué) 2006
碩士論文
[1]基于機(jī)器學(xué)習(xí)的中文文本分類算法的研究與實(shí)現(xiàn)[D]. 朱夢(mèng).北京郵電大學(xué) 2019
[2]基于word2vec和卷積神經(jīng)網(wǎng)絡(luò)的文本分類研究[D]. 李林.西南大學(xué) 2018
本文編號(hào):3383915
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3383915.html
最近更新
教材專著