天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計算機應(yīng)用論文 >

改進的TF-IDF特征選擇和短文本分類算法研究

發(fā)布時間:2021-09-04 19:59
  隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)很快成為互聯(lián)網(wǎng)用戶獲取信息、交流和學(xué)習(xí)的重要平臺,同時該平臺也產(chǎn)生了海量的文本數(shù)據(jù),這些數(shù)據(jù)內(nèi)容簡短,上下文語義關(guān)聯(lián)程度大,表達方式多樣,但是蘊含大量的信息。如何處理這些短文本并從中獲取有價值的信息,一直以來是人們所關(guān)心的問題。文本分類是指將文本信息歸為一個或多個類型的過程,可以解決短文本雜亂無章的問題、提高信息利用率以及幫助用戶縮小信息檢索范圍?紤]到這些非結(jié)構(gòu)化文本數(shù)據(jù)的特點,傳統(tǒng)的特征表示方法和分類模型對其直接進行處理結(jié)果精度有限。針對這種情況,本文主要從兩個方面著手改進:文本特征選擇方法和文本分類算法。一、鑒于短文本數(shù)據(jù)集的非均衡性,傳統(tǒng)特征選擇方法的不適用性,本文首先把類頻方差和卡方檢驗引入詞頻-逆文檔頻率算法中,形成兩個單模型特征選擇算法,將兩個單模型融合再引入詞向量訓(xùn)練工具Word2vec形成的算法記為WoTFI,用于特征獲取,該模型既考慮到文本數(shù)據(jù)的語義信息,又兼顧到特征詞在類內(nèi)和類間分布的差異。和不同的特征表示模型對比,WoTFI不僅能夠靈活實現(xiàn)特征詞權(quán)重的分配,也對分類結(jié)果產(chǎn)生了積極影響。二、對傳統(tǒng)分類算法做了改進,采用雙向長短時記憶網(wǎng)... 

【文章來源】:安徽大學(xué)安徽省 211工程院校

【文章頁數(shù)】:79 頁

【學(xué)位級別】:碩士

【部分圖文】:

改進的TF-IDF特征選擇和短文本分類算法研究


本文采用的短文本分類系統(tǒng)藍圖

矩陣圖,文本數(shù)據(jù),矩陣圖,特征向量


第二章短文本分類相關(guān)技術(shù)簡介10稀疏編碼,雖然它編碼效率高,但是獲得的向量中只有有效位為1,無效的位置全部都為0,效率表達非常低,便可能不適用于某些應(yīng)用。語料庫中的詞匯表一般都非常大,常達到百萬級別,結(jié)果就是一個詞卻用百萬級別的維度來表示,但是在實際實驗時,帶來的是維度爆炸的結(jié)果?傊畂ne-hot編碼效率高,但是維度大、特征稀疏、向量之間沒有關(guān)聯(lián)性。(3)VSM向量空間模型該模型是由Salton提出的,VSM作為信息檢索的傳統(tǒng)模型,將一個文檔轉(zhuǎn)化為空間向量,特征詞個數(shù)等于向量的維數(shù)。假設(shè)文檔中特征個數(shù)為m,選擇出n個特征詞,由n個特征詞組成的詞序列c=(1,2,…,)。文檔中特征向量是一個長度為n,索引1,2,…,,權(quán)值為1,2,…,,剩余位置取值0的向量。文本數(shù)據(jù)集中全部特征向量形成的矩陣如圖2.1所示:圖2.1文本數(shù)據(jù)集中全部特征向量形成的矩陣圖一般來說,文本集合的詞匯量很大,VSM獲取的詞向量維度高,特征稀疏,使得計算復(fù)雜。且由于VSM無法捕獲特征詞之間語義關(guān)系,便使得兩篇語義相近的文檔因為沒有包含相同的特征詞,計算得出文本的相似度為0,導(dǎo)致文本分類存在誤差。圖2.2特征詞與權(quán)重的對應(yīng)關(guān)系

矩陣圖,特征詞,權(quán)重,向量


第二章短文本分類相關(guān)技術(shù)簡介10稀疏編碼,雖然它編碼效率高,但是獲得的向量中只有有效位為1,無效的位置全部都為0,效率表達非常低,便可能不適用于某些應(yīng)用。語料庫中的詞匯表一般都非常大,常達到百萬級別,結(jié)果就是一個詞卻用百萬級別的維度來表示,但是在實際實驗時,帶來的是維度爆炸的結(jié)果?傊畂ne-hot編碼效率高,但是維度大、特征稀疏、向量之間沒有關(guān)聯(lián)性。(3)VSM向量空間模型該模型是由Salton提出的,VSM作為信息檢索的傳統(tǒng)模型,將一個文檔轉(zhuǎn)化為空間向量,特征詞個數(shù)等于向量的維數(shù)。假設(shè)文檔中特征個數(shù)為m,選擇出n個特征詞,由n個特征詞組成的詞序列c=(1,2,…,)。文檔中特征向量是一個長度為n,索引1,2,…,,權(quán)值為1,2,…,,剩余位置取值0的向量。文本數(shù)據(jù)集中全部特征向量形成的矩陣如圖2.1所示:圖2.1文本數(shù)據(jù)集中全部特征向量形成的矩陣圖一般來說,文本集合的詞匯量很大,VSM獲取的詞向量維度高,特征稀疏,使得計算復(fù)雜。且由于VSM無法捕獲特征詞之間語義關(guān)系,便使得兩篇語義相近的文檔因為沒有包含相同的特征詞,計算得出文本的相似度為0,導(dǎo)致文本分類存在誤差。圖2.2特征詞與權(quán)重的對應(yīng)關(guān)系

【參考文獻】:
期刊論文
[1]基于詞袋模型和TF-IDF的短文本分類研究[J]. 黃春梅,王松磊.  軟件工程. 2020(03)
[2]CNNIC發(fā)布第44次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》[J]. 于朝暉.  網(wǎng)信軍民融合. 2019(09)
[3]基于類別特征擴展的短文本分類方法研究[J]. 邵云飛,劉東蘇.  數(shù)據(jù)分析與知識發(fā)現(xiàn). 2019(09)
[4]基于Word2vec和改進型TF-IDF的卷積神經(jīng)網(wǎng)絡(luò)文本分類模型[J]. 王根生,黃學(xué)堅.  小型微型計算機系統(tǒng). 2019(05)
[5]面向短文本分類的特征提取與算法研究[J]. 劉曉鵬,楊嘉佳,盧凱,田昌海,唐球.  信息技術(shù)與網(wǎng)絡(luò)安全. 2019(05)
[6]面向Twitter情感分析的文本預(yù)處理方法研究[J]. 王永昌,朱立谷.  中國傳媒大學(xué)學(xué)報(自然科學(xué)版). 2019(02)
[7]基于改進K最近鄰算法的中文文本分類[J]. 黃超,陳軍華.  上海師范大學(xué)學(xué)報(自然科學(xué)版). 2019(01)
[8]字符級卷積神經(jīng)網(wǎng)絡(luò)短文本分類算法[J]. 劉敬學(xué),孟凡榮,周勇,劉兵.  計算機工程與應(yīng)用. 2019(05)
[9]深度學(xué)習(xí)國內(nèi)研究綜述[J]. 樊雅琴,王炳皓,王偉,唐燁偉.  中國遠程教育. 2015(06)
[10]論淺層學(xué)習(xí)與深度學(xué)習(xí)[J]. 葉曉蕓,秦鑒.  軟件導(dǎo)刊. 2006(02)

博士論文
[1]基于深度學(xué)習(xí)的文本表示與分類方法研究[D]. 閆琰.北京科技大學(xué) 2016
[2]支持向量機分類方法及其在文本分類中的應(yīng)用研究[D]. 趙暉.大連理工大學(xué) 2006

碩士論文
[1]基于機器學(xué)習(xí)的中文文本分類算法的研究與實現(xiàn)[D]. 朱夢.北京郵電大學(xué) 2019
[2]基于word2vec和卷積神經(jīng)網(wǎng)絡(luò)的文本分類研究[D]. 李林.西南大學(xué) 2018



本文編號:3383915

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3383915.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶73c46***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
国产精品亚洲综合天堂夜夜| 老司机精品视频在线免费看 | 国产传媒中文字幕东京热| 欧美一区二区三区高潮菊竹| 国产亚洲精品俞拍视频福利区 | 久久人人爽人人爽大片av| 亚洲一区二区三区中文久久 | 亚洲中文字幕视频在线观看| 免费午夜福利不卡片在线 视频| 99久久婷婷国产亚洲综合精品| 一区二区三区四区亚洲另类| 国产精品一区日韩欧美| 国产日产欧美精品视频| 欧美一级黄片免费视频| 国产又猛又黄又粗又爽无遮挡| 国产在线一区二区免费| 亚洲欧美日本国产有色| 国产精品一区二区三区黄色片| 果冻传媒精选麻豆白晶晶| 少妇被粗大进猛进出处故事| 日韩人妻av中文字幕| 欧美日韩国产午夜福利| 麻豆视传媒短视频免费观看 | 不卡视频在线一区二区三区| 欧美精品久久男人的天堂| 欧美日韩校园春色激情偷拍| 欧美性猛交内射老熟妇| 日本男人女人干逼视频| 五月天丁香婷婷一区二区| 欧美日本道一区二区三区| 国产精品二区三区免费播放心| 国产亚洲欧美一区二区| 免费观看潮喷到高潮大叫| 国产一区二区不卡在线播放| 国产av乱了乱了一区二区三区| 人体偷拍一区二区三区| 尹人大香蕉一级片免费看| 亚洲欧美日本国产不卡| 99久久精品免费看国产高清| 情一色一区二区三区四| 超薄丝袜足一区二区三区|