基于支持向量機(jī)與神經(jīng)網(wǎng)絡(luò)的文本分類算法研究
發(fā)布時(shí)間:2021-06-13 15:43
通信互聯(lián)網(wǎng)的迅猛發(fā)展產(chǎn)生了海量的數(shù)據(jù)信息,短信、新聞等文本信息更是呈現(xiàn)爆炸式增長,如何讓網(wǎng)民從海量的文本數(shù)據(jù)中快速獲取對自己有意義的信息已成為當(dāng)前研究的熱點(diǎn)。本文的核心工作是利用傳統(tǒng)的文本特征提取方法和支持向量機(jī)(Support Vector Machine,SVM)進(jìn)行數(shù)據(jù)挖掘與分析;同時(shí)為了考慮文本的語義信息,減少人為因素的影響,利用神經(jīng)網(wǎng)絡(luò)自學(xué)習(xí)的特點(diǎn)進(jìn)行文本分類。文本分類主要基于文本表示,傳統(tǒng)文本表示通常采用信息增益(Information Gain,IG)、卡方統(tǒng)計(jì)和互信息等方法,它們假設(shè)詞與詞之間相互獨(dú)立,忽略了特征詞之間的冗余信息。對于基于SVM的文本分類器,由于SVM單核核函數(shù)存在無法完全匹配數(shù)據(jù)分布的問題,導(dǎo)致系統(tǒng)分類性能有所降低。此外,傳統(tǒng)的機(jī)器學(xué)習(xí)算法大部分屬于淺層模型,如果訓(xùn)練集數(shù)據(jù)量較大,文本信息較長,容易出現(xiàn)特征信息丟失等缺陷,并且基于傳統(tǒng)統(tǒng)計(jì)方法的特征選擇方法會(huì)增加噪聲的影響,而深度學(xué)習(xí)在面對上述復(fù)雜問題時(shí)會(huì)更有優(yōu)勢。針對上述文本分類存在的問題,本文的主要?jiǎng)?chuàng)新點(diǎn)如下:1.鑒于傳統(tǒng)的特征提取法未考慮特征詞之間冗余性的問題,本文第二章提出了一種結(jié)合IG和改進(jìn)的...
【文章來源】:南京郵電大學(xué)江蘇省
【文章頁數(shù)】:75 頁
【學(xué)位級別】:碩士
【部分圖文】:
線性分類表示圖
圖 3.4 多項(xiàng)式核函數(shù)圖為 0.0jx 。從圖 3.4 中可以看出多項(xiàng)式核函數(shù)不僅作用于樣本附樣本點(diǎn)也很有效。這種核函數(shù)稱為全局核函數(shù),具有較強(qiáng)的泛化提取全局信息,但其學(xué)習(xí)能力較弱。函數(shù)數(shù)也稱為徑向基核函數(shù),是目前普遍運(yùn)用的一種核函數(shù),2 ), 0i j x x 。高斯核被廣泛應(yīng)用的原因:當(dāng)對需要處理的數(shù)的參數(shù)往往會(huì)使得高斯核函數(shù)取得不錯(cuò)的效果。因此,采用高斯核能力,分類效果較好。
圖 3.4 多項(xiàng)式核函數(shù)圖點(diǎn)為 0.0jx 。從圖 3.4 中可以看出多項(xiàng)式核函數(shù)不僅作用于樣本附離樣本點(diǎn)也很有效。這種核函數(shù)稱為全局核函數(shù),具有較強(qiáng)的泛化中提取全局信息,但其學(xué)習(xí)能力較弱。函數(shù)數(shù)也稱為徑向基核函數(shù),是目前普遍運(yùn)用的一種核函數(shù),其2( ), 0i j x x 。高斯核被廣泛應(yīng)用的原因:當(dāng)對需要處理的數(shù)的參數(shù)往往會(huì)使得高斯核函數(shù)取得不錯(cuò)的效果。因此,采用高斯核函習(xí)能力,分類效果較好。
【參考文獻(xiàn)】:
期刊論文
[1]云計(jì)算環(huán)境下分布式語義文本自適應(yīng)分類方法[J]. 王剛,楊波,楊明杰. 科學(xué)技術(shù)與工程. 2018(07)
[2]基于改進(jìn)TFIDF算法的郵件分類技術(shù)[J]. 陶峰,湯鯤,程光. 計(jì)算機(jī)技術(shù)與發(fā)展. 2018(08)
[3]基于雙重注意力模型的微博情感分析方法[J]. 張仰森,鄭佳,黃改娟,蔣玉茹. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(02)
[4]基于TF-IDF和余弦相似度的文本分類方法[J]. 武永亮,趙書良,李長鏡,魏娜娣,王子晏. 中文信息學(xué)報(bào). 2017(05)
[5]基于改進(jìn)TF-IDF特征提取的文本分類模型研究[J]. 周源,劉懷蘭,杜朋朋,廖嶺. 情報(bào)科學(xué). 2017(05)
[6]基于改進(jìn)TF-IDF的微博短文本特征詞提取算法[J]. 鄧丹君,姚莉. 軟件導(dǎo)刊. 2016(06)
[7]一種基于類差分度的互信息特征選擇方法[J]. 任軍,葛衛(wèi)麗,陳家勇. 中國科技論文. 2015(20)
[8]基于改進(jìn)TF-IDF算法的情報(bào)關(guān)鍵詞提取方法[J]. 張瑾. 情報(bào)雜志. 2014(04)
[9]結(jié)合鄰域相關(guān)影像與最大相關(guān)性最小冗余性特征選擇的面向?qū)ο笞兓瘷z測[J]. 鄒利東,潘耀忠,朱文泉,周公器,李宜展. 中國圖象圖形學(xué)報(bào). 2014(01)
[10]基于改進(jìn)最大相關(guān)最小冗余判據(jù)的暫態(tài)穩(wěn)定評估特征選擇[J]. 李揚(yáng),顧雪平. 中國電機(jī)工程學(xué)報(bào). 2013(34)
碩士論文
[1]基于深度學(xué)習(xí)理論和SVM技術(shù)的文本分類研究與實(shí)現(xiàn)[D]. 劉國鋒.江蘇科技大學(xué) 2017
[2]基于優(yōu)化的IG與RBF的SVM文本情感分類研究[D]. 馬海亮.南昌大學(xué) 2016
[3]基于混合核函數(shù)支持向量機(jī)的文本分類研究[D]. 李希鵬.中國海洋大學(xué) 2012
本文編號(hào):3227817
【文章來源】:南京郵電大學(xué)江蘇省
【文章頁數(shù)】:75 頁
【學(xué)位級別】:碩士
【部分圖文】:
線性分類表示圖
圖 3.4 多項(xiàng)式核函數(shù)圖為 0.0jx 。從圖 3.4 中可以看出多項(xiàng)式核函數(shù)不僅作用于樣本附樣本點(diǎn)也很有效。這種核函數(shù)稱為全局核函數(shù),具有較強(qiáng)的泛化提取全局信息,但其學(xué)習(xí)能力較弱。函數(shù)數(shù)也稱為徑向基核函數(shù),是目前普遍運(yùn)用的一種核函數(shù),2 ), 0i j x x 。高斯核被廣泛應(yīng)用的原因:當(dāng)對需要處理的數(shù)的參數(shù)往往會(huì)使得高斯核函數(shù)取得不錯(cuò)的效果。因此,采用高斯核能力,分類效果較好。
圖 3.4 多項(xiàng)式核函數(shù)圖點(diǎn)為 0.0jx 。從圖 3.4 中可以看出多項(xiàng)式核函數(shù)不僅作用于樣本附離樣本點(diǎn)也很有效。這種核函數(shù)稱為全局核函數(shù),具有較強(qiáng)的泛化中提取全局信息,但其學(xué)習(xí)能力較弱。函數(shù)數(shù)也稱為徑向基核函數(shù),是目前普遍運(yùn)用的一種核函數(shù),其2( ), 0i j x x 。高斯核被廣泛應(yīng)用的原因:當(dāng)對需要處理的數(shù)的參數(shù)往往會(huì)使得高斯核函數(shù)取得不錯(cuò)的效果。因此,采用高斯核函習(xí)能力,分類效果較好。
【參考文獻(xiàn)】:
期刊論文
[1]云計(jì)算環(huán)境下分布式語義文本自適應(yīng)分類方法[J]. 王剛,楊波,楊明杰. 科學(xué)技術(shù)與工程. 2018(07)
[2]基于改進(jìn)TFIDF算法的郵件分類技術(shù)[J]. 陶峰,湯鯤,程光. 計(jì)算機(jī)技術(shù)與發(fā)展. 2018(08)
[3]基于雙重注意力模型的微博情感分析方法[J]. 張仰森,鄭佳,黃改娟,蔣玉茹. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(02)
[4]基于TF-IDF和余弦相似度的文本分類方法[J]. 武永亮,趙書良,李長鏡,魏娜娣,王子晏. 中文信息學(xué)報(bào). 2017(05)
[5]基于改進(jìn)TF-IDF特征提取的文本分類模型研究[J]. 周源,劉懷蘭,杜朋朋,廖嶺. 情報(bào)科學(xué). 2017(05)
[6]基于改進(jìn)TF-IDF的微博短文本特征詞提取算法[J]. 鄧丹君,姚莉. 軟件導(dǎo)刊. 2016(06)
[7]一種基于類差分度的互信息特征選擇方法[J]. 任軍,葛衛(wèi)麗,陳家勇. 中國科技論文. 2015(20)
[8]基于改進(jìn)TF-IDF算法的情報(bào)關(guān)鍵詞提取方法[J]. 張瑾. 情報(bào)雜志. 2014(04)
[9]結(jié)合鄰域相關(guān)影像與最大相關(guān)性最小冗余性特征選擇的面向?qū)ο笞兓瘷z測[J]. 鄒利東,潘耀忠,朱文泉,周公器,李宜展. 中國圖象圖形學(xué)報(bào). 2014(01)
[10]基于改進(jìn)最大相關(guān)最小冗余判據(jù)的暫態(tài)穩(wěn)定評估特征選擇[J]. 李揚(yáng),顧雪平. 中國電機(jī)工程學(xué)報(bào). 2013(34)
碩士論文
[1]基于深度學(xué)習(xí)理論和SVM技術(shù)的文本分類研究與實(shí)現(xiàn)[D]. 劉國鋒.江蘇科技大學(xué) 2017
[2]基于優(yōu)化的IG與RBF的SVM文本情感分類研究[D]. 馬海亮.南昌大學(xué) 2016
[3]基于混合核函數(shù)支持向量機(jī)的文本分類研究[D]. 李希鵬.中國海洋大學(xué) 2012
本文編號(hào):3227817
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3227817.html
最近更新
教材專著