天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于圖正則化MNMF的中文垃圾郵件過(guò)濾

發(fā)布時(shí)間:2019-11-16 21:56
【摘要】:利用向量空間模型表示的文本郵件數(shù)據(jù)具有高維性,不利于郵件過(guò)濾模型的建立,需要對(duì)數(shù)據(jù)進(jìn)行降維處理。最大間隔Semi-NMF(max-margin semi-nonnegative matrix factorization,MNMF)能夠同時(shí)實(shí)現(xiàn)維數(shù)約減和郵件分類,而圖正則化NMF能保持?jǐn)?shù)據(jù)空間的幾何結(jié)構(gòu);谝陨蟽煞NNMF改進(jìn)模型,提出了圖正則化MNMF(graph regularized MNMF,GMNMF)算法,并設(shè)計(jì)了一個(gè)迭代的求解算法。將GMNMF算法及其他相關(guān)算法用于中文垃圾郵件過(guò)濾實(shí)驗(yàn),結(jié)果表明GMNMF算法構(gòu)建的過(guò)濾模型要優(yōu)于其他較好的算法構(gòu)建的過(guò)濾模型。
【圖文】:

分布圖,基矩陣,投影分布,測(cè)試樣本


比例都為1∶2。根據(jù)上述比例,最終用于實(shí)驗(yàn)的訓(xùn)練樣本包含1500封垃圾郵件和750封正常郵件,測(cè)試樣本數(shù)目類似。將上述參數(shù)和數(shù)據(jù)用于本組實(shí)驗(yàn),可以得到測(cè)試樣本數(shù)據(jù)由經(jīng)NMF+SVM、GNMF+SVM、MNMF和GMNMF分別降維后的投影情況分布圖(圖1)。從圖1可以看出:對(duì)于相同測(cè)試樣本,GMNMF算法所構(gòu)建的模型能取得最高的F1。不僅如此,經(jīng)過(guò)GMNMF算法特征抽取后的數(shù)據(jù)變得明顯比其他三個(gè)的數(shù)據(jù)更容易分類。如此看來(lái),GMNMF算法與其他三種算法相比具有一定的優(yōu)越性。spamhamhyperplane806040200-20(a)MMF+SVM020406080F1=0.86862(b)GNMF+SVM10.80.60.40.200.20.40.60.81spamhamhyperplane20-2-4-6-8-0.500.511.5F1=0.91256spamhamhyperplaneF1=0.94146spamhamhyperplane210-1-2-3-2-101234(c)NNMF(d)GMNMF圖1測(cè)試樣本在四種算法的基矩陣下的投影分布情況F1=0.92139A組實(shí)驗(yàn)中僅在維數(shù)k=2進(jìn)行了實(shí)驗(yàn),,為了驗(yàn)證在較小的不同維數(shù)k下GMNMF算法所構(gòu)建的垃圾郵件過(guò)濾模型同樣能夠取得好的分類效果,進(jìn)行B組實(shí)驗(yàn)。在B組實(shí)驗(yàn)中,維數(shù)k分別取2、10、20、40、60和80,其他的參數(shù)選取和數(shù)據(jù)分配方法與A組中的一樣。不一樣的是本組將CDSCE和trec06c都用于實(shí)驗(yàn),其中由CDSCE生成的訓(xùn)練樣本有974封垃圾郵件和487封正常郵件,測(cè)試樣本數(shù)目類似;由trec06c生成的樣本數(shù)目類似于A組實(shí)驗(yàn)。將上述得到的兩組樣本分別用于訓(xùn)練和測(cè)試,可以得到NMF+SVM、GNMF+SVM、MNMF和GM-NMF在不同維數(shù)下的測(cè)試分類效果如圖2所示。從圖2可以看出:對(duì)于每個(gè)數(shù)據(jù)集,隨著維數(shù)k逐漸增大,四種算法的F1都大致呈現(xiàn)出逐漸增大的趨勢(shì),而且增幅總體上都逐漸減小;當(dāng)k=10時(shí),各種算法都已經(jīng)獲得了較高的F1。不?

分布圖,基矩陣,投影分布,測(cè)試樣本


比例都為1∶2。根據(jù)上述比例,最終用于實(shí)驗(yàn)的訓(xùn)練樣本包含1500封垃圾郵件和750封正常郵件,測(cè)試樣本數(shù)目類似。將上述參數(shù)和數(shù)據(jù)用于本組實(shí)驗(yàn),可以得到測(cè)試樣本數(shù)據(jù)由經(jīng)NMF+SVM、GNMF+SVM、MNMF和GMNMF分別降維后的投影情況分布圖(圖1)。從圖1可以看出:對(duì)于相同測(cè)試樣本,GMNMF算法所構(gòu)建的模型能取得最高的F1。不僅如此,經(jīng)過(guò)GMNMF算法特征抽取后的數(shù)據(jù)變得明顯比其他三個(gè)的數(shù)據(jù)更容易分類。如此看來(lái),GMNMF算法與其他三種算法相比具有一定的優(yōu)越性。spamhamhyperplane806040200-20(a)MMF+SVM020406080F1=0.86862(b)GNMF+SVM10.80.60.40.200.20.40.60.81spamhamhyperplane20-2-4-6-8-0.500.511.5F1=0.91256spamhamhyperplaneF1=0.94146spamhamhyperplane210-1-2-3-2-101234(c)NNMF(d)GMNMF圖1測(cè)試樣本在四種算法的基矩陣下的投影分布情況F1=0.92139A組實(shí)驗(yàn)中僅在維數(shù)k=2進(jìn)行了實(shí)驗(yàn),為了驗(yàn)證在較小的不同維數(shù)k下GMNMF算法所構(gòu)建的垃圾郵件過(guò)濾模型同樣能夠取得好的分類效果,進(jìn)行B組實(shí)驗(yàn)。在B組實(shí)驗(yàn)中,維數(shù)k分別取2、10、20、40、60和80,其他的參數(shù)選取和數(shù)據(jù)分配方法與A組中的一樣。不一樣的是本組將CDSCE和trec06c都用于實(shí)驗(yàn),其中由CDSCE生成的訓(xùn)練樣本有974封垃圾郵件和487封正常郵件,測(cè)試樣本數(shù)目類似;由trec06c生成的樣本數(shù)目類似于A組實(shí)驗(yàn)。將上述得到的兩組樣本分別用于訓(xùn)練和測(cè)試,可以得到NMF+SVM、GNMF+SVM、MNMF和GM-NMF在不同維數(shù)下的測(cè)試分類效果如圖2所示。從圖2可以看出:對(duì)于每個(gè)數(shù)據(jù)集,隨著維數(shù)k逐漸增大,四種算法的F1都大致呈現(xiàn)出逐漸增大的趨勢(shì),而且增幅總體上都逐漸減小;當(dāng)k=10時(shí),各種算法都已經(jīng)獲得了較高的F1。不?

【共引文獻(xiàn)】

相關(guān)期刊論文 前2條

1 ;A new method of mesh simplification for 3-Dimension terrain using Laplace operator[J];Computer Aided Drafting,Design and Manufacturing;2012年01期

2 陳孝禮;劉培玉;;應(yīng)用于垃圾郵件過(guò)濾的詞序列核[J];計(jì)算機(jī)應(yīng)用;2011年03期

相關(guān)碩士學(xué)位論文 前3條

1 陳孝禮;基于改進(jìn)SVM的垃圾郵件過(guò)濾系統(tǒng)研究與實(shí)現(xiàn)[D];山東師范大學(xué);2011年

2 孫吉譚;基于內(nèi)容的垃圾郵件意圖分析方法研究[D];吉林大學(xué);2011年

3 王慕妮;基于組合及統(tǒng)計(jì)的圖像型垃圾郵件檢測(cè)研究[D];南京郵電大學(xué);2012年

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 郭煒強(qiáng);戴天;文貴華;;基于領(lǐng)域知識(shí)的專利自動(dòng)分類[J];計(jì)算機(jī)工程;2005年23期

2 馬輝民;李衛(wèi)華;吳良元;;VSM在中文文本聚類中的應(yīng)用及實(shí)證分析[J];武漢理工大學(xué)學(xué)報(bào)(信息與管理工程版);2006年04期

3 張娜;張化祥;;基于超鏈接和內(nèi)容相關(guān)度的檢索算法[J];計(jì)算機(jī)應(yīng)用;2006年05期

4 楊麗華;戴齊;郭艷軍;;KNN文本分類算法研究[J];微計(jì)算機(jī)信息;2006年21期

5 田正軍;張鴻彥;;基于自動(dòng)分類的郵件過(guò)濾系統(tǒng)[J];河南科學(xué);2007年02期

6 周文霞;;現(xiàn)代文本分類技術(shù)研究[J];武警學(xué)院學(xué)報(bào);2007年12期

7 朱宗乾;姬浩;楊冬民;;基于網(wǎng)絡(luò)的ERP實(shí)施風(fēng)險(xiǎn)評(píng)價(jià)信息挖掘模型[J];計(jì)算機(jī)工程;2008年07期

8 曹建芳;王鴻斌;;基于SVM的漢語(yǔ)動(dòng)詞短語(yǔ)分類算法研究[J];河北北方學(xué)院學(xué)報(bào)(自然科學(xué)版);2008年02期

9 徐文海;溫有奎;;一種基于TFIDF方法的中文關(guān)鍵詞抽取算法[J];情報(bào)理論與實(shí)踐;2008年02期

10 卓佳;張俊坤;李暢;;使用向量空間模型進(jìn)行信息檢索的實(shí)現(xiàn)[J];華南金融電腦;2008年10期

相關(guān)會(huì)議論文 前10條

1 王桐;劉大昕;田迪;孫偉;張萬(wàn)松;;一種改進(jìn)的XML向量空間模型及其近似匹配算法[A];第二十三屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2006年

2 高勇;荀恩東;宋柔;;構(gòu)造自然語(yǔ)言問(wèn)答系統(tǒng)平臺(tái)[A];第二屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2004年

3 喻飛;夏曉燕;吳蓉暉;徐成;;基于向量空間模型的信息安全審計(jì)系統(tǒng)[A];第二十六屆中國(guó)控制會(huì)議論文集[C];2007年

4 陳浩;何婷婷;代玲;;基于向量空間模型的無(wú)導(dǎo)詞義消歧[A];第二屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2004年

5 黃萱菁;夏迎炬;吳立德;;基于向量空間模型的文本過(guò)濾系統(tǒng)[A];輝煌二十年——中國(guó)中文信息學(xué)會(huì)二十周年學(xué)術(shù)會(huì)議論文集[C];2001年

6 蘇貴洋;王永成;馬穎華;;信息自動(dòng)獲取的結(jié)構(gòu)模型[A];第一屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2002年

7 原福永;楊治秋;王海霞;;一種基于向量空間模型的文檔聚類算法研究[A];第十二屆全國(guó)信號(hào)處理學(xué)術(shù)年會(huì)(CCSP-2005)論文集[C];2005年

8 林游龍;余智華;程學(xué)旗;劉悅;;虛點(diǎn):一種減少特征值鴻溝的方法[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年

9 廖祝華;劉建勛;易愛(ài)平;;基于用戶興趣的Web服務(wù)發(fā)現(xiàn)[A];2006年全國(guó)開(kāi)放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(三)[C];2006年

10 曹晶;孫鐵利;楊柳;;基于概念向量空間模型的信息檢索方法[A];2006年全國(guó)理論計(jì)算機(jī)科學(xué)學(xué)術(shù)年會(huì)論文集[C];2006年

相關(guān)重要報(bào)紙文章 前2條

1 清華大學(xué)計(jì)算機(jī)系智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室 張敏 金奕江;尋“寶”有術(shù)[N];計(jì)算機(jī)世界;2003年

2 中國(guó)科學(xué)院計(jì)算技術(shù)研究所 王 斌;內(nèi)容為王[N];計(jì)算機(jī)世界;2004年

相關(guān)博士學(xué)位論文 前10條

1 孫道軍;文本挖掘預(yù)處理相關(guān)基礎(chǔ)技術(shù)分析與應(yīng)用研究[D];北京郵電大學(xué);2008年

2 邢軍;領(lǐng)域本體構(gòu)造中數(shù)據(jù)源選取及構(gòu)造方法的研究[D];大連理工大學(xué);2008年

3 夏迎炬;文本過(guò)濾關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2003年

4 杜衛(wèi)鋒;粗糙集理論在中文文本分類中的應(yīng)用[D];西南交通大學(xué);2006年

5 馬暉男;信息檢索中淺層語(yǔ)義模型的研究[D];大連理工大學(xué);2007年

6 李春光;流形學(xué)習(xí)及其在模式識(shí)別中的應(yīng)用[D];北京郵電大學(xué);2008年

7 徐婕;基于對(duì)等網(wǎng)絡(luò)的資源搜索策略的研究[D];華中科技大學(xué);2007年

8 于瑞國(guó);維數(shù)約減算法研究及其在大規(guī)模文本數(shù)據(jù)挖掘中的應(yīng)用[D];天津大學(xué);2008年

9 楊創(chuàng)新;基于機(jī)器學(xué)習(xí)的高性能中文文本分類研究[D];華南理工大學(xué);2009年

10 王修力;基于描述復(fù)雜性的信息檢索理論與若干模型研究[D];北京語(yǔ)言大學(xué);2006年

相關(guān)碩士學(xué)位論文 前10條

1 褚金正;面向特定領(lǐng)域的文本識(shí)別和分類[D];湖南大學(xué);2005年

2 張波;個(gè)性化Web搜索系統(tǒng)研究[D];燕山大學(xué);2006年

3 郭妍;基于市長(zhǎng)公開(kāi)電話文本為背景的兩種自動(dòng)分類算法的比較[D];東北師范大學(xué);2006年

4 董梅;文本內(nèi)容的信息過(guò)濾技術(shù)研究[D];合肥工業(yè)大學(xué);2006年

5 李洋;企業(yè)注冊(cè)登記文件聚類軟件設(shè)計(jì)與實(shí)現(xiàn)[D];大連理工大學(xué);2007年

6 吳新濤;基于向量空間模型的網(wǎng)頁(yè)信息過(guò)濾方法研究[D];大連理工大學(xué);2008年

7 趙博;一種基于關(guān)鍵向量的文本分類模型的研究[D];哈爾濱理工大學(xué);2008年

8 趙文鵬;基于自組織特征映射的海洋文獻(xiàn)聚類分析的研究與實(shí)現(xiàn)[D];中國(guó)海洋大學(xué);2009年

9 趙治軍;OAI-PMH中元數(shù)據(jù)相似度計(jì)算的研究與實(shí)現(xiàn)[D];太原科技大學(xué);2009年

10 段建勇;現(xiàn)代漢語(yǔ)詞性細(xì)分類標(biāo)注研究[D];山西大學(xué);2004年



本文編號(hào):2562023

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2562023.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶fc7f9***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com