天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于文本加權(quán)KNN算法的中文垃圾短信過濾

發(fā)布時(shí)間:2018-04-25 20:53

  本文選題:垃圾過濾 + 關(guān)聯(lián)規(guī)則; 參考:《計(jì)算機(jī)工程》2017年03期


【摘要】:針對K最近鄰(KNN)算法在文本分類決策規(guī)則上由于樣本重要性相同而導(dǎo)致分類效果不佳的問題,提出一種基于文本加權(quán)的KNN文本分類算法,并將其應(yīng)用于垃圾短信的分類問題。在提取出特征詞之后,考慮到特征詞在文本中出現(xiàn)的頻率對文本重要性的影響,引入第1個(gè)加權(quán)公式,同時(shí)針對垃圾短信數(shù)據(jù)集,采用關(guān)聯(lián)規(guī)則算法挖掘出在垃圾短信中頻繁出現(xiàn)的共現(xiàn)詞組,并以此引入第2個(gè)加權(quán)公式,最后將引入的2種文本權(quán)重計(jì)算公式對每個(gè)短信文本進(jìn)行復(fù)合加權(quán)處理,以區(qū)分各個(gè)訓(xùn)練樣本對于判定隸屬類別的影響程度,從而在分類決策規(guī)則上作出改進(jìn)。實(shí)驗(yàn)結(jié)果表明,與未經(jīng)過文本加權(quán)的KNN算法相比,該算法對垃圾短信和正常短信在分類準(zhǔn)確率、召回率、F1值等指標(biāo)上都有較大的提升。
[Abstract]:In order to solve the problem that K-nearest neighbor (KNN) algorithm is not effective in text classification because of the same importance of samples, a text-weighted KNN text classification algorithm is proposed and applied to the classification of spam text messages. After extracting the feature words, considering the influence of the frequency of feature words appearing in the text on the importance of the text, the first weighting formula is introduced, and for the spam short message data set, the first weighted formula is introduced. The association rules algorithm is used to mine cooccurrence phrases which frequently appear in spam text messages, and the second weighting formula is introduced. Finally, two kinds of text weight calculation formulas are introduced to deal with each text. In order to distinguish the influence of each training sample on the decision of membership category, the classification decision rules are improved. The experimental results show that compared with the untext-weighted KNN algorithm, the algorithm can improve the classification accuracy, recall rate and F1 value of spam SMS and normal SMS.
【作者單位】: 桂林電子科技大學(xué)廣西可信軟件重點(diǎn)實(shí)驗(yàn)室;桂林電子科技大學(xué)計(jì)算機(jī)與信息安全學(xué)院;
【基金】:廣西可信軟件重點(diǎn)實(shí)驗(yàn)室研究課題(kx201106) 桂林電子科技大學(xué)研究生教育創(chuàng)新計(jì)劃項(xiàng)目(2016YJCX64)
【分類號】:TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前3條

1 蔡永泉;晉月培;葛安生;趙凱;;基于關(guān)聯(lián)分類的中文短信分類[J];北京工業(yè)大學(xué)學(xué)報(bào);2015年07期

2 楊柳;于劍;景麗萍;;一種自適應(yīng)的大間隔近鄰分類算法[J];計(jì)算機(jī)研究與發(fā)展;2013年11期

3 張永軍;劉金嶺;;基于特征詞的垃圾短信分類器模型[J];計(jì)算機(jī)應(yīng)用;2013年05期

【共引文獻(xiàn)】

相關(guān)期刊論文 前10條

1 黃文明;莫陽;;基于文本加權(quán)KNN算法的中文垃圾短信過濾[J];計(jì)算機(jī)工程;2017年03期

2 張兵;蒙祖強(qiáng);沈亮亮;李虹利;;基于局部密度和純度的自適應(yīng)k近鄰算法[J];廣西科學(xué)院學(xué)報(bào);2017年01期

3 李鋒;萬小強(qiáng);;短信自動分類的實(shí)現(xiàn)[J];智能計(jì)算機(jī)與應(yīng)用;2016年06期

4 馬潤民;李盈;;垃圾短信治理技術(shù)應(yīng)用[J];電信工程技術(shù)與標(biāo)準(zhǔn)化;2016年12期

5 蘇佩娟;劉峧;;基于K-近鄰法的不等樣分類[J];綿陽師范學(xué)院學(xué)報(bào);2016年11期

6 王貴新;彭娟;鄭孝宗;張小川;;基于稀疏自編碼器和SVM的垃圾短信過濾[J];現(xiàn)代電子技術(shù);2016年17期

7 朱茜;覃華;馮志新;陳晨;;一種大規(guī)模文本分類大間隔近鄰算法[J];計(jì)算機(jī)與現(xiàn)代化;2016年06期

8 王貴新;鄭孝宗;張浩然;張小川;;利用深度置信網(wǎng)絡(luò)的中文短信分類[J];現(xiàn)代電子技術(shù);2016年09期

9 王貴新;鄭孝宗;張浩然;張小川;;基于Word2vec的短信向量化算法[J];電子科技;2016年04期

10 王貴新;彭娟;鄭孝宗;;垃圾短信過濾系統(tǒng)的構(gòu)建[J];電子技術(shù)與軟件工程;2016年04期

【二級參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 張永軍;劉金嶺;高尚兵;;基于關(guān)聯(lián)規(guī)則的垃圾短信分類器模型[J];南通大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年03期

2 張永軍;劉金嶺;;一種改進(jìn)的高效貝葉斯短信文本分類器[J];南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版);2014年03期

3 王紅;張燕平;陳功平;;kNN算法在手機(jī)短信客戶端分類中的應(yīng)用研究[J];山東農(nóng)業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年02期

4 陳凱星;陳建英;;一種改進(jìn)的基于樸素貝葉斯算法的垃圾短信過濾技術(shù)[J];福建電腦;2014年03期

5 李慧;葉鴻;潘學(xué)瑞;段震;張燕平;;基于SVM的垃圾短信過濾系統(tǒng)[J];計(jì)算機(jī)安全;2012年06期

6 楊明極;宋艷艷;;支持向量機(jī)在垃圾短信攔截系統(tǒng)中的實(shí)現(xiàn)[J];數(shù)字技術(shù)與應(yīng)用;2012年01期

7 陳功平;沈明玉;王紅;張燕平;;基于內(nèi)容的短信分類技術(shù)[J];華東理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年06期

8 張應(yīng)龍;李翠平;陳紅;杜凌霞;;不確定圖上的kNN查詢處理[J];計(jì)算機(jī)研究與發(fā)展;2011年10期

9 劉金嶺;嚴(yán)云洋;;基于上下文的短信文本分類方法[J];計(jì)算機(jī)工程;2011年10期

10 劉松華;張軍英;許進(jìn);賈宏恩;;Kernel-kNN:基于信息能度量的核k-最近鄰算法[J];自動化學(xué)報(bào);2010年12期

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 張曉亮;趙平;徐冠青;林日明;;基于一種優(yōu)化的KNN算法在室內(nèi)定位中的應(yīng)用研究[J];電子設(shè)計(jì)工程;2013年07期

2 周樸雄;;用于WEB文檔分類的并行KNN算法[J];計(jì)算機(jī)工程與應(yīng)用;2008年25期

3 郁春江;;基于特征選擇的KNN算法在煤炭勘查工作中的應(yīng)用[J];煤炭技術(shù);2013年12期

4 周靖;劉晉勝;;一種采用類相關(guān)度優(yōu)化距離的KNN算法[J];微計(jì)算機(jī)應(yīng)用;2010年11期

5 孫曉燕;張化祥;計(jì)華;;用于不均衡數(shù)據(jù)集分類的KNN算法[J];計(jì)算機(jī)工程與應(yīng)用;2011年28期

6 谷蕭君;;基于改進(jìn)KNN算法的價(jià)格預(yù)測模型研究[J];電腦知識與技術(shù);2010年33期

7 劉科;;基于KNN算法的文本分類[J];科技經(jīng)濟(jì)市場;2009年06期

8 錢強(qiáng);龐林斌;高尚;;一種基于改進(jìn)型KNN算法的文本分類方法[J];江蘇科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年04期

9 王西平;;基于KNN算法對在校生考研預(yù)測模型的應(yīng)用研究[J];信息通信;2014年03期

10 邵莉;;基于粗糙集與改進(jìn)KNN算法的文本分類方法的研究[J];計(jì)算機(jī)與現(xiàn)代化;2012年02期

相關(guān)碩士學(xué)位論文 前4條

1 楊帆;基于改進(jìn)KNN算法的室內(nèi)WIFI定位技術(shù)研究[D];西北工業(yè)大學(xué);2016年

2 陳凱;基于加權(quán)KNN算法的降水相似預(yù)報(bào)方法研究與實(shí)現(xiàn)[D];南京航空航天大學(xué);2014年

3 林U_鋒;文本分類中基于概念聚合的KNN算法優(yōu)化問題研究[D];廣西大學(xué);2013年

4 張飛;基于KNN算法的文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華中科技大學(xué);2011年



本文編號:1802921

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1802921.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶bee94***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com