天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動化論文 >

基于MCNN和BiLSTM的垃圾短信過濾系統(tǒng)

發(fā)布時間:2021-02-11 03:21
  隨著移動手機(jī)的發(fā)展與普及,手機(jī)短信業(yè)務(wù)也迅速崛起,雖然目前受到社交平臺的沖擊,但手機(jī)短信依靠其低廉的價格、接收方便和實時性等優(yōu)勢依舊是百姓日常交流不可或缺的媒介,并且越來越多的企業(yè)以短信的形式進(jìn)行廣告宣傳從而來提高產(chǎn)品的影響力。一方面,短信給百姓日常生活帶來了便捷;另一方面,垃圾短信的濫用問題一直困擾著百姓的生活,對和諧社會造成了一定的危害。為了給用戶營造一種干凈良好的短信通信環(huán)境,對垃圾短信進(jìn)行研究和過濾是有必要和迫切的。本文研究的重心是利用深度學(xué)習(xí)模型與文本分類相關(guān)的技術(shù)相結(jié)合為短信過濾所用。首先在模型輸入端,針對短信這種特殊數(shù)據(jù),對噪聲內(nèi)容信息進(jìn)行匹配并替換成正常文本內(nèi)容為特征選擇等后期操作打好基礎(chǔ)。針對傳統(tǒng)的詞頻-逆文件頻率(Term Frequency-Inverse Document Frequency,TF-IDF)特征選擇算法忽略了特征詞在某一個類別中不同類別間的分布信息的缺點,在TF-IDF算法基礎(chǔ)上進(jìn)行了改進(jìn)。針對短信中短文本導(dǎo)致的特征稀疏問題,采用了基于詞向量的特征擴(kuò)展方法,對短信中的長文本采用特征縮減的方式,這不僅避免了短信中短文本特征稀疏的問題,還降低了模型訓(xùn)... 

【文章來源】:重慶郵電大學(xué)重慶市

【文章頁數(shù)】:76 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于MCNN和BiLSTM的垃圾短信過濾系統(tǒng)


短信長度分布比例圖

短信,長度分布,垃圾,比例圖


有必要對一部分長度較長的短信進(jìn)行特征縮減。其IDF 算法將該短信文本的特征詞進(jìn)行重要性程度排序,將末進(jìn)行縮減,即當(dāng)短信中的長文本長度刪減到 120 左右時便義短信特征一種特殊的文本,因此可以對短信中不同類別的各自特點這有利于短信分類。長度特征:本文雖然是主要對短信內(nèi)容進(jìn)行特征選擇,但區(qū)分垃圾短信和正常短信的一個重要特點。不同類別短信示:

短信,特殊詞,敏感詞,分布比


第 3 章 特征擴(kuò)展和縮減 0-40 的長度,垃圾短信分布集中在 40-80 的長度。詞匯和特殊符號個數(shù)特征:在短信內(nèi)容預(yù)處理時,會把“微信號(數(shù)字和字母等組成)”和“電話號碼(數(shù)字)”中文表示,神經(jīng)網(wǎng)絡(luò)雖然能夠提取內(nèi)容的語義特征,息。在短信分類時,為了使得短信的內(nèi)容完全由純文符號進(jìn)行正則后刪除,其中有一些符號是沒有任何意信分類有著較大的影響。如“【】”和“#”等。垃圾特殊符號個數(shù)比例如圖 3.4 所示:

【參考文獻(xiàn)】:
期刊論文
[1]基于詞向量和卷積神經(jīng)網(wǎng)絡(luò)的垃圾短信識別方法[J]. 賴文輝,喬宇鵬.  計算機(jī)應(yīng)用. 2018(09)
[2]基于多特征融合的垃圾短信識別[J]. 李潤川,昝紅英,申圣亞,畢銀龍,張中軍.  山東大學(xué)學(xué)報(理學(xué)版). 2017(07)
[3]基于維基百科的中文短文本分類研究[J]. 范云杰,劉懷亮.  現(xiàn)代圖書情報技術(shù). 2012(03)
[4]基于內(nèi)容的短信分類技術(shù)[J]. 陳功平,沈明玉,王紅,張燕平.  華東理工大學(xué)學(xué)報(自然科學(xué)版). 2011(06)
[5]文本分類中信息增益特征選擇方法的研究[J]. 郭亞維,劉曉霞.  計算機(jī)工程與應(yīng)用. 2012(27)
[6]一個大規(guī)模垃圾短信實時過濾系統(tǒng)[J]. 黃文良,李石堅,劉菊新,徐從富.  北京郵電大學(xué)學(xué)報. 2008(03)
[7]基于遺傳算法和信息熵的文本分類規(guī)則抽取方法研究[J]. 唐華,曾碧卿.  中山大學(xué)學(xué)報(自然科學(xué)版). 2007(05)
[8]基于詞頻分類器集成的文本分類方法[J]. 姜遠(yuǎn),周志華.  計算機(jī)研究與發(fā)展. 2006(10)
[9]基于遺傳算法的特征選擇方法[J]. 趙云,劉惟一.  計算機(jī)工程與應(yīng)用. 2004(15)

碩士論文
[1]基于網(wǎng)絡(luò)評論的情感分類技術(shù)的研究及應(yīng)用[D]. 郭捷.電子科技大學(xué) 2018
[2]文本表示模型和特征選擇算法研究[D]. 陳磊.中國科學(xué)技術(shù)大學(xué) 2017
[3]基于樸素貝葉斯短信分類系統(tǒng)的設(shè)計與實現(xiàn)[D]. 王乙丁.吉林大學(xué) 2015
[4]基于中文信息檢索的文本預(yù)處理研究[D]. 何金鳳.電子科技大學(xué) 2008



本文編號:3028436

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3028436.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶890db***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com