基于文本內(nèi)容的垃圾短信過濾系統(tǒng)
本文關(guān)鍵詞:基于文本內(nèi)容的垃圾短信過濾系統(tǒng),由筆耕文化傳播整理發(fā)布。
【摘要】:隨著短信的表現(xiàn)形式和文本特點的不斷更新變化,如何更加準(zhǔn)確并且快速地過濾垃圾短信,是短信攔截面臨的主要問題之一。現(xiàn)有的垃圾短信過濾方案主要包括設(shè)置黑白名單、關(guān)鍵詞匹配的過濾、用戶主動舉報或者標(biāo)注的過濾、基于內(nèi)容的過濾等。其中,基于內(nèi)容的垃圾短信過濾方案可以更有效地應(yīng)對文本的多樣性變化,而不依賴短信其他的附屬特征。但是現(xiàn)有的基于文本的垃圾短信過濾方法忽略了垃圾文本中包含的垃圾短信明顯特點,且對于短文本造成的稀疏向量問題,沒有較好的解決方案。本文對未經(jīng)預(yù)處理的原始短信樣本分析其對垃圾短信的判定有突出貢獻(xiàn)的噪音信息,將該信息抽象為自定義特征實現(xiàn)第一層過濾方案,進(jìn)而提前過濾出一部分具有特定特點的垃圾短信,且該部分短信在預(yù)處理之后由于丟失噪音信息易被錯分為合法短信;其次結(jié)合LDA主題模型對樣本進(jìn)行主題預(yù)測,有效實現(xiàn)特征擴展,緩解短文本所造成的稀疏向量對分類結(jié)果的負(fù)面影響。最后,本文采用真實的用戶短信數(shù)據(jù)作為實驗中的訓(xùn)練集和測試集,對特征擴展、分類進(jìn)行實驗對比,對各階段的可變參數(shù)在一定取值范圍內(nèi)多次取值對比分類效果,得出更適應(yīng)過濾系統(tǒng)的參數(shù)取值。對實驗結(jié)果則是采用準(zhǔn)確率、召回率和F-Measure對垃圾短信、合法短信、綜合效果三方面進(jìn)行評估。最終的實驗結(jié)果表明,本文提出的垃圾短信過濾框架可以有效地提高基于文本內(nèi)容的垃圾短信過濾的準(zhǔn)確度。
【關(guān)鍵詞】:垃圾短信 過濾 文本分類 特征擴展 分類
【學(xué)位授予單位】:北京理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP309
【目錄】:
- 摘要5-6
- Abstract6-11
- 第1章 緒論11-17
- 1.1 研究背景和意義11-12
- 1.2 國內(nèi)外研究現(xiàn)狀12-14
- 1.3 研究內(nèi)容14-15
- 1.3.1 任務(wù)目標(biāo)14
- 1.3.2 難點分析14
- 1.3.3 解決方案14-15
- 1.4 本文的組織結(jié)構(gòu)15-17
- 第2章 關(guān)鍵技術(shù)17-31
- 2.1 文本的模型表示方法17-18
- 2.2 特征選擇方法18-19
- 2.2.1 信息增益(Information Gain, IG)18-19
- 2.2.2 卡方檢驗(CHI)19
- 2.2.3 互信息(Mutual Information,,MI)19
- 2.3 特征權(quán)重19-20
- 2.4 分類算法20-27
- 2.4.1 決策樹分類算法(Decision Tree)21-22
- 2.4.2 樸素貝葉斯22-24
- 2.4.3 支持向量機SVM(Support Vector Machine)24-26
- 2.4.4 AdaBoost算法26-27
- 2.5 主題模型27-30
- 2.5.1 隱含狄利克雷分布(LDA主題模型)27-29
- 2.5.2 Gibbs采樣方法29-30
- 2.6 本章小結(jié)30-31
- 第3章 特征選擇及擴展31-38
- 3.1 特征選擇31-33
- 3.2 特征擴展33-36
- 3.2.1 短信特征分析33-34
- 3.2.2 同義詞擴展34-36
- 3.3 特征權(quán)重36-37
- 3.3.1 關(guān)鍵詞特征權(quán)重36
- 3.3.2 同義詞特征權(quán)重36
- 3.3.3 自定義特征權(quán)重36-37
- 3.4 本章小結(jié)37-38
- 第4章 多層垃圾短信分類系統(tǒng)設(shè)計38-43
- 4.1 決策樹分類39-40
- 4.2 非典型短信的預(yù)處理40
- 4.3 AdaBoost貝葉斯分類40-42
- 4.4 本章小結(jié)42-43
- 第5章 基于文本的多層垃圾短信過濾框架43-60
- 5.1 流程設(shè)計43-44
- 5.2 算法中各模塊的設(shè)計44-52
- 5.2.1 預(yù)處理44-45
- 5.2.2 特征選擇和擴展45-46
- 5.2.3 自定義特征抽取46-47
- 5.2.4 LDA主題模型的訓(xùn)練及預(yù)測47-51
- 5.2.5 算法評估方法51-52
- 5.3 實驗環(huán)境52
- 5.3.1 實驗數(shù)據(jù)52
- 5.3.2 實驗工具52
- 5.4 實驗結(jié)果分析52-59
- 5.4.1 基于不同特征集的對比實驗52-53
- 5.4.2 基于不同分類器的對比實驗53-54
- 5.4.3 基于不同基分類器的對比實驗54-55
- 5.4.4 各分類階段不同閾值設(shè)定的對比實驗55-59
- 5.5 本章小結(jié)59-60
- 總結(jié)和展望60-63
- 參考文獻(xiàn)63-67
- 攻讀學(xué)位期間發(fā)表論文與研究成果清單67-68
- 致謝68-69
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前7條
1 施聰鶯;徐朝軍;楊曉江;;TFIDF算法研究綜述[J];計算機應(yīng)用;2009年S1期
2 鐘延輝;傅彥;陳安龍;關(guān)娜;;基于抽樣的垃圾短信過濾方法[J];計算機應(yīng)用研究;2009年03期
3 金展;范晶;陳峰;徐從富;;基于樸素貝葉斯和支持向量機的自適應(yīng)垃圾短信過濾系統(tǒng)[J];計算機應(yīng)用;2008年03期
4 孫晉文;肖建國;;基于SVM文本分類中的關(guān)鍵詞學(xué)習(xí)研究[J];計算機科學(xué);2006年11期
5 孫晉文,肖建國;基于SVM的中文文本分類反饋學(xué)習(xí)技術(shù)的研究[J];控制與決策;2004年08期
6 陸玉昌,魯明羽,李凡,周立柱;向量空間法中單詞權(quán)重函數(shù)的分析和構(gòu)造[J];計算機研究與發(fā)展;2002年10期
7 王夢云,曹素青;基于字頻向量的中文文本自動分類系統(tǒng)[J];情報學(xué)報;2000年06期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 王宇;基于TFIDF的文本分類算法研究[D];鄭州大學(xué);2006年
本文關(guān)鍵詞:基于文本內(nèi)容的垃圾短信過濾系統(tǒng),由筆耕文化傳播整理發(fā)布。
本文編號:368616
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/368616.html