天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于文本內(nèi)容的垃圾短信過濾系統(tǒng)

發(fā)布時間:2017-05-15 19:09

  本文關(guān)鍵詞:基于文本內(nèi)容的垃圾短信過濾系統(tǒng),由筆耕文化傳播整理發(fā)布。


【摘要】:隨著短信的表現(xiàn)形式和文本特點的不斷更新變化,如何更加準(zhǔn)確并且快速地過濾垃圾短信,是短信攔截面臨的主要問題之一。現(xiàn)有的垃圾短信過濾方案主要包括設(shè)置黑白名單、關(guān)鍵詞匹配的過濾、用戶主動舉報或者標(biāo)注的過濾、基于內(nèi)容的過濾等。其中,基于內(nèi)容的垃圾短信過濾方案可以更有效地應(yīng)對文本的多樣性變化,而不依賴短信其他的附屬特征。但是現(xiàn)有的基于文本的垃圾短信過濾方法忽略了垃圾文本中包含的垃圾短信明顯特點,且對于短文本造成的稀疏向量問題,沒有較好的解決方案。本文對未經(jīng)預(yù)處理的原始短信樣本分析其對垃圾短信的判定有突出貢獻(xiàn)的噪音信息,將該信息抽象為自定義特征實現(xiàn)第一層過濾方案,進(jìn)而提前過濾出一部分具有特定特點的垃圾短信,且該部分短信在預(yù)處理之后由于丟失噪音信息易被錯分為合法短信;其次結(jié)合LDA主題模型對樣本進(jìn)行主題預(yù)測,有效實現(xiàn)特征擴展,緩解短文本所造成的稀疏向量對分類結(jié)果的負(fù)面影響。最后,本文采用真實的用戶短信數(shù)據(jù)作為實驗中的訓(xùn)練集和測試集,對特征擴展、分類進(jìn)行實驗對比,對各階段的可變參數(shù)在一定取值范圍內(nèi)多次取值對比分類效果,得出更適應(yīng)過濾系統(tǒng)的參數(shù)取值。對實驗結(jié)果則是采用準(zhǔn)確率、召回率和F-Measure對垃圾短信、合法短信、綜合效果三方面進(jìn)行評估。最終的實驗結(jié)果表明,本文提出的垃圾短信過濾框架可以有效地提高基于文本內(nèi)容的垃圾短信過濾的準(zhǔn)確度。
【關(guān)鍵詞】:垃圾短信 過濾 文本分類 特征擴展 分類
【學(xué)位授予單位】:北京理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP309
【目錄】:
  • 摘要5-6
  • Abstract6-11
  • 第1章 緒論11-17
  • 1.1 研究背景和意義11-12
  • 1.2 國內(nèi)外研究現(xiàn)狀12-14
  • 1.3 研究內(nèi)容14-15
  • 1.3.1 任務(wù)目標(biāo)14
  • 1.3.2 難點分析14
  • 1.3.3 解決方案14-15
  • 1.4 本文的組織結(jié)構(gòu)15-17
  • 第2章 關(guān)鍵技術(shù)17-31
  • 2.1 文本的模型表示方法17-18
  • 2.2 特征選擇方法18-19
  • 2.2.1 信息增益(Information Gain, IG)18-19
  • 2.2.2 卡方檢驗(CHI)19
  • 2.2.3 互信息(Mutual Information,,MI)19
  • 2.3 特征權(quán)重19-20
  • 2.4 分類算法20-27
  • 2.4.1 決策樹分類算法(Decision Tree)21-22
  • 2.4.2 樸素貝葉斯22-24
  • 2.4.3 支持向量機SVM(Support Vector Machine)24-26
  • 2.4.4 AdaBoost算法26-27
  • 2.5 主題模型27-30
  • 2.5.1 隱含狄利克雷分布(LDA主題模型)27-29
  • 2.5.2 Gibbs采樣方法29-30
  • 2.6 本章小結(jié)30-31
  • 第3章 特征選擇及擴展31-38
  • 3.1 特征選擇31-33
  • 3.2 特征擴展33-36
  • 3.2.1 短信特征分析33-34
  • 3.2.2 同義詞擴展34-36
  • 3.3 特征權(quán)重36-37
  • 3.3.1 關(guān)鍵詞特征權(quán)重36
  • 3.3.2 同義詞特征權(quán)重36
  • 3.3.3 自定義特征權(quán)重36-37
  • 3.4 本章小結(jié)37-38
  • 第4章 多層垃圾短信分類系統(tǒng)設(shè)計38-43
  • 4.1 決策樹分類39-40
  • 4.2 非典型短信的預(yù)處理40
  • 4.3 AdaBoost貝葉斯分類40-42
  • 4.4 本章小結(jié)42-43
  • 第5章 基于文本的多層垃圾短信過濾框架43-60
  • 5.1 流程設(shè)計43-44
  • 5.2 算法中各模塊的設(shè)計44-52
  • 5.2.1 預(yù)處理44-45
  • 5.2.2 特征選擇和擴展45-46
  • 5.2.3 自定義特征抽取46-47
  • 5.2.4 LDA主題模型的訓(xùn)練及預(yù)測47-51
  • 5.2.5 算法評估方法51-52
  • 5.3 實驗環(huán)境52
  • 5.3.1 實驗數(shù)據(jù)52
  • 5.3.2 實驗工具52
  • 5.4 實驗結(jié)果分析52-59
  • 5.4.1 基于不同特征集的對比實驗52-53
  • 5.4.2 基于不同分類器的對比實驗53-54
  • 5.4.3 基于不同基分類器的對比實驗54-55
  • 5.4.4 各分類階段不同閾值設(shè)定的對比實驗55-59
  • 5.5 本章小結(jié)59-60
  • 總結(jié)和展望60-63
  • 參考文獻(xiàn)63-67
  • 攻讀學(xué)位期間發(fā)表論文與研究成果清單67-68
  • 致謝68-69

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前7條

1 施聰鶯;徐朝軍;楊曉江;;TFIDF算法研究綜述[J];計算機應(yīng)用;2009年S1期

2 鐘延輝;傅彥;陳安龍;關(guān)娜;;基于抽樣的垃圾短信過濾方法[J];計算機應(yīng)用研究;2009年03期

3 金展;范晶;陳峰;徐從富;;基于樸素貝葉斯和支持向量機的自適應(yīng)垃圾短信過濾系統(tǒng)[J];計算機應(yīng)用;2008年03期

4 孫晉文;肖建國;;基于SVM文本分類中的關(guān)鍵詞學(xué)習(xí)研究[J];計算機科學(xué);2006年11期

5 孫晉文,肖建國;基于SVM的中文文本分類反饋學(xué)習(xí)技術(shù)的研究[J];控制與決策;2004年08期

6 陸玉昌,魯明羽,李凡,周立柱;向量空間法中單詞權(quán)重函數(shù)的分析和構(gòu)造[J];計算機研究與發(fā)展;2002年10期

7 王夢云,曹素青;基于字頻向量的中文文本自動分類系統(tǒng)[J];情報學(xué)報;2000年06期

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 王宇;基于TFIDF的文本分類算法研究[D];鄭州大學(xué);2006年


  本文關(guān)鍵詞:基于文本內(nèi)容的垃圾短信過濾系統(tǒng),由筆耕文化傳播整理發(fā)布。



本文編號:368616

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/368616.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f9e5f***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
免费久久一级欧美特大黄孕妇| 日韩一区二区免费在线观看| 亚洲国产成人久久一区二区三区| 青草草在线视频免费视频| 极品少妇一区二区三区精品视频| 日本av在线不卡一区| 日本深夜福利在线播放| 亚洲高清中文字幕一区二三区| 国产av熟女一区二区三区四区| 免费福利午夜在线观看| 欧美日韩国产亚洲三级理论片 | 欧美成人黄色一区二区三区| 国产无摭挡又爽又色又刺激| 丝袜av一区二区三区四区五区| 国产精品成人一区二区三区夜夜夜| 性感少妇无套内射在线视频| 亚洲深夜精品福利一区| 日韩精品日韩激情日韩综合| 国产又大又黄又粗的黄色| 91偷拍与自偷拍精品| 又黄又爽禁片视频在线观看| 九九热九九热九九热九九热| 欧美一级日韩中文字幕| 人人妻在人人看人人澡| 国产亚洲精品一二三区| 久久精品国产在热久久| 亚洲一级二级三级精品| 又色又爽又黄的三级视频| 欧美日韩综合在线第一页| 黄色片国产一区二区三区| 国产精品丝袜美腿一区二区| 亚洲国产成人一区二区在线观看| 正在播放国产又粗又长| 日本人妻精品中文字幕不卡乱码| 中文字幕乱码一区二区三区四区| 欧美夫妻性生活一区二区| 激情五月综五月综合网| 亚洲一区二区三区日韩91| 国产精品乱子伦一区二区三区| 丰满的人妻一区二区三区| 中文字字幕在线中文乱码二区|