天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于Spark平臺(tái)的垃圾短信過濾系統(tǒng)的研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2018-05-24 20:24

  本文選題:垃圾短信 + 文本分類。 參考:《北京郵電大學(xué)》2016年碩士論文


【摘要】:近年來,隨著網(wǎng)絡(luò)的普及和手機(jī)用戶的快速增長,垃圾短信泛濫的問題日益突出,已經(jīng)嚴(yán)重影響了人民群眾的生活,擾亂了社會(huì)秩序。為了解決這個(gè)問題,政府出臺(tái)了相應(yīng)的法律法規(guī)嚴(yán)厲打擊垃圾短信,各大運(yùn)營商也采取了各種治理手段。目前,常用的垃圾短信處理技術(shù)主要包括黑白名單過濾,基于短信長度和發(fā)送頻率的算法過濾,基于文本分類技術(shù)的過濾等。單一的過濾方式往往只能覆蓋某種類型的垃圾短信,而隨著短信數(shù)量的增加,這些處理技術(shù)在性能上也顯得捉襟見肘。針對(duì)以上問題,本文提出了基于Spark平臺(tái)的垃圾短信過濾系統(tǒng),該系統(tǒng)采用聯(lián)合過濾的方式,并行的處理垃圾短信,能在提升過濾效果的同時(shí),也提高應(yīng)對(duì)大數(shù)據(jù)量短信的能力。本文具體所做的工作有如下幾點(diǎn):(1)本文對(duì)垃圾短信的背景進(jìn)行了綜述,對(duì)垃圾短信進(jìn)行了定義和分類,概括了垃圾短信的特征和危害,并詳細(xì)介紹了國內(nèi)外垃圾短信治理的現(xiàn)狀。本文對(duì)文本分類技術(shù)進(jìn)行了深入研究,包括文本預(yù)處理,清洗與去噪,特征降維和文本分類算法等,介紹說明了 Simhash技術(shù),對(duì)Hadoop平臺(tái)和Spark平臺(tái)進(jìn)行了研究,并介紹了它們的工作原理。(2)設(shè)計(jì)實(shí)現(xiàn)了串行的垃圾短信過濾系統(tǒng)。本文首先對(duì)系統(tǒng)進(jìn)行了需求分析和概要設(shè)計(jì),然后對(duì)各模塊進(jìn)行了詳細(xì)設(shè)計(jì),并編碼實(shí)現(xiàn)。串行過濾系統(tǒng)主要有短信處理模塊、特性判定模塊、Simhash模塊和貝葉斯分類器模塊組成,解決了單一過濾方式無法覆蓋所有短信類別的問題,引入Simhash算法,不但提升了過濾效果,并且通過壓縮樣本庫,提高了貝葉斯分類器的判定速度。(3)基于Spark平臺(tái)的優(yōu)勢(shì),對(duì)垃圾短信過濾系統(tǒng)進(jìn)行了并行優(yōu)化,包括策略提取模塊、特性判定模塊和貝葉斯分類器模塊。本文詳細(xì)介紹了并行優(yōu)化的設(shè)計(jì)原則,包括適用性、可擴(kuò)展性、有效性和并行,根據(jù)設(shè)計(jì)原則,對(duì)需要優(yōu)化的模塊進(jìn)行了并行設(shè)計(jì),然后進(jìn)行了代碼實(shí)現(xiàn)。另外,本文采取了并行策略提取的方式精簡(jiǎn)樣本庫,建立策略庫,來解決樣本數(shù)量過大,影響過濾效率的問題。最后通過搭建實(shí)驗(yàn)平臺(tái),對(duì)各個(gè)模塊進(jìn)行了實(shí)驗(yàn),并對(duì)相關(guān)實(shí)驗(yàn)結(jié)果進(jìn)行了分析總結(jié)。實(shí)驗(yàn)表明,本文提出的基于Spark的垃圾短信過濾系統(tǒng)能有效的對(duì)垃圾短信進(jìn)行分類和過濾,并且處理大數(shù)量的短信能力突出,另外,該系統(tǒng)還具有良好的擴(kuò)展性和實(shí)用性,給海量的垃圾短信處理提供了一種新的解決思路。
[Abstract]:In recent years, with the popularity of the network and the rapid growth of mobile phone users, the problem of spam message flooding has become increasingly prominent, which has seriously affected the lives of the people and disturbed the social order. In order to solve this problem, the government has issued the corresponding laws and regulations to crack down on spam messages. At present, the commonly used spam short message processing technology mainly includes black and white list filtering, algorithm filtering based on short message length and sending frequency, filtering based on text classification technology and so on. A single filtering method can only cover a certain type of spam messages, but with the increase of the number of SMS, these processing technologies are also overstretched in performance. Aiming at the above problems, this paper puts forward the spam short message filtering system based on Spark platform. The system adopts the method of joint filtering and parallel processing of spam short message, which can improve the filtering effect and improve the ability to deal with the large amount of short message at the same time. This paper summarizes the background of spam SMS, defines and classifies the spam SMS, and summarizes the characteristics and harm of spam SMS. And introduced in detail the domestic and foreign garbage short message management present situation. In this paper, the text classification technology is deeply studied, including text preprocessing, cleaning and denoising, feature reduction and text classification algorithm. The Simhash technology is introduced, and the Hadoop platform and Spark platform are studied. The design and implementation of serial spam short message filtering system are introduced. In this paper, the requirement analysis and outline design of the system are carried out first, and then each module is designed in detail, and the code is implemented. The serial filtering system is composed of short message processing module, Simhash module and Bayesian classifier module, which solves the problem that the single filtering method can not cover all short message categories. The introduction of Simhash algorithm not only improves the filtering effect. By compressing the sample base, the speed of Bayesian classifier is improved. (3) based on the advantage of Spark platform, the spam short message filtering system is optimized in parallel, including the module of policy extraction, the module of feature determination and the module of Bayesian classifier. This paper introduces the design principles of parallel optimization in detail, including applicability, extensibility, validity and parallelism. According to the design principles, the modules that need to be optimized are designed in parallel, and then implemented in code. In addition, the parallel policy extraction method is adopted to reduce the sample base and establish the policy database to solve the problem that the number of samples is too large and the filtering efficiency is affected. Finally, the experiment platform is built, and the experimental results are analyzed and summarized. The experiments show that the spam short message filtering system based on Spark can effectively classify and filter spam short messages, and the ability to deal with large number of short messages is outstanding. In addition, the system has good expansibility and practicability. It provides a new solution to the massive spam SMS processing.
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 ;Evaluation of energy transfer and utilization efficiency of azo dye removal by different pulsed electrical discharge modes[J];Chinese Science Bulletin;2008年12期

2 Fujiwara Osamu;;CORRELATION INVESTIGATION BETWEEN CONTACT APPROACH SPEED OF HANDHELD METAL ROD AND DISCHARGE PARAMETERS FROM CHARGED HUMAN BODY[J];Journal of Electronics(China);2008年03期

3 王亞軍;落紅衛(wèi);;一種用于測(cè)試短消息過濾系統(tǒng)的方法及系統(tǒng)[J];現(xiàn)代電信科技;2009年12期

4 詹旭;王岳秀;謝千河;;郵件病毒及過濾系統(tǒng)研究[J];成都信息工程學(xué)院學(xué)報(bào);2009年01期

5 ;Laser-induced spark ignition of H_2/O_2/Ar mixtures[J];Science in China(Series E:Technological Sciences);2007年06期

6 黃文良;陳純;羅云彬;;一種高效垃圾短信過濾系統(tǒng)的實(shí)現(xiàn)[J];電信科學(xué);2008年05期

7 陳麗萍;趙利平;陳新敏;;基于自學(xué)習(xí)規(guī)避庫的短消息過濾系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦知識(shí)與技術(shù);2011年31期

8 楊濤;郭慶;;網(wǎng)絡(luò)通信中內(nèi)容過濾系統(tǒng)的重要性分析[J];數(shù)字化用戶;2013年03期

9 鄒鈺;;基于邏輯回歸模型的垃圾短信過濾系統(tǒng)的研究[J];數(shù)字技術(shù)與應(yīng)用;2013年02期

10 杜淑琴;肖杰浩;;基于神經(jīng)網(wǎng)絡(luò)的智能過濾系統(tǒng)的研究與設(shè)計(jì)[J];現(xiàn)代計(jì)算機(jī);2006年05期

相關(guān)會(huì)議論文 前10條

1 ;Study on the spark discharge plasma jet driven by nanosecond pulses[A];第十五屆全國等離子體科學(xué)技術(shù)會(huì)議會(huì)議摘要集[C];2011年

2 Osamu Fujiwara;;Effect of Approaching Contact Speed of Hand-Held Metal Piece on Characteristics of Discharge Current from Charged Human Body[A];第二屆貴州省自然科學(xué)優(yōu)秀學(xué)術(shù)論文評(píng)選獲獎(jiǎng)?wù)撐募?007年)[C];2007年

3 ;β_1- but not β_2-adrenergic signaling accelerates the ryanodine receptor response to a single L-type Ca~(2+) channel in heart ceils[A];中國生理學(xué)會(huì)第23屆全國會(huì)員代表大會(huì)暨生理學(xué)學(xué)術(shù)大會(huì)論文摘要文集[C];2010年

4 許方強(qiáng);;書畫展柜空氣凈化過濾系統(tǒng)的研究[A];面向21世紀(jì)的科技進(jìn)步與社會(huì)經(jīng)濟(jì)發(fā)展(上冊(cè))[C];1999年

5 黃文良;李石堅(jiān);劉菊新;徐從富;;大規(guī)模垃圾短信實(shí)時(shí)過濾系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];中國通信學(xué)會(huì)第五屆學(xué)術(shù)年會(huì)論文集[C];2008年

6 黃文良;李石堅(jiān);陸冠中;;大規(guī)模實(shí)時(shí)垃圾短信過濾系統(tǒng)[A];2007年中國通信學(xué)會(huì)“移動(dòng)增值業(yè)務(wù)與應(yīng)用”學(xué)術(shù)年會(huì)論文集[C];2007年

7 婁奇襲;葉永生;;不銹鋼酸洗酸過濾系統(tǒng)功能淺析[A];2007中國鋼鐵年會(huì)論文集[C];2007年

8 Minghui Wang;Huajian Li;Wan Jiang;;Preparation of TiB_2/TiN Nano-composites by SP[A];中國材料大會(huì)2012第14分會(huì)場(chǎng):先進(jìn)陶瓷材料論文集[C];2012年

9 謝國雄;;芒硝過濾系統(tǒng)運(yùn)行狀態(tài)淺析[A];全國制漿造紙行業(yè)國產(chǎn)二氧化氯裝備及節(jié)能減排新技術(shù)應(yīng)用推介會(huì)論文集[C];2011年

10 楊建紅;;網(wǎng)站過濾系統(tǒng)及其關(guān)鍵技術(shù)研究與開發(fā)[A];12省區(qū)市機(jī)械工程學(xué)會(huì)2006年學(xué)術(shù)年會(huì)湖北省論文集[C];2006年

相關(guān)重要報(bào)紙文章 前10條

1 記者 劉鋼;德將建立互聯(lián)網(wǎng)過濾系統(tǒng)[N];新華每日電訊;2000年

2 楊娜;雪佛蘭SPARK詮釋微車[N];中國工業(yè)報(bào);2003年

3 ;雪佛蘭SPARK技術(shù)參數(shù)表[N];中國商報(bào);2003年

4 若冰;雪佛蘭Spark小車中的精靈[N];中國商報(bào);2003年

5 記者 姬旺芳;天水星火SPARK商標(biāo)獲“中國馳名商標(biāo)”[N];天水日?qǐng)?bào);2010年

6 記者 劉鋼;德國將建立互聯(lián)網(wǎng)過濾系統(tǒng)[N];人民日?qǐng)?bào);2000年

7 本報(bào)記者 周昆;人造霧景兩大認(rèn)識(shí)誤區(qū)[N];中國花卉報(bào);2009年

8 記者 曉瑗;新西蘭電信將更名為Spark[N];人民郵電;2014年

9 本報(bào)記者 那罡;微軟Spark計(jì)劃再添新成員[N];中國計(jì)算機(jī)報(bào);2009年

10 本報(bào)記者 那罡;新應(yīng)用為URL過濾系統(tǒng)帶來新挑戰(zhàn)[N];中國計(jì)算機(jī)報(bào);2009年

相關(guān)碩士學(xué)位論文 前10條

1 張宇;基于Spark平臺(tái)的垃圾短信過濾系統(tǒng)的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2016年

2 王韜;基于Spark的聚類集成系統(tǒng)研究與設(shè)計(jì)[D];西南交通大學(xué);2015年

3 陳曉康;基于Spark 云計(jì)算平臺(tái)的改進(jìn)K近鄰算法研究[D];廣東工業(yè)大學(xué);2016年

4 牟善文;美國SPARK課程模式小學(xué)生體育課能量代謝特點(diǎn)及干預(yù)實(shí)驗(yàn)研究[D];首都體育學(xué)院;2016年

5 李爭(zhēng)獻(xiàn);基于Spark的移動(dòng)終端信息推送系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華南理工大學(xué);2016年

6 趙洋;基于spark的網(wǎng)絡(luò)廣告交易計(jì)費(fèi)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2016年

7 尚勃;Spark平臺(tái)下基于深度學(xué)習(xí)的網(wǎng)絡(luò)短文本情感分類研究[D];西安建筑科技大學(xué);2016年

8 王海華;Spark數(shù)據(jù)處理平臺(tái)中內(nèi)存數(shù)據(jù)空間管理技術(shù)研究[D];北京工業(yè)大學(xué);2016年

9 皮興杰;基于Spark的電網(wǎng)大數(shù)據(jù)統(tǒng)計(jì)中等值連接問題的優(yōu)化及其應(yīng)用[D];重慶大學(xué);2016年

10 周婷媛;基于Spark的直播視頻場(chǎng)景分類系統(tǒng)的分析與實(shí)現(xiàn)[D];北京交通大學(xué);2017年

,

本文編號(hào):1930430

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1930430.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9fb1f***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com