天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于貝葉斯的分布式網(wǎng)頁自動(dòng)分類算法研究及應(yīng)用

發(fā)布時(shí)間:2017-08-12 14:01

  本文關(guān)鍵詞:基于貝葉斯的分布式網(wǎng)頁自動(dòng)分類算法研究及應(yīng)用


  更多相關(guān)文章: 網(wǎng)頁自動(dòng)分類 Hadoop云計(jì)算 樸素貝葉斯分類器 特征選擇


【摘要】:伴隨著移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展,以及數(shù)據(jù)采集技術(shù)和數(shù)據(jù)存儲(chǔ)技術(shù)的快速進(jìn)步,使得各組織機(jī)構(gòu)可以積累海量數(shù)據(jù)。而從中提取有用的信息已經(jīng)成為巨大的挑戰(zhàn)。為了應(yīng)對挑戰(zhàn),數(shù)據(jù)挖掘技術(shù)和Hadoop云計(jì)算技術(shù)應(yīng)運(yùn)而生。本文研究的網(wǎng)頁自動(dòng)分類是數(shù)據(jù)挖掘的一個(gè)重要分支,在挖掘“商業(yè)價(jià)值”方面的作用突出,比如它能夠幫助移動(dòng)運(yùn)營商回答這樣的問題,“可以為哪些客戶提供每月100元的包含流量和長途話費(fèi)的套餐”。 本文聚焦于分布式網(wǎng)頁自動(dòng)分類系統(tǒng)的構(gòu)建,將Hadoop云計(jì)算應(yīng)用到網(wǎng)頁分類中是本文的亮點(diǎn)之一。本文從網(wǎng)頁自動(dòng)分類綜述開始;引出貝葉斯分類器和特征選擇,以“框圖”形式給出它們的MapReduce程序設(shè)計(jì);繼而從軟件設(shè)計(jì)角度敘述分布式網(wǎng)頁自動(dòng)分類系統(tǒng);最后以GB/TB級別的海量網(wǎng)絡(luò)流量監(jiān)控?cái)?shù)據(jù)對分類性能進(jìn)行實(shí)驗(yàn)分析。文中的創(chuàng)新點(diǎn)如下: (1)將Hadoop云計(jì)算技術(shù)應(yīng)用到網(wǎng)頁自動(dòng)分類中,研究樸素貝葉斯分類器分布式并行算法,以應(yīng)對GB/TB級別的海量網(wǎng)絡(luò)流量監(jiān)控?cái)?shù)據(jù)分類的挑戰(zhàn)。 (2)將Hadoop云計(jì)算技術(shù)應(yīng)用到文本挖掘的特征選擇中,研究設(shè)計(jì)與實(shí)現(xiàn)信息增益特征選擇MapReduce并行算法,以應(yīng)對GB/TB級別的海量網(wǎng)絡(luò)流量監(jiān)控?cái)?shù)據(jù)特征選擇的挑戰(zhàn)。 (3)將概率統(tǒng)計(jì)的“累積概率”概念引入到文本分類特征選擇的參數(shù)最優(yōu)化問題中,通過累積概率實(shí)現(xiàn)特征向量大小最佳閾值的自適應(yīng)選取。特征向量大小不僅關(guān)系到系統(tǒng)軟件性能,更影響系統(tǒng)分類性能。本文提出評估魯棒性的度量,并驗(yàn)證了“累積概率閾值”方案具有良好的魯棒性,表明它適用于不同應(yīng)用場景。 (4)將軟件設(shè)計(jì)、Hadoop云計(jì)算和數(shù)據(jù)挖掘技術(shù)相結(jié)合,使用Hadoop云計(jì)算框架構(gòu)建分布式網(wǎng)頁自動(dòng)分類系統(tǒng)。實(shí)施軟件設(shè)計(jì)模式中的“外觀模式”搭建網(wǎng)頁自動(dòng)分類系統(tǒng)框架,從上到下分為接口層、組件層和模塊層。
【關(guān)鍵詞】:網(wǎng)頁自動(dòng)分類 Hadoop云計(jì)算 樸素貝葉斯分類器 特征選擇
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP393.092
【目錄】:
  • 摘要4-5
  • ABSTRACT5-10
  • 第一章 緒論10-14
  • 1.1 研究背景10
  • 1.2 研究現(xiàn)狀和發(fā)展趨勢10-11
  • 1.3 研究內(nèi)容和創(chuàng)新點(diǎn)11-12
  • 1.4 論文結(jié)構(gòu)12-14
  • 第二章 網(wǎng)頁自動(dòng)分類和分布式框架綜述14-26
  • 2.1 網(wǎng)頁自動(dòng)分類的定義14
  • 2.2 網(wǎng)頁自動(dòng)分類的一般方法14-15
  • 2.3 網(wǎng)頁自動(dòng)分類的核心技術(shù)15-21
  • 2.3.1 網(wǎng)絡(luò)爬蟲15-17
  • 2.3.2 文本預(yù)處理17-18
  • 2.3.3 樣本標(biāo)注18-19
  • 2.3.4 特征選擇19
  • 2.3.5 學(xué)習(xí)算法19-21
  • 2.4 Hadoop分布式系統(tǒng)基礎(chǔ)架構(gòu)21-26
  • 2.4.1 Hadoop概述21
  • 2.4.2 Hadoop存儲(chǔ)21-22
  • 2.4.3 Hadoop計(jì)算22-24
  • 2.4.4 Hadoop在數(shù)據(jù)挖掘中的應(yīng)用24-26
  • 第三章 貝葉斯分類器研究及其分布式算法設(shè)計(jì)26-34
  • 3.1 算法理論26-27
  • 3.2 文本表示27-28
  • 3.3 概率估計(jì)28-29
  • 3.4 貝葉斯訓(xùn)練的分布式算法設(shè)計(jì)29-33
  • 3.4.1 類條件概率訓(xùn)練的分布式算法設(shè)計(jì)29-31
  • 3.4.2 類先驗(yàn)概率訓(xùn)練的分布式算法設(shè)計(jì)31-33
  • 3.5 貝葉斯分類的分布式算法設(shè)計(jì)33-34
  • 第四章 特征選擇研究及其分布式算法設(shè)計(jì)34-40
  • 4.1 特征選擇策略34-35
  • 4.2 特征選擇算法35-37
  • 4.3 信息增益特征選擇的分布式算法設(shè)計(jì)37-40
  • 第五章 分布式網(wǎng)頁自動(dòng)分類系統(tǒng)架構(gòu)40-56
  • 5.1 系統(tǒng)框架40
  • 5.2 系統(tǒng)流程40-41
  • 5.3 組件設(shè)計(jì)41-43
  • 5.3.1 分類組件41-42
  • 5.3.2 統(tǒng)計(jì)組件42
  • 5.3.3 訓(xùn)練組件42-43
  • 5.3.4 配置組件43
  • 5.4 模塊設(shè)計(jì)43-51
  • 5.4.1 網(wǎng)頁內(nèi)容提取43-44
  • 5.4.2 轉(zhuǎn)儲(chǔ)44-45
  • 5.4.3 分詞45-47
  • 5.4.4 庫匹配分類器47-49
  • 5.4.5 貝葉斯訓(xùn)練與分類器49-51
  • 5.5 庫表設(shè)計(jì)51-56
  • 5.5.1 HBase數(shù)據(jù)表設(shè)計(jì)51-53
  • 5.5.2 PostgreSQL數(shù)據(jù)表設(shè)計(jì)53-56
  • 第六章 分布式網(wǎng)頁自動(dòng)分類性能分析56-62
  • 6.1 數(shù)據(jù)源56-57
  • 6.2 累積概率閡值的魯棒性分析57-58
  • 6.3 概率估計(jì)方法的分類性能分析58
  • 6.4 特征向量大小的分類性能分析58-60
  • 6.5 特征選擇算法的分類性能分析60-62
  • 第七章 總結(jié)與展望62-64
  • 7.1 總結(jié)62
  • 7.2 展望62-64
  • 參考文獻(xiàn)64-66
  • 致謝66-68
  • 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄68

【共引文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 徐文權(quán);;基于Symbian OS系統(tǒng)的垃圾短信過濾器設(shè)計(jì)與實(shí)現(xiàn)[J];安慶師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2012年02期

2 李寧;徐虹;;基于文本分類的語義平滑在語言模型中的應(yīng)用(英文)[J];成都信息工程學(xué)院學(xué)報(bào);2008年03期

3 王輝;韓旭;王雙成;王淑琴;趙洪帥;王莉;;連續(xù)屬性樸素貝葉斯分類器的依賴擴(kuò)展研究[J];東北師大學(xué)報(bào)(自然科學(xué)版);2012年02期

4 高潔;趙俊榮;;基于增量式Bayes的中文網(wǎng)頁自動(dòng)分類技術(shù)[J];電腦知識(shí)與技術(shù);2006年14期

5 姜立標(biāo);馬樂;余建偉;劉永花;;多階段聚類—樸素貝葉斯的異常檢測[J];重慶大學(xué)學(xué)報(bào);2009年08期

6 魏延良;侯立剛;任立軍;;垃圾郵件過濾系統(tǒng)的設(shè)計(jì)[J];遼寧石油化工大學(xué)學(xué)報(bào);2008年01期

7 劉志明;劉魯;;面向突發(fā)事件的群體情緒監(jiān)控預(yù)警[J];系統(tǒng)工程;2010年07期

8 李鳳;高昭良;;面向土地利用分類的多源遙感數(shù)據(jù)混合貝葉斯網(wǎng)絡(luò)分類器[J];國土資源遙感;2011年02期

9 王東;熊世桓;;一種基于特征置換的樸素貝葉斯分類器[J];蘭州理工大學(xué)學(xué)報(bào);2012年04期

10 王東;;面向文本分類的混合特征降維策略[J];貴州師范學(xué)院學(xué)報(bào);2012年06期

中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條

1 舒寧;陶建斌;;面向土地利用分類的多源遙感數(shù)據(jù)混合貝葉斯網(wǎng)絡(luò)分類器[A];全國農(nóng)業(yè)遙感技術(shù)研討會(huì)論文集[C];2009年

2 馬后鋒;樊興華;;一種改進(jìn)的增量貝葉斯分類算法[A];2007'儀表,,自動(dòng)化及先進(jìn)集成技術(shù)大會(huì)論文集(一)[C];2007年

3 石志偉;吳功宜;;改善樸素貝葉斯在文本分類中的穩(wěn)定性[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年

4 唐慧豐;譚松波;程學(xué)旗;;監(jiān)督學(xué)習(xí)方法在語氣挖掘中的應(yīng)用研究[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國計(jì)算語言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年

5 任美睿;李建中;楊艷;;基于樸素貝葉斯方法的自動(dòng)文本分類系統(tǒng)的實(shí)現(xiàn)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年

6 于海旭;王有偉;;基于高精確度的多策略本體映射[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2007年

7 王自強(qiáng);孫霞;錢旭;;基于信息瓶頸和拉普拉斯SVM的Web文檔分類算法[A];2011年中國智能自動(dòng)化學(xué)術(shù)會(huì)議論文集(第一分冊)[C];2011年

8 劉權(quán);郭武;;基于核主成分分析的話題跟蹤系統(tǒng)[A];第十二屆全國人機(jī)語音通訊學(xué)術(shù)會(huì)議(NCMMSC'2013)論文集[C];2013年

9 喬媛媛;劉芳;凌艷;尹勁松;;云計(jì)算環(huán)境下MapReduce的資源建模與性能預(yù)測[A];2013年全國通信軟件學(xué)術(shù)會(huì)議論文集[C];2013年

10 Xiaoguang Han;Jigang Sun;Wu Qu;Xuanxia Yao;;Distributed Malware Detection based on Binary File Features in Cloud Computing Environment[A];第26屆中國控制與決策會(huì)議論文集[C];2014年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 孟宇龍;基于本體的多源異構(gòu)安全數(shù)據(jù)聚合[D];哈爾濱工程大學(xué);2010年

2 魏小濤;在線自適應(yīng)網(wǎng)絡(luò)異常檢測系統(tǒng)模型與相關(guān)算法研究[D];北京交通大學(xué);2009年

3 祁瑞華;不完整數(shù)據(jù)分類知識(shí)發(fā)現(xiàn)算法研究[D];大連理工大學(xué);2011年

4 梁建寧;特征選擇與圖像匹配[D];復(fù)旦大學(xué);2011年

5 杜炅;離散型隨機(jī)變量的貝葉斯分類方法研究[D];北京大學(xué);2011年

6 嚴(yán)志永;在劃分?jǐn)?shù)據(jù)空間的視角下基于決策邊界的分類器研究[D];浙江大學(xué);2011年

7 陳元;基于分類模型的知識(shí)發(fā)現(xiàn)過程研究[D];國防科學(xué)技術(shù)大學(xué);2002年

8 彭宏京;基于稀疏RAM的神經(jīng)網(wǎng)絡(luò)及其人臉識(shí)別應(yīng)用研究[D];南京航空航天大學(xué);2002年

9 齊建東;基于數(shù)據(jù)挖掘的入侵檢測方法及系統(tǒng)研究[D];中國農(nóng)業(yè)大學(xué);2003年

10 王雙成;面向智能數(shù)據(jù)處理的圖形模式研究[D];吉林大學(xué);2004年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 黃美蘭;車輛標(biāo)志自動(dòng)識(shí)別方法研究[D];西安電子科技大學(xué);2011年

2 胡暢;用戶行為分析系統(tǒng)設(shè)計(jì)[D];湖北工業(yè)大學(xué);2011年

3 史晶晶;基于CRF的Web機(jī)構(gòu)實(shí)體信息抽取系統(tǒng)[D];吉林大學(xué);2011年

4 張建國;水平集方法特征提取及在醫(yī)療圖像診斷中的應(yīng)用[D];太原科技大學(xué);2011年

5 黃鑫檑;西南地區(qū)學(xué)生輟學(xué)預(yù)警技術(shù)研究[D];上海師范大學(xué);2011年

6 高鴻;文檔圖像拼接技術(shù)研究[D];中南大學(xué);2011年

7 彭登;基于ARM的智能車型識(shí)別系統(tǒng)架構(gòu)與關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2011年

8 黃思博;基于計(jì)算機(jī)視覺的異常駕駛行為檢測方法研究[D];華南理工大學(xué);2011年

9 陳思坤;醫(yī)學(xué)圖像的自動(dòng)標(biāo)注[D];電子科技大學(xué);2011年

10 閆新河;云計(jì)算下自主診斷與自我修復(fù)研究[D];電子科技大學(xué);2011年



本文編號(hào):661931

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/661931.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶27731***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com