天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于貝葉斯的分布式網(wǎng)頁自動分類算法研究及應(yīng)用

發(fā)布時間:2017-08-12 14:01

  本文關(guān)鍵詞:基于貝葉斯的分布式網(wǎng)頁自動分類算法研究及應(yīng)用


  更多相關(guān)文章: 網(wǎng)頁自動分類 Hadoop云計算 樸素貝葉斯分類器 特征選擇


【摘要】:伴隨著移動互聯(lián)網(wǎng)的快速發(fā)展,以及數(shù)據(jù)采集技術(shù)和數(shù)據(jù)存儲技術(shù)的快速進步,使得各組織機構(gòu)可以積累海量數(shù)據(jù)。而從中提取有用的信息已經(jīng)成為巨大的挑戰(zhàn)。為了應(yīng)對挑戰(zhàn),數(shù)據(jù)挖掘技術(shù)和Hadoop云計算技術(shù)應(yīng)運而生。本文研究的網(wǎng)頁自動分類是數(shù)據(jù)挖掘的一個重要分支,在挖掘“商業(yè)價值”方面的作用突出,比如它能夠幫助移動運營商回答這樣的問題,“可以為哪些客戶提供每月100元的包含流量和長途話費的套餐”。 本文聚焦于分布式網(wǎng)頁自動分類系統(tǒng)的構(gòu)建,將Hadoop云計算應(yīng)用到網(wǎng)頁分類中是本文的亮點之一。本文從網(wǎng)頁自動分類綜述開始;引出貝葉斯分類器和特征選擇,以“框圖”形式給出它們的MapReduce程序設(shè)計;繼而從軟件設(shè)計角度敘述分布式網(wǎng)頁自動分類系統(tǒng);最后以GB/TB級別的海量網(wǎng)絡(luò)流量監(jiān)控數(shù)據(jù)對分類性能進行實驗分析。文中的創(chuàng)新點如下: (1)將Hadoop云計算技術(shù)應(yīng)用到網(wǎng)頁自動分類中,研究樸素貝葉斯分類器分布式并行算法,以應(yīng)對GB/TB級別的海量網(wǎng)絡(luò)流量監(jiān)控數(shù)據(jù)分類的挑戰(zhàn)。 (2)將Hadoop云計算技術(shù)應(yīng)用到文本挖掘的特征選擇中,研究設(shè)計與實現(xiàn)信息增益特征選擇MapReduce并行算法,以應(yīng)對GB/TB級別的海量網(wǎng)絡(luò)流量監(jiān)控數(shù)據(jù)特征選擇的挑戰(zhàn)。 (3)將概率統(tǒng)計的“累積概率”概念引入到文本分類特征選擇的參數(shù)最優(yōu)化問題中,通過累積概率實現(xiàn)特征向量大小最佳閾值的自適應(yīng)選取。特征向量大小不僅關(guān)系到系統(tǒng)軟件性能,更影響系統(tǒng)分類性能。本文提出評估魯棒性的度量,并驗證了“累積概率閾值”方案具有良好的魯棒性,表明它適用于不同應(yīng)用場景。 (4)將軟件設(shè)計、Hadoop云計算和數(shù)據(jù)挖掘技術(shù)相結(jié)合,使用Hadoop云計算框架構(gòu)建分布式網(wǎng)頁自動分類系統(tǒng)。實施軟件設(shè)計模式中的“外觀模式”搭建網(wǎng)頁自動分類系統(tǒng)框架,從上到下分為接口層、組件層和模塊層。
【關(guān)鍵詞】:網(wǎng)頁自動分類 Hadoop云計算 樸素貝葉斯分類器 特征選擇
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP393.092
【目錄】:
  • 摘要4-5
  • ABSTRACT5-10
  • 第一章 緒論10-14
  • 1.1 研究背景10
  • 1.2 研究現(xiàn)狀和發(fā)展趨勢10-11
  • 1.3 研究內(nèi)容和創(chuàng)新點11-12
  • 1.4 論文結(jié)構(gòu)12-14
  • 第二章 網(wǎng)頁自動分類和分布式框架綜述14-26
  • 2.1 網(wǎng)頁自動分類的定義14
  • 2.2 網(wǎng)頁自動分類的一般方法14-15
  • 2.3 網(wǎng)頁自動分類的核心技術(shù)15-21
  • 2.3.1 網(wǎng)絡(luò)爬蟲15-17
  • 2.3.2 文本預(yù)處理17-18
  • 2.3.3 樣本標注18-19
  • 2.3.4 特征選擇19
  • 2.3.5 學(xué)習(xí)算法19-21
  • 2.4 Hadoop分布式系統(tǒng)基礎(chǔ)架構(gòu)21-26
  • 2.4.1 Hadoop概述21
  • 2.4.2 Hadoop存儲21-22
  • 2.4.3 Hadoop計算22-24
  • 2.4.4 Hadoop在數(shù)據(jù)挖掘中的應(yīng)用24-26
  • 第三章 貝葉斯分類器研究及其分布式算法設(shè)計26-34
  • 3.1 算法理論26-27
  • 3.2 文本表示27-28
  • 3.3 概率估計28-29
  • 3.4 貝葉斯訓(xùn)練的分布式算法設(shè)計29-33
  • 3.4.1 類條件概率訓(xùn)練的分布式算法設(shè)計29-31
  • 3.4.2 類先驗概率訓(xùn)練的分布式算法設(shè)計31-33
  • 3.5 貝葉斯分類的分布式算法設(shè)計33-34
  • 第四章 特征選擇研究及其分布式算法設(shè)計34-40
  • 4.1 特征選擇策略34-35
  • 4.2 特征選擇算法35-37
  • 4.3 信息增益特征選擇的分布式算法設(shè)計37-40
  • 第五章 分布式網(wǎng)頁自動分類系統(tǒng)架構(gòu)40-56
  • 5.1 系統(tǒng)框架40
  • 5.2 系統(tǒng)流程40-41
  • 5.3 組件設(shè)計41-43
  • 5.3.1 分類組件41-42
  • 5.3.2 統(tǒng)計組件42
  • 5.3.3 訓(xùn)練組件42-43
  • 5.3.4 配置組件43
  • 5.4 模塊設(shè)計43-51
  • 5.4.1 網(wǎng)頁內(nèi)容提取43-44
  • 5.4.2 轉(zhuǎn)儲44-45
  • 5.4.3 分詞45-47
  • 5.4.4 庫匹配分類器47-49
  • 5.4.5 貝葉斯訓(xùn)練與分類器49-51
  • 5.5 庫表設(shè)計51-56
  • 5.5.1 HBase數(shù)據(jù)表設(shè)計51-53
  • 5.5.2 PostgreSQL數(shù)據(jù)表設(shè)計53-56
  • 第六章 分布式網(wǎng)頁自動分類性能分析56-62
  • 6.1 數(shù)據(jù)源56-57
  • 6.2 累積概率閡值的魯棒性分析57-58
  • 6.3 概率估計方法的分類性能分析58
  • 6.4 特征向量大小的分類性能分析58-60
  • 6.5 特征選擇算法的分類性能分析60-62
  • 第七章 總結(jié)與展望62-64
  • 7.1 總結(jié)62
  • 7.2 展望62-64
  • 參考文獻64-66
  • 致謝66-68
  • 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄68

【共引文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 徐文權(quán);;基于Symbian OS系統(tǒng)的垃圾短信過濾器設(shè)計與實現(xiàn)[J];安慶師范學(xué)院學(xué)報(自然科學(xué)版);2012年02期

2 李寧;徐虹;;基于文本分類的語義平滑在語言模型中的應(yīng)用(英文)[J];成都信息工程學(xué)院學(xué)報;2008年03期

3 王輝;韓旭;王雙成;王淑琴;趙洪帥;王莉;;連續(xù)屬性樸素貝葉斯分類器的依賴擴展研究[J];東北師大學(xué)報(自然科學(xué)版);2012年02期

4 高潔;趙俊榮;;基于增量式Bayes的中文網(wǎng)頁自動分類技術(shù)[J];電腦知識與技術(shù);2006年14期

5 姜立標;馬樂;余建偉;劉永花;;多階段聚類—樸素貝葉斯的異常檢測[J];重慶大學(xué)學(xué)報;2009年08期

6 魏延良;侯立剛;任立軍;;垃圾郵件過濾系統(tǒng)的設(shè)計[J];遼寧石油化工大學(xué)學(xué)報;2008年01期

7 劉志明;劉魯;;面向突發(fā)事件的群體情緒監(jiān)控預(yù)警[J];系統(tǒng)工程;2010年07期

8 李鳳;高昭良;;面向土地利用分類的多源遙感數(shù)據(jù)混合貝葉斯網(wǎng)絡(luò)分類器[J];國土資源遙感;2011年02期

9 王東;熊世桓;;一種基于特征置換的樸素貝葉斯分類器[J];蘭州理工大學(xué)學(xué)報;2012年04期

10 王東;;面向文本分類的混合特征降維策略[J];貴州師范學(xué)院學(xué)報;2012年06期

中國重要會議論文全文數(shù)據(jù)庫 前10條

1 舒寧;陶建斌;;面向土地利用分類的多源遙感數(shù)據(jù)混合貝葉斯網(wǎng)絡(luò)分類器[A];全國農(nóng)業(yè)遙感技術(shù)研討會論文集[C];2009年

2 馬后鋒;樊興華;;一種改進的增量貝葉斯分類算法[A];2007'儀表,,自動化及先進集成技術(shù)大會論文集(一)[C];2007年

3 石志偉;吳功宜;;改善樸素貝葉斯在文本分類中的穩(wěn)定性[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年

4 唐慧豐;譚松波;程學(xué)旗;;監(jiān)督學(xué)習(xí)方法在語氣挖掘中的應(yīng)用研究[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年

5 任美睿;李建中;楊艷;;基于樸素貝葉斯方法的自動文本分類系統(tǒng)的實現(xiàn)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2002年

6 于海旭;王有偉;;基于高精確度的多策略本體映射[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2007年

7 王自強;孫霞;錢旭;;基于信息瓶頸和拉普拉斯SVM的Web文檔分類算法[A];2011年中國智能自動化學(xué)術(shù)會議論文集(第一分冊)[C];2011年

8 劉權(quán);郭武;;基于核主成分分析的話題跟蹤系統(tǒng)[A];第十二屆全國人機語音通訊學(xué)術(shù)會議(NCMMSC'2013)論文集[C];2013年

9 喬媛媛;劉芳;凌艷;尹勁松;;云計算環(huán)境下MapReduce的資源建模與性能預(yù)測[A];2013年全國通信軟件學(xué)術(shù)會議論文集[C];2013年

10 Xiaoguang Han;Jigang Sun;Wu Qu;Xuanxia Yao;;Distributed Malware Detection based on Binary File Features in Cloud Computing Environment[A];第26屆中國控制與決策會議論文集[C];2014年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 孟宇龍;基于本體的多源異構(gòu)安全數(shù)據(jù)聚合[D];哈爾濱工程大學(xué);2010年

2 魏小濤;在線自適應(yīng)網(wǎng)絡(luò)異常檢測系統(tǒng)模型與相關(guān)算法研究[D];北京交通大學(xué);2009年

3 祁瑞華;不完整數(shù)據(jù)分類知識發(fā)現(xiàn)算法研究[D];大連理工大學(xué);2011年

4 梁建寧;特征選擇與圖像匹配[D];復(fù)旦大學(xué);2011年

5 杜炅;離散型隨機變量的貝葉斯分類方法研究[D];北京大學(xué);2011年

6 嚴志永;在劃分數(shù)據(jù)空間的視角下基于決策邊界的分類器研究[D];浙江大學(xué);2011年

7 陳元;基于分類模型的知識發(fā)現(xiàn)過程研究[D];國防科學(xué)技術(shù)大學(xué);2002年

8 彭宏京;基于稀疏RAM的神經(jīng)網(wǎng)絡(luò)及其人臉識別應(yīng)用研究[D];南京航空航天大學(xué);2002年

9 齊建東;基于數(shù)據(jù)挖掘的入侵檢測方法及系統(tǒng)研究[D];中國農(nóng)業(yè)大學(xué);2003年

10 王雙成;面向智能數(shù)據(jù)處理的圖形模式研究[D];吉林大學(xué);2004年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 黃美蘭;車輛標志自動識別方法研究[D];西安電子科技大學(xué);2011年

2 胡暢;用戶行為分析系統(tǒng)設(shè)計[D];湖北工業(yè)大學(xué);2011年

3 史晶晶;基于CRF的Web機構(gòu)實體信息抽取系統(tǒng)[D];吉林大學(xué);2011年

4 張建國;水平集方法特征提取及在醫(yī)療圖像診斷中的應(yīng)用[D];太原科技大學(xué);2011年

5 黃鑫檑;西南地區(qū)學(xué)生輟學(xué)預(yù)警技術(shù)研究[D];上海師范大學(xué);2011年

6 高鴻;文檔圖像拼接技術(shù)研究[D];中南大學(xué);2011年

7 彭登;基于ARM的智能車型識別系統(tǒng)架構(gòu)與關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2011年

8 黃思博;基于計算機視覺的異常駕駛行為檢測方法研究[D];華南理工大學(xué);2011年

9 陳思坤;醫(yī)學(xué)圖像的自動標注[D];電子科技大學(xué);2011年

10 閆新河;云計算下自主診斷與自我修復(fù)研究[D];電子科技大學(xué);2011年



本文編號:661931

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/661931.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶27731***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
亚洲中文字幕有码在线观看| 亚洲中文字幕在线观看四区| 国产传媒一区二区三区| 五月婷婷六月丁香在线观看 | 国产在线日韩精品欧美| 久久99一本色道亚洲精品| 日本中文字幕在线精品| 不卡一区二区在线视频| 成人精品视频在线观看不卡| av国产熟妇露脸在线观看| 亚洲欧美日韩精品永久| 国产又爽又猛又粗又色对黄 | 亚洲欧美日韩精品永久| 日本精品啪啪一区二区三区| 男女激情视频在线免费观看| 日韩1区二区三区麻豆| 日本午夜乱色视频在线观看| 日韩欧美综合中文字幕| 欧美人禽色视频免费看| 老鸭窝精彩从这里蔓延| 日韩精品免费一区二区三区| 亚洲欧美天堂精品在线| 国产又色又爽又黄又免费| 国产传媒高清视频在线| 国产国产精品精品在线| 丝袜视频日本成人午夜视频| 少妇高潮呻吟浪语91| 国产亚州欧美一区二区| 91一区国产中文字幕| 亚洲熟妇中文字幕五十路| 中文字幕人妻综合一区二区 | 很黄很污在线免费观看| 亚洲黄香蕉视频免费看| 色狠狠一区二区三区香蕉蜜桃 | 亚洲精品一二三区不卡| 蜜桃传媒在线正在播放| 天堂网中文字幕在线视频| 人妻一区二区三区在线| 欧美日韩一级黄片免费观看| 日韩中文高清在线专区| 九九热在线免费在线观看|