基于貝葉斯的分布式網(wǎng)頁自動分類算法研究及應(yīng)用
本文關(guān)鍵詞:基于貝葉斯的分布式網(wǎng)頁自動分類算法研究及應(yīng)用
更多相關(guān)文章: 網(wǎng)頁自動分類 Hadoop云計算 樸素貝葉斯分類器 特征選擇
【摘要】:伴隨著移動互聯(lián)網(wǎng)的快速發(fā)展,以及數(shù)據(jù)采集技術(shù)和數(shù)據(jù)存儲技術(shù)的快速進步,使得各組織機構(gòu)可以積累海量數(shù)據(jù)。而從中提取有用的信息已經(jīng)成為巨大的挑戰(zhàn)。為了應(yīng)對挑戰(zhàn),數(shù)據(jù)挖掘技術(shù)和Hadoop云計算技術(shù)應(yīng)運而生。本文研究的網(wǎng)頁自動分類是數(shù)據(jù)挖掘的一個重要分支,在挖掘“商業(yè)價值”方面的作用突出,比如它能夠幫助移動運營商回答這樣的問題,“可以為哪些客戶提供每月100元的包含流量和長途話費的套餐”。 本文聚焦于分布式網(wǎng)頁自動分類系統(tǒng)的構(gòu)建,將Hadoop云計算應(yīng)用到網(wǎng)頁分類中是本文的亮點之一。本文從網(wǎng)頁自動分類綜述開始;引出貝葉斯分類器和特征選擇,以“框圖”形式給出它們的MapReduce程序設(shè)計;繼而從軟件設(shè)計角度敘述分布式網(wǎng)頁自動分類系統(tǒng);最后以GB/TB級別的海量網(wǎng)絡(luò)流量監(jiān)控數(shù)據(jù)對分類性能進行實驗分析。文中的創(chuàng)新點如下: (1)將Hadoop云計算技術(shù)應(yīng)用到網(wǎng)頁自動分類中,研究樸素貝葉斯分類器分布式并行算法,以應(yīng)對GB/TB級別的海量網(wǎng)絡(luò)流量監(jiān)控數(shù)據(jù)分類的挑戰(zhàn)。 (2)將Hadoop云計算技術(shù)應(yīng)用到文本挖掘的特征選擇中,研究設(shè)計與實現(xiàn)信息增益特征選擇MapReduce并行算法,以應(yīng)對GB/TB級別的海量網(wǎng)絡(luò)流量監(jiān)控數(shù)據(jù)特征選擇的挑戰(zhàn)。 (3)將概率統(tǒng)計的“累積概率”概念引入到文本分類特征選擇的參數(shù)最優(yōu)化問題中,通過累積概率實現(xiàn)特征向量大小最佳閾值的自適應(yīng)選取。特征向量大小不僅關(guān)系到系統(tǒng)軟件性能,更影響系統(tǒng)分類性能。本文提出評估魯棒性的度量,并驗證了“累積概率閾值”方案具有良好的魯棒性,表明它適用于不同應(yīng)用場景。 (4)將軟件設(shè)計、Hadoop云計算和數(shù)據(jù)挖掘技術(shù)相結(jié)合,使用Hadoop云計算框架構(gòu)建分布式網(wǎng)頁自動分類系統(tǒng)。實施軟件設(shè)計模式中的“外觀模式”搭建網(wǎng)頁自動分類系統(tǒng)框架,從上到下分為接口層、組件層和模塊層。
【關(guān)鍵詞】:網(wǎng)頁自動分類 Hadoop云計算 樸素貝葉斯分類器 特征選擇
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP393.092
【目錄】:
- 摘要4-5
- ABSTRACT5-10
- 第一章 緒論10-14
- 1.1 研究背景10
- 1.2 研究現(xiàn)狀和發(fā)展趨勢10-11
- 1.3 研究內(nèi)容和創(chuàng)新點11-12
- 1.4 論文結(jié)構(gòu)12-14
- 第二章 網(wǎng)頁自動分類和分布式框架綜述14-26
- 2.1 網(wǎng)頁自動分類的定義14
- 2.2 網(wǎng)頁自動分類的一般方法14-15
- 2.3 網(wǎng)頁自動分類的核心技術(shù)15-21
- 2.3.1 網(wǎng)絡(luò)爬蟲15-17
- 2.3.2 文本預(yù)處理17-18
- 2.3.3 樣本標注18-19
- 2.3.4 特征選擇19
- 2.3.5 學(xué)習(xí)算法19-21
- 2.4 Hadoop分布式系統(tǒng)基礎(chǔ)架構(gòu)21-26
- 2.4.1 Hadoop概述21
- 2.4.2 Hadoop存儲21-22
- 2.4.3 Hadoop計算22-24
- 2.4.4 Hadoop在數(shù)據(jù)挖掘中的應(yīng)用24-26
- 第三章 貝葉斯分類器研究及其分布式算法設(shè)計26-34
- 3.1 算法理論26-27
- 3.2 文本表示27-28
- 3.3 概率估計28-29
- 3.4 貝葉斯訓(xùn)練的分布式算法設(shè)計29-33
- 3.4.1 類條件概率訓(xùn)練的分布式算法設(shè)計29-31
- 3.4.2 類先驗概率訓(xùn)練的分布式算法設(shè)計31-33
- 3.5 貝葉斯分類的分布式算法設(shè)計33-34
- 第四章 特征選擇研究及其分布式算法設(shè)計34-40
- 4.1 特征選擇策略34-35
- 4.2 特征選擇算法35-37
- 4.3 信息增益特征選擇的分布式算法設(shè)計37-40
- 第五章 分布式網(wǎng)頁自動分類系統(tǒng)架構(gòu)40-56
- 5.1 系統(tǒng)框架40
- 5.2 系統(tǒng)流程40-41
- 5.3 組件設(shè)計41-43
- 5.3.1 分類組件41-42
- 5.3.2 統(tǒng)計組件42
- 5.3.3 訓(xùn)練組件42-43
- 5.3.4 配置組件43
- 5.4 模塊設(shè)計43-51
- 5.4.1 網(wǎng)頁內(nèi)容提取43-44
- 5.4.2 轉(zhuǎn)儲44-45
- 5.4.3 分詞45-47
- 5.4.4 庫匹配分類器47-49
- 5.4.5 貝葉斯訓(xùn)練與分類器49-51
- 5.5 庫表設(shè)計51-56
- 5.5.1 HBase數(shù)據(jù)表設(shè)計51-53
- 5.5.2 PostgreSQL數(shù)據(jù)表設(shè)計53-56
- 第六章 分布式網(wǎng)頁自動分類性能分析56-62
- 6.1 數(shù)據(jù)源56-57
- 6.2 累積概率閡值的魯棒性分析57-58
- 6.3 概率估計方法的分類性能分析58
- 6.4 特征向量大小的分類性能分析58-60
- 6.5 特征選擇算法的分類性能分析60-62
- 第七章 總結(jié)與展望62-64
- 7.1 總結(jié)62
- 7.2 展望62-64
- 參考文獻64-66
- 致謝66-68
- 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄68
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 徐文權(quán);;基于Symbian OS系統(tǒng)的垃圾短信過濾器設(shè)計與實現(xiàn)[J];安慶師范學(xué)院學(xué)報(自然科學(xué)版);2012年02期
2 李寧;徐虹;;基于文本分類的語義平滑在語言模型中的應(yīng)用(英文)[J];成都信息工程學(xué)院學(xué)報;2008年03期
3 王輝;韓旭;王雙成;王淑琴;趙洪帥;王莉;;連續(xù)屬性樸素貝葉斯分類器的依賴擴展研究[J];東北師大學(xué)報(自然科學(xué)版);2012年02期
4 高潔;趙俊榮;;基于增量式Bayes的中文網(wǎng)頁自動分類技術(shù)[J];電腦知識與技術(shù);2006年14期
5 姜立標;馬樂;余建偉;劉永花;;多階段聚類—樸素貝葉斯的異常檢測[J];重慶大學(xué)學(xué)報;2009年08期
6 魏延良;侯立剛;任立軍;;垃圾郵件過濾系統(tǒng)的設(shè)計[J];遼寧石油化工大學(xué)學(xué)報;2008年01期
7 劉志明;劉魯;;面向突發(fā)事件的群體情緒監(jiān)控預(yù)警[J];系統(tǒng)工程;2010年07期
8 李鳳;高昭良;;面向土地利用分類的多源遙感數(shù)據(jù)混合貝葉斯網(wǎng)絡(luò)分類器[J];國土資源遙感;2011年02期
9 王東;熊世桓;;一種基于特征置換的樸素貝葉斯分類器[J];蘭州理工大學(xué)學(xué)報;2012年04期
10 王東;;面向文本分類的混合特征降維策略[J];貴州師范學(xué)院學(xué)報;2012年06期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 舒寧;陶建斌;;面向土地利用分類的多源遙感數(shù)據(jù)混合貝葉斯網(wǎng)絡(luò)分類器[A];全國農(nóng)業(yè)遙感技術(shù)研討會論文集[C];2009年
2 馬后鋒;樊興華;;一種改進的增量貝葉斯分類算法[A];2007'儀表,,自動化及先進集成技術(shù)大會論文集(一)[C];2007年
3 石志偉;吳功宜;;改善樸素貝葉斯在文本分類中的穩(wěn)定性[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年
4 唐慧豐;譚松波;程學(xué)旗;;監(jiān)督學(xué)習(xí)方法在語氣挖掘中的應(yīng)用研究[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年
5 任美睿;李建中;楊艷;;基于樸素貝葉斯方法的自動文本分類系統(tǒng)的實現(xiàn)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2002年
6 于海旭;王有偉;;基于高精確度的多策略本體映射[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2007年
7 王自強;孫霞;錢旭;;基于信息瓶頸和拉普拉斯SVM的Web文檔分類算法[A];2011年中國智能自動化學(xué)術(shù)會議論文集(第一分冊)[C];2011年
8 劉權(quán);郭武;;基于核主成分分析的話題跟蹤系統(tǒng)[A];第十二屆全國人機語音通訊學(xué)術(shù)會議(NCMMSC'2013)論文集[C];2013年
9 喬媛媛;劉芳;凌艷;尹勁松;;云計算環(huán)境下MapReduce的資源建模與性能預(yù)測[A];2013年全國通信軟件學(xué)術(shù)會議論文集[C];2013年
10 Xiaoguang Han;Jigang Sun;Wu Qu;Xuanxia Yao;;Distributed Malware Detection based on Binary File Features in Cloud Computing Environment[A];第26屆中國控制與決策會議論文集[C];2014年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 孟宇龍;基于本體的多源異構(gòu)安全數(shù)據(jù)聚合[D];哈爾濱工程大學(xué);2010年
2 魏小濤;在線自適應(yīng)網(wǎng)絡(luò)異常檢測系統(tǒng)模型與相關(guān)算法研究[D];北京交通大學(xué);2009年
3 祁瑞華;不完整數(shù)據(jù)分類知識發(fā)現(xiàn)算法研究[D];大連理工大學(xué);2011年
4 梁建寧;特征選擇與圖像匹配[D];復(fù)旦大學(xué);2011年
5 杜炅;離散型隨機變量的貝葉斯分類方法研究[D];北京大學(xué);2011年
6 嚴志永;在劃分數(shù)據(jù)空間的視角下基于決策邊界的分類器研究[D];浙江大學(xué);2011年
7 陳元;基于分類模型的知識發(fā)現(xiàn)過程研究[D];國防科學(xué)技術(shù)大學(xué);2002年
8 彭宏京;基于稀疏RAM的神經(jīng)網(wǎng)絡(luò)及其人臉識別應(yīng)用研究[D];南京航空航天大學(xué);2002年
9 齊建東;基于數(shù)據(jù)挖掘的入侵檢測方法及系統(tǒng)研究[D];中國農(nóng)業(yè)大學(xué);2003年
10 王雙成;面向智能數(shù)據(jù)處理的圖形模式研究[D];吉林大學(xué);2004年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 黃美蘭;車輛標志自動識別方法研究[D];西安電子科技大學(xué);2011年
2 胡暢;用戶行為分析系統(tǒng)設(shè)計[D];湖北工業(yè)大學(xué);2011年
3 史晶晶;基于CRF的Web機構(gòu)實體信息抽取系統(tǒng)[D];吉林大學(xué);2011年
4 張建國;水平集方法特征提取及在醫(yī)療圖像診斷中的應(yīng)用[D];太原科技大學(xué);2011年
5 黃鑫檑;西南地區(qū)學(xué)生輟學(xué)預(yù)警技術(shù)研究[D];上海師范大學(xué);2011年
6 高鴻;文檔圖像拼接技術(shù)研究[D];中南大學(xué);2011年
7 彭登;基于ARM的智能車型識別系統(tǒng)架構(gòu)與關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2011年
8 黃思博;基于計算機視覺的異常駕駛行為檢測方法研究[D];華南理工大學(xué);2011年
9 陳思坤;醫(yī)學(xué)圖像的自動標注[D];電子科技大學(xué);2011年
10 閆新河;云計算下自主診斷與自我修復(fù)研究[D];電子科技大學(xué);2011年
本文編號:661931
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/661931.html