基于貝葉斯的分布式網(wǎng)頁自動(dòng)分類算法研究及應(yīng)用
本文關(guān)鍵詞:基于貝葉斯的分布式網(wǎng)頁自動(dòng)分類算法研究及應(yīng)用
更多相關(guān)文章: 網(wǎng)頁自動(dòng)分類 Hadoop云計(jì)算 樸素貝葉斯分類器 特征選擇
【摘要】:伴隨著移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展,以及數(shù)據(jù)采集技術(shù)和數(shù)據(jù)存儲(chǔ)技術(shù)的快速進(jìn)步,使得各組織機(jī)構(gòu)可以積累海量數(shù)據(jù)。而從中提取有用的信息已經(jīng)成為巨大的挑戰(zhàn)。為了應(yīng)對挑戰(zhàn),數(shù)據(jù)挖掘技術(shù)和Hadoop云計(jì)算技術(shù)應(yīng)運(yùn)而生。本文研究的網(wǎng)頁自動(dòng)分類是數(shù)據(jù)挖掘的一個(gè)重要分支,在挖掘“商業(yè)價(jià)值”方面的作用突出,比如它能夠幫助移動(dòng)運(yùn)營商回答這樣的問題,“可以為哪些客戶提供每月100元的包含流量和長途話費(fèi)的套餐”。 本文聚焦于分布式網(wǎng)頁自動(dòng)分類系統(tǒng)的構(gòu)建,將Hadoop云計(jì)算應(yīng)用到網(wǎng)頁分類中是本文的亮點(diǎn)之一。本文從網(wǎng)頁自動(dòng)分類綜述開始;引出貝葉斯分類器和特征選擇,以“框圖”形式給出它們的MapReduce程序設(shè)計(jì);繼而從軟件設(shè)計(jì)角度敘述分布式網(wǎng)頁自動(dòng)分類系統(tǒng);最后以GB/TB級別的海量網(wǎng)絡(luò)流量監(jiān)控?cái)?shù)據(jù)對分類性能進(jìn)行實(shí)驗(yàn)分析。文中的創(chuàng)新點(diǎn)如下: (1)將Hadoop云計(jì)算技術(shù)應(yīng)用到網(wǎng)頁自動(dòng)分類中,研究樸素貝葉斯分類器分布式并行算法,以應(yīng)對GB/TB級別的海量網(wǎng)絡(luò)流量監(jiān)控?cái)?shù)據(jù)分類的挑戰(zhàn)。 (2)將Hadoop云計(jì)算技術(shù)應(yīng)用到文本挖掘的特征選擇中,研究設(shè)計(jì)與實(shí)現(xiàn)信息增益特征選擇MapReduce并行算法,以應(yīng)對GB/TB級別的海量網(wǎng)絡(luò)流量監(jiān)控?cái)?shù)據(jù)特征選擇的挑戰(zhàn)。 (3)將概率統(tǒng)計(jì)的“累積概率”概念引入到文本分類特征選擇的參數(shù)最優(yōu)化問題中,通過累積概率實(shí)現(xiàn)特征向量大小最佳閾值的自適應(yīng)選取。特征向量大小不僅關(guān)系到系統(tǒng)軟件性能,更影響系統(tǒng)分類性能。本文提出評估魯棒性的度量,并驗(yàn)證了“累積概率閾值”方案具有良好的魯棒性,表明它適用于不同應(yīng)用場景。 (4)將軟件設(shè)計(jì)、Hadoop云計(jì)算和數(shù)據(jù)挖掘技術(shù)相結(jié)合,使用Hadoop云計(jì)算框架構(gòu)建分布式網(wǎng)頁自動(dòng)分類系統(tǒng)。實(shí)施軟件設(shè)計(jì)模式中的“外觀模式”搭建網(wǎng)頁自動(dòng)分類系統(tǒng)框架,從上到下分為接口層、組件層和模塊層。
【關(guān)鍵詞】:網(wǎng)頁自動(dòng)分類 Hadoop云計(jì)算 樸素貝葉斯分類器 特征選擇
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP393.092
【目錄】:
- 摘要4-5
- ABSTRACT5-10
- 第一章 緒論10-14
- 1.1 研究背景10
- 1.2 研究現(xiàn)狀和發(fā)展趨勢10-11
- 1.3 研究內(nèi)容和創(chuàng)新點(diǎn)11-12
- 1.4 論文結(jié)構(gòu)12-14
- 第二章 網(wǎng)頁自動(dòng)分類和分布式框架綜述14-26
- 2.1 網(wǎng)頁自動(dòng)分類的定義14
- 2.2 網(wǎng)頁自動(dòng)分類的一般方法14-15
- 2.3 網(wǎng)頁自動(dòng)分類的核心技術(shù)15-21
- 2.3.1 網(wǎng)絡(luò)爬蟲15-17
- 2.3.2 文本預(yù)處理17-18
- 2.3.3 樣本標(biāo)注18-19
- 2.3.4 特征選擇19
- 2.3.5 學(xué)習(xí)算法19-21
- 2.4 Hadoop分布式系統(tǒng)基礎(chǔ)架構(gòu)21-26
- 2.4.1 Hadoop概述21
- 2.4.2 Hadoop存儲(chǔ)21-22
- 2.4.3 Hadoop計(jì)算22-24
- 2.4.4 Hadoop在數(shù)據(jù)挖掘中的應(yīng)用24-26
- 第三章 貝葉斯分類器研究及其分布式算法設(shè)計(jì)26-34
- 3.1 算法理論26-27
- 3.2 文本表示27-28
- 3.3 概率估計(jì)28-29
- 3.4 貝葉斯訓(xùn)練的分布式算法設(shè)計(jì)29-33
- 3.4.1 類條件概率訓(xùn)練的分布式算法設(shè)計(jì)29-31
- 3.4.2 類先驗(yàn)概率訓(xùn)練的分布式算法設(shè)計(jì)31-33
- 3.5 貝葉斯分類的分布式算法設(shè)計(jì)33-34
- 第四章 特征選擇研究及其分布式算法設(shè)計(jì)34-40
- 4.1 特征選擇策略34-35
- 4.2 特征選擇算法35-37
- 4.3 信息增益特征選擇的分布式算法設(shè)計(jì)37-40
- 第五章 分布式網(wǎng)頁自動(dòng)分類系統(tǒng)架構(gòu)40-56
- 5.1 系統(tǒng)框架40
- 5.2 系統(tǒng)流程40-41
- 5.3 組件設(shè)計(jì)41-43
- 5.3.1 分類組件41-42
- 5.3.2 統(tǒng)計(jì)組件42
- 5.3.3 訓(xùn)練組件42-43
- 5.3.4 配置組件43
- 5.4 模塊設(shè)計(jì)43-51
- 5.4.1 網(wǎng)頁內(nèi)容提取43-44
- 5.4.2 轉(zhuǎn)儲(chǔ)44-45
- 5.4.3 分詞45-47
- 5.4.4 庫匹配分類器47-49
- 5.4.5 貝葉斯訓(xùn)練與分類器49-51
- 5.5 庫表設(shè)計(jì)51-56
- 5.5.1 HBase數(shù)據(jù)表設(shè)計(jì)51-53
- 5.5.2 PostgreSQL數(shù)據(jù)表設(shè)計(jì)53-56
- 第六章 分布式網(wǎng)頁自動(dòng)分類性能分析56-62
- 6.1 數(shù)據(jù)源56-57
- 6.2 累積概率閡值的魯棒性分析57-58
- 6.3 概率估計(jì)方法的分類性能分析58
- 6.4 特征向量大小的分類性能分析58-60
- 6.5 特征選擇算法的分類性能分析60-62
- 第七章 總結(jié)與展望62-64
- 7.1 總結(jié)62
- 7.2 展望62-64
- 參考文獻(xiàn)64-66
- 致謝66-68
- 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄68
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 徐文權(quán);;基于Symbian OS系統(tǒng)的垃圾短信過濾器設(shè)計(jì)與實(shí)現(xiàn)[J];安慶師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2012年02期
2 李寧;徐虹;;基于文本分類的語義平滑在語言模型中的應(yīng)用(英文)[J];成都信息工程學(xué)院學(xué)報(bào);2008年03期
3 王輝;韓旭;王雙成;王淑琴;趙洪帥;王莉;;連續(xù)屬性樸素貝葉斯分類器的依賴擴(kuò)展研究[J];東北師大學(xué)報(bào)(自然科學(xué)版);2012年02期
4 高潔;趙俊榮;;基于增量式Bayes的中文網(wǎng)頁自動(dòng)分類技術(shù)[J];電腦知識(shí)與技術(shù);2006年14期
5 姜立標(biāo);馬樂;余建偉;劉永花;;多階段聚類—樸素貝葉斯的異常檢測[J];重慶大學(xué)學(xué)報(bào);2009年08期
6 魏延良;侯立剛;任立軍;;垃圾郵件過濾系統(tǒng)的設(shè)計(jì)[J];遼寧石油化工大學(xué)學(xué)報(bào);2008年01期
7 劉志明;劉魯;;面向突發(fā)事件的群體情緒監(jiān)控預(yù)警[J];系統(tǒng)工程;2010年07期
8 李鳳;高昭良;;面向土地利用分類的多源遙感數(shù)據(jù)混合貝葉斯網(wǎng)絡(luò)分類器[J];國土資源遙感;2011年02期
9 王東;熊世桓;;一種基于特征置換的樸素貝葉斯分類器[J];蘭州理工大學(xué)學(xué)報(bào);2012年04期
10 王東;;面向文本分類的混合特征降維策略[J];貴州師范學(xué)院學(xué)報(bào);2012年06期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條
1 舒寧;陶建斌;;面向土地利用分類的多源遙感數(shù)據(jù)混合貝葉斯網(wǎng)絡(luò)分類器[A];全國農(nóng)業(yè)遙感技術(shù)研討會(huì)論文集[C];2009年
2 馬后鋒;樊興華;;一種改進(jìn)的增量貝葉斯分類算法[A];2007'儀表,,自動(dòng)化及先進(jìn)集成技術(shù)大會(huì)論文集(一)[C];2007年
3 石志偉;吳功宜;;改善樸素貝葉斯在文本分類中的穩(wěn)定性[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年
4 唐慧豐;譚松波;程學(xué)旗;;監(jiān)督學(xué)習(xí)方法在語氣挖掘中的應(yīng)用研究[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國計(jì)算語言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年
5 任美睿;李建中;楊艷;;基于樸素貝葉斯方法的自動(dòng)文本分類系統(tǒng)的實(shí)現(xiàn)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年
6 于海旭;王有偉;;基于高精確度的多策略本體映射[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2007年
7 王自強(qiáng);孫霞;錢旭;;基于信息瓶頸和拉普拉斯SVM的Web文檔分類算法[A];2011年中國智能自動(dòng)化學(xué)術(shù)會(huì)議論文集(第一分冊)[C];2011年
8 劉權(quán);郭武;;基于核主成分分析的話題跟蹤系統(tǒng)[A];第十二屆全國人機(jī)語音通訊學(xué)術(shù)會(huì)議(NCMMSC'2013)論文集[C];2013年
9 喬媛媛;劉芳;凌艷;尹勁松;;云計(jì)算環(huán)境下MapReduce的資源建模與性能預(yù)測[A];2013年全國通信軟件學(xué)術(shù)會(huì)議論文集[C];2013年
10 Xiaoguang Han;Jigang Sun;Wu Qu;Xuanxia Yao;;Distributed Malware Detection based on Binary File Features in Cloud Computing Environment[A];第26屆中國控制與決策會(huì)議論文集[C];2014年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 孟宇龍;基于本體的多源異構(gòu)安全數(shù)據(jù)聚合[D];哈爾濱工程大學(xué);2010年
2 魏小濤;在線自適應(yīng)網(wǎng)絡(luò)異常檢測系統(tǒng)模型與相關(guān)算法研究[D];北京交通大學(xué);2009年
3 祁瑞華;不完整數(shù)據(jù)分類知識(shí)發(fā)現(xiàn)算法研究[D];大連理工大學(xué);2011年
4 梁建寧;特征選擇與圖像匹配[D];復(fù)旦大學(xué);2011年
5 杜炅;離散型隨機(jī)變量的貝葉斯分類方法研究[D];北京大學(xué);2011年
6 嚴(yán)志永;在劃分?jǐn)?shù)據(jù)空間的視角下基于決策邊界的分類器研究[D];浙江大學(xué);2011年
7 陳元;基于分類模型的知識(shí)發(fā)現(xiàn)過程研究[D];國防科學(xué)技術(shù)大學(xué);2002年
8 彭宏京;基于稀疏RAM的神經(jīng)網(wǎng)絡(luò)及其人臉識(shí)別應(yīng)用研究[D];南京航空航天大學(xué);2002年
9 齊建東;基于數(shù)據(jù)挖掘的入侵檢測方法及系統(tǒng)研究[D];中國農(nóng)業(yè)大學(xué);2003年
10 王雙成;面向智能數(shù)據(jù)處理的圖形模式研究[D];吉林大學(xué);2004年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 黃美蘭;車輛標(biāo)志自動(dòng)識(shí)別方法研究[D];西安電子科技大學(xué);2011年
2 胡暢;用戶行為分析系統(tǒng)設(shè)計(jì)[D];湖北工業(yè)大學(xué);2011年
3 史晶晶;基于CRF的Web機(jī)構(gòu)實(shí)體信息抽取系統(tǒng)[D];吉林大學(xué);2011年
4 張建國;水平集方法特征提取及在醫(yī)療圖像診斷中的應(yīng)用[D];太原科技大學(xué);2011年
5 黃鑫檑;西南地區(qū)學(xué)生輟學(xué)預(yù)警技術(shù)研究[D];上海師范大學(xué);2011年
6 高鴻;文檔圖像拼接技術(shù)研究[D];中南大學(xué);2011年
7 彭登;基于ARM的智能車型識(shí)別系統(tǒng)架構(gòu)與關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2011年
8 黃思博;基于計(jì)算機(jī)視覺的異常駕駛行為檢測方法研究[D];華南理工大學(xué);2011年
9 陳思坤;醫(yī)學(xué)圖像的自動(dòng)標(biāo)注[D];電子科技大學(xué);2011年
10 閆新河;云計(jì)算下自主診斷與自我修復(fù)研究[D];電子科技大學(xué);2011年
本文編號(hào):661931
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/661931.html