基于SAE-LBP網(wǎng)頁分類的研究
本文關(guān)鍵詞:基于SAE-LBP網(wǎng)頁分類的研究
更多相關(guān)文章: SAE LBP 網(wǎng)頁分類 深度學(xué)習(xí) 神經(jīng)網(wǎng)絡(luò)
【摘要】:隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)頁的數(shù)目呈現(xiàn)井噴狀增加,也預(yù)示著大數(shù)據(jù)時代的到來。雜亂、大量的網(wǎng)頁文本,增加了人們對信息的查找與過濾的難度。為了方便對網(wǎng)頁文本的檢索與挖掘,對網(wǎng)頁文本的分類就顯得十分重要。 一般地,網(wǎng)頁分類器采用了支持向量機(Support Vector Machine, SVM)、后向傳播(Back Propagation, BP)神經(jīng)網(wǎng)絡(luò)和Naive Bayes等傳統(tǒng)分類算法,并通過信息增益、互信息和最大熵等模型進行特征選擇。其中,信息增益取得了較好的性能,但是,信息增益的閾值很難確定。此外,BP神經(jīng)網(wǎng)絡(luò)在高層次應(yīng)用中,表現(xiàn)出了容易陷入局部極小值、對復(fù)雜函數(shù)泛化能力較差、訓(xùn)練效率較低等問題。針對這些問題,本文結(jié)合稀疏自動編碼器(Sparse Auto-Encoder, SAE)和LBP(Layer-wise Back Propagation)神經(jīng)網(wǎng)絡(luò),提出一種基于SAE-LBP的網(wǎng)頁分類器。本文主要工作如下: 1.根據(jù)網(wǎng)頁文本的半結(jié)構(gòu)化特征,改進了文本特征表示的權(quán)重計算,相對于傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò),提升了分類準確率1%左右。本文通過統(tǒng)計特定數(shù)據(jù)集各個標簽出現(xiàn)的數(shù)量,并結(jié)合各個標簽的作用進行分析,對HTML標簽進行分類并設(shè)置權(quán)重。 2.針對網(wǎng)頁文本的稀疏特性,采用SAE對網(wǎng)頁文本進行高層次地特征選擇,相對于傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò),提升了分類準確率4%左右。SAE通過在BP神經(jīng)網(wǎng)絡(luò)模型加入了稀疏性表示,更好地描述了網(wǎng)頁文本的稀疏特性。SAE通過在BP神經(jīng)網(wǎng)絡(luò)模型加入了對參數(shù)的懲罰,有效地避免了過擬合問題。 3.針對BP神經(jīng)網(wǎng)絡(luò)的梯度下降算法中的傳統(tǒng)學(xué)習(xí)率自動調(diào)整容易震蕩、調(diào)整過慢等問題,改進了傳統(tǒng)的學(xué)習(xí)率自動調(diào)整算法,相對于傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò),提升了時間性能40%~60%。算法通過設(shè)置一個下限,避免了學(xué)習(xí)率調(diào)整次數(shù)過多問題。另外,在誤差上升頻率過大時,及時降低學(xué)習(xí)率,避免了迭代的震蕩。算法還通過設(shè)置一個上限,防止下次迭代就遭遇誤差上升。 4.針對BP神經(jīng)網(wǎng)絡(luò)采用隨機初始化值不易于快速收斂的問題,采用LBP神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法對BP神經(jīng)網(wǎng)絡(luò)進行疊加訓(xùn)練,相對于傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò),有效地提升時間性能40%~60%。LBP神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法從3層開始,疊加訓(xùn)練BP神經(jīng)網(wǎng)絡(luò),直到目標層數(shù)。預(yù)訓(xùn)練低層次BP神經(jīng)網(wǎng)絡(luò)時,將低層次參數(shù)逼近最優(yōu)值。疊加預(yù)訓(xùn)練只需要迭代有限次數(shù)即可,不需要訓(xùn)練到BP神經(jīng)網(wǎng)絡(luò)完全收斂。采用LBP神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法,使得低層次的BP神經(jīng)網(wǎng)絡(luò)參數(shù)更加地接近最優(yōu)值,避免了不必要的迭代。 基于SAE-LBP的網(wǎng)頁分類器采用SAE進行深度特征選取,有效提升了分類準確率;采用基于學(xué)習(xí)率自動調(diào)整的LBP神經(jīng)網(wǎng)絡(luò)算法進行訓(xùn)練,有效提升了時間性能。實驗表明,相對于傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò),基于SAE-LBP的網(wǎng)頁分類器的分類正確率提升了5.19%,時間性能提升了83.86%。
【關(guān)鍵詞】:SAE LBP 網(wǎng)頁分類 深度學(xué)習(xí) 神經(jīng)網(wǎng)絡(luò)
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP393.092;TP391.1
【目錄】:
- 摘要5-7
- ABSTRACT7-14
- 第一章 緒論14-20
- 1.1 概述14-15
- 1.2 國內(nèi)外相關(guān)研究15-17
- 1.3 本文的研究內(nèi)容17-18
- 1.4 本文的組織結(jié)構(gòu)18-20
- 第二章 網(wǎng)頁分類器基本原理20-34
- 2.1 預(yù)處理21-23
- 2.1.1 HTML解析21-22
- 2.1.2 分詞與詞性標注22-23
- 2.2 文本特征表示23-26
- 2.2.1 布爾模型23-24
- 2.2.2 統(tǒng)計語言模型24-25
- 2.2.3 向量空間模型25-26
- 2.3 特征選取26-31
- 2.3.1 傳統(tǒng)特征選取方法27-31
- 2.4 分類模型31-32
- 2.4.1 神經(jīng)網(wǎng)絡(luò)31-32
- 2.4.2 支持向量機32
- 2.5 評價方法32-33
- 2.6 本章小結(jié)33-34
- 第三章 基于學(xué)習(xí)率自動調(diào)整的梯度下降34-46
- 3.1 BP神經(jīng)網(wǎng)絡(luò)34-41
- 3.1.1 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)34-37
- 3.1.2 BP神經(jīng)網(wǎng)絡(luò)模型37-38
- 3.1.3 BP神經(jīng)網(wǎng)絡(luò)求解38-41
- 3.2 學(xué)習(xí)率41-45
- 3.2.1 學(xué)習(xí)率自動調(diào)整算法42-43
- 3.2.2 改進的學(xué)習(xí)率自動調(diào)整算法43-45
- 3.3 本章小結(jié)45-46
- 第四章 基于SAE-LBP的網(wǎng)頁分類46-60
- 4.1 基于深度學(xué)習(xí)的特征選取46-50
- 4.1.1 自動編碼器47-49
- 4.1.2 降噪自動編碼器49
- 4.1.3 稀疏自動編碼器49-50
- 4.2 稀疏自動編碼器50-53
- 4.2.1 稀疏自動編碼器模型51-52
- 4.2.2 稀疏自動編碼器求解52-53
- 4.3 LBP神經(jīng)網(wǎng)絡(luò)53-55
- 4.3.1 LBP神經(jīng)網(wǎng)絡(luò)53-55
- 4.3.2 基于學(xué)習(xí)率自動調(diào)整的LBP神經(jīng)網(wǎng)絡(luò)55
- 4.4 基于SAE-LBP的網(wǎng)頁分類55-58
- 4.5 本章小結(jié)58-60
- 第五章 實驗結(jié)果與分析60-68
- 5.1 數(shù)據(jù)集60-61
- 5.2 HTML標簽權(quán)值設(shè)置相關(guān)實驗61-62
- 5.3 SAE進行特征提取相關(guān)實驗62-63
- 5.4 BP神經(jīng)網(wǎng)絡(luò)優(yōu)化相關(guān)實驗63-65
- 5.5 基于SAE-LBP網(wǎng)頁分類相關(guān)實驗65-66
- 5.6 本章小結(jié)66-68
- 第六章 總結(jié)與展望68-70
- 6.1 本文的主要工作與貢獻68-69
- 6.2 展望未來69-70
- 參考文獻70-74
- 致謝74-76
- 在讀期間發(fā)表的學(xué)術(shù)論文與取得的研究成果76
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 劉曉勇;;基于GA與SVM融合的網(wǎng)頁分類算法[J];遼寧工程技術(shù)大學(xué)學(xué)報(自然科學(xué)版);2010年05期
2 張婕;山嵐;;CBC算法在網(wǎng)頁分類中的應(yīng)用研究[J];北京化工大學(xué)學(xué)報(自然科學(xué)版);2013年S1期
3 李榮陸,王建會,陳曉云,陶曉鵬,胡運發(fā);使用最大熵模型進行中文文本分類[J];計算機研究與發(fā)展;2005年01期
4 徐燕;李錦濤;王斌;孫春明;張森;;文本分類中特征選擇的約束研究[J];計算機研究與發(fā)展;2008年04期
5 李新福;;組合降維技術(shù)在中文網(wǎng)頁分類中的應(yīng)用[J];計算機工程與應(yīng)用;2007年24期
6 段軍峰;黃維通;陸玉昌;;中文網(wǎng)頁分類研究與系統(tǒng)實現(xiàn)[J];計算機科學(xué);2007年06期
7 蘭均;施化吉;李星毅;徐敏;;基于特征詞復(fù)合權(quán)重的關(guān)聯(lián)網(wǎng)頁分類[J];計算機科學(xué);2011年03期
8 李粵,李星,劉輝,許靜芳;一種改進的文本網(wǎng)頁分類特征選擇方法[J];計算機應(yīng)用;2004年07期
9 黃科,馬少平;基于統(tǒng)計分詞的中文網(wǎng)頁分類[J];中文信息學(xué)報;2002年06期
10 湯亞玲;崔志明;;行為特征分析模式下的網(wǎng)頁分類技術(shù)研究[J];計算機工程;2012年20期
,本文編號:625875
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/625875.html