基于深度學習的高效網(wǎng)頁分類技術的研究與分析
發(fā)布時間:2021-02-23 02:49
近年來,隨著網(wǎng)絡通信技術的飛速發(fā)展,互聯(lián)網(wǎng)逐步融入到日常生活的各個方面,網(wǎng)頁數(shù)量更是呈現(xiàn)指數(shù)式增長趨勢。面對海量且復雜的網(wǎng)頁信息,如何高效地組織和管理這些信息日趨成為一個棘手的問題。網(wǎng)頁分類作為互聯(lián)網(wǎng)信息組織和管理的一個基礎步驟,在搜索引擎、主題爬蟲、惡意網(wǎng)頁識別和維護目錄式網(wǎng)站等許多應用中發(fā)揮著至關重要的作用。傳統(tǒng)Web挖掘通常利用網(wǎng)頁特征工程結合機器學習算法進行網(wǎng)頁分類,然而隨著網(wǎng)頁結構的復雜化,網(wǎng)頁的有效特征提取越來越困難,從而導致傳統(tǒng)機器學習方法在網(wǎng)頁自動分類上效果一般。因此,本文提出了基于深度學習的高效網(wǎng)頁分類算法,針對網(wǎng)頁的文本內容、標題等信息,利用深度神經網(wǎng)絡,搭建一種多通道輸入,復合特征抽取結構的分類模型。該模型能有效地提高網(wǎng)頁分類的準確率,滿足特定領域內網(wǎng)頁的高效自動分類需求。本文的主要工作如下:1、分析了傳統(tǒng)機器學習方法在網(wǎng)頁挖掘中的優(yōu)缺點并介紹了深度學習在網(wǎng)頁分類中的特點和優(yōu)勢;闡述了網(wǎng)頁數(shù)據(jù)的采集和存儲技術;研究并分析了詞向量技術;分析了注意力機制在網(wǎng)頁分類問題上的可行之處;研究了卷積神經網(wǎng)絡,循環(huán)神經網(wǎng)絡的核心算法原理及科學應用。2、設計了基于深度學習的高效網(wǎng)...
【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:73 頁
【學位級別】:碩士
【部分圖文】:
污之側時dZ,e‘算法示禽圖
對于一個單獨神經元而言,如上圖(2-3)所示,假設輸入l=al,輸入2=a2,輸??入3=a3;權值l=wl,權值2=w2,權值3=w3;輸出=z。則神經元模型可簡單理??解為Z=g(al*wl+a2*w2+a3*w3)。其中函數(shù)g稱之為激活函數(shù),常見激活函數(shù)有??Sigmoid,?tanh,?ReLU。??多個神經元構成了神經網(wǎng)絡,而神經網(wǎng)絡構成了深度學習任務的主體,多層??神經網(wǎng)絡構成深度網(wǎng)絡對數(shù)據(jù)進行“高級特征”的提取,最終數(shù)據(jù)依然會流入神??經網(wǎng)絡(一般為全連接網(wǎng)絡)并通過激活函數(shù)獲得類別或者類別概率。??我們分析網(wǎng)頁數(shù)據(jù)的特點,首先網(wǎng)頁不同于傳統(tǒng)文本結構化的創(chuàng)作方式,網(wǎng)??頁的信息分布是無規(guī)律的,文本開頭可能是導航欄而不是標題,占網(wǎng)頁文字信息??篇幅最大的也可能不是網(wǎng)頁主題內容而是廣告推薦。抽取與類別最大關聯(lián)的特征??是網(wǎng)頁分類算法的基礎。卷積神經網(wǎng)絡可以設定不同大小的卷積核,不同尺度的??卷積核用來提取文本的關鍵信息,在原理上類似于多窗口大小的n-gram。卷積提??取出的特征會更多地關注局部,最后將信息綜合起來就得到了全局的信息。對于??信息量較大的網(wǎng)頁,希望神經網(wǎng)絡能夠“理解”前后語義,在提取特征時考慮到??上下文的信息,這就需要用到循環(huán)神經網(wǎng)絡。搭配使用卷積神經網(wǎng)絡和循環(huán)神經??
特征映射結構一般采用Sigmoid函數(shù)作為卷積網(wǎng)絡的激活函數(shù),Sigmoid的??輸出會使得特征映射具有位移不變性。此外,由于一個特征圖上的神經元共享權??值,因此減少了卷積網(wǎng)絡中自由參數(shù)的個數(shù),減少了計算量。卷積神經網(wǎng)絡中的??每一個卷積層都會連接一個用來求局部最值或平均值,進行二次特征提取的計算??層,這種特有的兩次特征提取結構可以減小特征分辨率。??卷積神經網(wǎng)絡在圖像領域獲得過巨大成功,著名的LeNet-5,?ResNet,AlexNet??都是以卷積神經網(wǎng)絡為基礎構建的。然而網(wǎng)頁數(shù)據(jù)和圖像數(shù)據(jù)不同,網(wǎng)頁數(shù)據(jù)可??以歸結為文本數(shù)據(jù)。眾所周知,圖像數(shù)據(jù)的輸入是二維的,雖然文本經過詞向量??表達后是二維數(shù)據(jù),但是在詞向量維度上即Embedding-Level上的二維卷積是沒??有意義的,因為只有完整的詞向量維度才表征了一個完整的單詞,所以文本是一??維數(shù)據(jù)。因此,本文算法中的卷積神經網(wǎng)絡都采用一維卷積。一維卷積帶來的問??題是需要通過設計不同尺寸(Kernel_Size)的卷積核(Filter)獲取不同寬度的視野,??在下一章算法設計與實現(xiàn)中將詳細闡述。??一維卷積網(wǎng)絡[19]的工作方式不同于傳統(tǒng)二維卷積,其工作方式如下圖2-4所??
【參考文獻】:
期刊論文
[1]結合TFIDF方法與Skip-gram模型的文本分類方法研究[J]. 鄔明強,張奎. 電子技術與軟件工程. 2018(06)
[2]Scrapy分布式爬蟲原理分析與概述[J]. 米碩,孫瑞彬,李欣,明曉,趙汝程. 中國新通信. 2018(04)
[3]分布式爬蟲任務調度策略的優(yōu)化[J]. 王霓虹,張露露. 黑龍江大學自然科學學報. 2016(05)
[4]基于深度學習的網(wǎng)頁分類算法研究[J]. 陳芊希,范磊. 微型電腦應用. 2016(02)
[5]一種基于N-Gram改進的文本特征提取算法[J]. 于津凱,王映雪,陳懷楚. 圖書情報工作. 2004(08)
[6]用Naive Bayes方法協(xié)調分類Web網(wǎng)頁[J]. 范焱,鄭誠,王清毅,蔡慶生,劉潔. 軟件學報. 2001(09)
碩士論文
[1]基于URL+文本的網(wǎng)頁主題分類模型研究[D]. 程元堃.武漢郵電科學研究院 2018
[2]基于GPU的深度學習算法并行化研究[D]. 晉雅茹.東南大學 2017
[3]基于深度卷積神經網(wǎng)絡的語義圖像檢索研究[D]. 陳修遠.電子科技大學 2017
[4]基于深度學習的釣魚網(wǎng)站檢測技術的研究[D]. 許瓏于.電子科技大學 2017
[5]基于文本分析的推薦系統(tǒng)研究與實現(xiàn)[D]. 張婷.電子科技大學 2017
[6]基于多標簽的海量文本的分類算法的研究與設計[D]. 方澤陽.北京郵電大學 2017
[7]基于URL模式的網(wǎng)頁分類算法研究[D]. 楊鎰銘.中國科學技術大學 2016
本文編號:3046902
【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:73 頁
【學位級別】:碩士
【部分圖文】:
污之側時dZ,e‘算法示禽圖
對于一個單獨神經元而言,如上圖(2-3)所示,假設輸入l=al,輸入2=a2,輸??入3=a3;權值l=wl,權值2=w2,權值3=w3;輸出=z。則神經元模型可簡單理??解為Z=g(al*wl+a2*w2+a3*w3)。其中函數(shù)g稱之為激活函數(shù),常見激活函數(shù)有??Sigmoid,?tanh,?ReLU。??多個神經元構成了神經網(wǎng)絡,而神經網(wǎng)絡構成了深度學習任務的主體,多層??神經網(wǎng)絡構成深度網(wǎng)絡對數(shù)據(jù)進行“高級特征”的提取,最終數(shù)據(jù)依然會流入神??經網(wǎng)絡(一般為全連接網(wǎng)絡)并通過激活函數(shù)獲得類別或者類別概率。??我們分析網(wǎng)頁數(shù)據(jù)的特點,首先網(wǎng)頁不同于傳統(tǒng)文本結構化的創(chuàng)作方式,網(wǎng)??頁的信息分布是無規(guī)律的,文本開頭可能是導航欄而不是標題,占網(wǎng)頁文字信息??篇幅最大的也可能不是網(wǎng)頁主題內容而是廣告推薦。抽取與類別最大關聯(lián)的特征??是網(wǎng)頁分類算法的基礎。卷積神經網(wǎng)絡可以設定不同大小的卷積核,不同尺度的??卷積核用來提取文本的關鍵信息,在原理上類似于多窗口大小的n-gram。卷積提??取出的特征會更多地關注局部,最后將信息綜合起來就得到了全局的信息。對于??信息量較大的網(wǎng)頁,希望神經網(wǎng)絡能夠“理解”前后語義,在提取特征時考慮到??上下文的信息,這就需要用到循環(huán)神經網(wǎng)絡。搭配使用卷積神經網(wǎng)絡和循環(huán)神經??
特征映射結構一般采用Sigmoid函數(shù)作為卷積網(wǎng)絡的激活函數(shù),Sigmoid的??輸出會使得特征映射具有位移不變性。此外,由于一個特征圖上的神經元共享權??值,因此減少了卷積網(wǎng)絡中自由參數(shù)的個數(shù),減少了計算量。卷積神經網(wǎng)絡中的??每一個卷積層都會連接一個用來求局部最值或平均值,進行二次特征提取的計算??層,這種特有的兩次特征提取結構可以減小特征分辨率。??卷積神經網(wǎng)絡在圖像領域獲得過巨大成功,著名的LeNet-5,?ResNet,AlexNet??都是以卷積神經網(wǎng)絡為基礎構建的。然而網(wǎng)頁數(shù)據(jù)和圖像數(shù)據(jù)不同,網(wǎng)頁數(shù)據(jù)可??以歸結為文本數(shù)據(jù)。眾所周知,圖像數(shù)據(jù)的輸入是二維的,雖然文本經過詞向量??表達后是二維數(shù)據(jù),但是在詞向量維度上即Embedding-Level上的二維卷積是沒??有意義的,因為只有完整的詞向量維度才表征了一個完整的單詞,所以文本是一??維數(shù)據(jù)。因此,本文算法中的卷積神經網(wǎng)絡都采用一維卷積。一維卷積帶來的問??題是需要通過設計不同尺寸(Kernel_Size)的卷積核(Filter)獲取不同寬度的視野,??在下一章算法設計與實現(xiàn)中將詳細闡述。??一維卷積網(wǎng)絡[19]的工作方式不同于傳統(tǒng)二維卷積,其工作方式如下圖2-4所??
【參考文獻】:
期刊論文
[1]結合TFIDF方法與Skip-gram模型的文本分類方法研究[J]. 鄔明強,張奎. 電子技術與軟件工程. 2018(06)
[2]Scrapy分布式爬蟲原理分析與概述[J]. 米碩,孫瑞彬,李欣,明曉,趙汝程. 中國新通信. 2018(04)
[3]分布式爬蟲任務調度策略的優(yōu)化[J]. 王霓虹,張露露. 黑龍江大學自然科學學報. 2016(05)
[4]基于深度學習的網(wǎng)頁分類算法研究[J]. 陳芊希,范磊. 微型電腦應用. 2016(02)
[5]一種基于N-Gram改進的文本特征提取算法[J]. 于津凱,王映雪,陳懷楚. 圖書情報工作. 2004(08)
[6]用Naive Bayes方法協(xié)調分類Web網(wǎng)頁[J]. 范焱,鄭誠,王清毅,蔡慶生,劉潔. 軟件學報. 2001(09)
碩士論文
[1]基于URL+文本的網(wǎng)頁主題分類模型研究[D]. 程元堃.武漢郵電科學研究院 2018
[2]基于GPU的深度學習算法并行化研究[D]. 晉雅茹.東南大學 2017
[3]基于深度卷積神經網(wǎng)絡的語義圖像檢索研究[D]. 陳修遠.電子科技大學 2017
[4]基于深度學習的釣魚網(wǎng)站檢測技術的研究[D]. 許瓏于.電子科技大學 2017
[5]基于文本分析的推薦系統(tǒng)研究與實現(xiàn)[D]. 張婷.電子科技大學 2017
[6]基于多標簽的海量文本的分類算法的研究與設計[D]. 方澤陽.北京郵電大學 2017
[7]基于URL模式的網(wǎng)頁分類算法研究[D]. 楊鎰銘.中國科學技術大學 2016
本文編號:3046902
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3046902.html
最近更新
教材專著