基于語義特征融合的深度學習網頁分類研究
發(fā)布時間:2023-03-05 17:18
隨著互聯(lián)網技術的發(fā)展,各式各樣的網站出現(xiàn)在網絡空間環(huán)境中,為人們信息的獲取提供了極大的便利,各式各樣的網頁數(shù)量隨著網站數(shù)量的增加呈現(xiàn)指數(shù)性的增長趨勢。面對數(shù)量巨大的網站資源的出現(xiàn),如何提供一種高效、準確、合理的網頁分類篩選方法,讓需要的人找到自己所需的資源成為一個重要而且有意義的問題。文本分類是自然語言處理領域中的經典主題,而網頁分類歸根結底還是文本分類的問題。網頁分類是互聯(lián)網基礎資源管理與組織中一個最基礎的問題之一,在搜索引擎、網頁篡改分析、惡意網站識別等互聯(lián)網基礎應用中發(fā)揮著不可替代的作用。傳統(tǒng)的Web數(shù)據(jù)挖掘技術通常利用網頁特征分析結合淺層次機器學習的方法進行網頁分類,但是隨著網頁數(shù)據(jù)結構組織的復雜化,在非結構化網頁數(shù)據(jù)中提取有效的特征變得越來越困難,傳統(tǒng)的機器學習在網頁分類的效果上已經很難取得突破性的發(fā)展。深度學習模型逐漸己經成為處理文本分類的主流技術,基于深度學習的分析模型來構建特征文本向量的方法可以準確表達文中的詞義和語義信息,但是也易被稀疏性等問題困擾,出現(xiàn)分類效果不佳的問題。針對上述問題,本文提出了一種基于語義特征融合的深度學習網頁分類模型,該模型使用了 TextCNN...
【文章頁數(shù)】:63 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
1 緒論
1.1 網頁分類的目的和意義
1.2 國內外研究現(xiàn)狀綜述
1.3 論文研究內容
1.4 論文結構
2 網頁分類相關技術綜述
2.1 文本預處理
2.2 關鍵詞提取
2.3 文本表示方法
2.4 基于機器學習的文本處理方法
2.5 基于深度學習的文本處理方法
2.6 語義特征
2.7 本章小結
3 網頁分類流程概述
3.1 網頁分類的整體流程
3.2 網頁數(shù)據(jù)爬取與結構化
3.3 網頁數(shù)據(jù)分詞與特征向量轉換
3.4 本章小結
4 基于深度學習的網頁文本分類
4.1 基于XLNet的網頁分類
4.2 算法實驗
4.3 本章小結
5 基于語義特征融合的深度學習網頁分類
5.1 基于TextCNN與XLNet網絡特征融合的網頁分類模型
5.2 基于語義特征融合的深度學習網頁分類模型
5.3 算法實驗
5.4 本章小結
6 總結與展望
6.1 論文主要研究工作總結
6.2 今后研究工作展望
參考文獻
作者簡歷
致謝
學位論文數(shù)據(jù)集
本文編號:3756610
【文章頁數(shù)】:63 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
1 緒論
1.1 網頁分類的目的和意義
1.2 國內外研究現(xiàn)狀綜述
1.3 論文研究內容
1.4 論文結構
2 網頁分類相關技術綜述
2.1 文本預處理
2.2 關鍵詞提取
2.3 文本表示方法
2.4 基于機器學習的文本處理方法
2.5 基于深度學習的文本處理方法
2.6 語義特征
2.7 本章小結
3 網頁分類流程概述
3.1 網頁分類的整體流程
3.2 網頁數(shù)據(jù)爬取與結構化
3.3 網頁數(shù)據(jù)分詞與特征向量轉換
3.4 本章小結
4 基于深度學習的網頁文本分類
4.1 基于XLNet的網頁分類
4.2 算法實驗
4.3 本章小結
5 基于語義特征融合的深度學習網頁分類
5.1 基于TextCNN與XLNet網絡特征融合的網頁分類模型
5.2 基于語義特征融合的深度學習網頁分類模型
5.3 算法實驗
5.4 本章小結
6 總結與展望
6.1 論文主要研究工作總結
6.2 今后研究工作展望
參考文獻
作者簡歷
致謝
學位論文數(shù)據(jù)集
本文編號:3756610
本文鏈接:http://sikaile.net/tushudanganlunwen/3756610.html
教材專著