Deep Web數(shù)據(jù)資源智能挖掘系統(tǒng)
發(fā)布時間:2023-05-10 20:43
隨著互聯(lián)網(wǎng)的發(fā)展和信息技術(shù)的快速進步,網(wǎng)絡(luò)已成為人們獲取信息的重要渠道。而在網(wǎng)絡(luò)環(huán)境中,與淺層網(wǎng)絡(luò)相比,Deep Web中包含的信息數(shù)量更多,質(zhì)量更高且一般是結(jié)構(gòu)化的。但是,Deep Web中的信息并不能被直接訪問。所以,研究如何獲取并利用Deep Web中的信息就顯得十分必要。為了高效地利用Deep Web中的信息,本文提出了一種基于隨機森林的數(shù)據(jù)源發(fā)現(xiàn)方法和基于文本特征擴展與提取的數(shù)據(jù)源分類方法。文章的主要研究內(nèi)容和取得的成果可總結(jié)如下:(1)提出了一種基于隨機森林模型的Deep Web數(shù)據(jù)源發(fā)現(xiàn)方法。首先通過分析網(wǎng)頁代碼及結(jié)構(gòu),總結(jié)得出了一系列網(wǎng)頁表單特征。之后,根據(jù)這些特征建立隨機森林模型用于將Deep Web數(shù)據(jù)源與其他網(wǎng)頁表單區(qū)分開,達到發(fā)現(xiàn)Deep Web數(shù)據(jù)源的目的。最后,在UIUC TEL-8數(shù)據(jù)集上進行了實驗,實驗結(jié)果表明本文提出的方法可以準確地完成數(shù)據(jù)源的發(fā)現(xiàn)。(2)針對Deep Web數(shù)據(jù)源中由于文本較少導(dǎo)致的特征稀疏問題,提出了一種基于N-gram模型的特征擴展方法。同時,由于在特征擴展過程中可能引入新的噪聲,本文利用Word2Vec進行了噪聲消除。實驗結(jié)果表...
【文章頁數(shù)】:75 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 論文主要工作與章節(jié)安排
第2章 基于隨機森林的Deep Web數(shù)據(jù)源發(fā)現(xiàn)
2.1 網(wǎng)頁表單的特征提取
2.2 基于隨機森林的數(shù)據(jù)源發(fā)現(xiàn)
2.2.1 決策樹理論
2.2.2 集成學(xué)習(xí)
2.2.3 隨機森林模型
2.3 實驗與結(jié)果分析
2.3.1 實驗準備
2.3.2 實驗與結(jié)果分析
2.4 本章小結(jié)
第3章 Deep Web數(shù)據(jù)源分類
3.1 數(shù)據(jù)源的預(yù)處理
3.2 Word Embedding文本表示
3.2.1 CBOW模型
3.2.2 Skip-gram模型
3.3 基于N-gram模型的語義特征擴展
3.3.1 文本特征擴展
3.3.2 N-gram語言模型
3.3.3 模型訓(xùn)練與平滑方法
3.3.4 基于N-gram模型的特征擴展
3.4 特征擴展后的噪聲消除
3.5 基于注意力機制的Bi-LSTM數(shù)據(jù)源分類模型
3.5.1 Bi-LSTM模型
3.5.2 注意力機制的思想
3.5.3 數(shù)據(jù)源分類模型
3.6 實驗結(jié)果與分析
3.6.1 評價指標
3.6.2 Deep Web數(shù)據(jù)源特征擴展實驗
3.6.3 Deep Web數(shù)據(jù)源分類實驗
3.7 本章小結(jié)
第4章 Deep Web數(shù)據(jù)資源智能挖掘系統(tǒng)的設(shè)計與實現(xiàn)
4.1 總體設(shè)計與開發(fā)環(huán)境
4.1.1 系統(tǒng)總體設(shè)計
4.1.2 開發(fā)及運行環(huán)境
4.2 系統(tǒng)詳細設(shè)計
4.2.1 系統(tǒng)整體架構(gòu)
4.2.2 系統(tǒng)功能架構(gòu)
4.2.3 系統(tǒng)技術(shù)架構(gòu)
4.2.4 系統(tǒng)數(shù)據(jù)庫設(shè)計
4.3 系統(tǒng)實現(xiàn)
4.4 系統(tǒng)測試
4.5 本章小結(jié)
第5章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻
附錄
附錄1 數(shù)據(jù)源發(fā)現(xiàn)模型核心代碼
附錄2 數(shù)據(jù)源分類模型核心代碼
攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文及其它成果
致謝
本文編號:3813479
【文章頁數(shù)】:75 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 論文主要工作與章節(jié)安排
第2章 基于隨機森林的Deep Web數(shù)據(jù)源發(fā)現(xiàn)
2.1 網(wǎng)頁表單的特征提取
2.2 基于隨機森林的數(shù)據(jù)源發(fā)現(xiàn)
2.2.1 決策樹理論
2.2.2 集成學(xué)習(xí)
2.2.3 隨機森林模型
2.3 實驗與結(jié)果分析
2.3.1 實驗準備
2.3.2 實驗與結(jié)果分析
2.4 本章小結(jié)
第3章 Deep Web數(shù)據(jù)源分類
3.1 數(shù)據(jù)源的預(yù)處理
3.2 Word Embedding文本表示
3.2.1 CBOW模型
3.2.2 Skip-gram模型
3.3 基于N-gram模型的語義特征擴展
3.3.1 文本特征擴展
3.3.2 N-gram語言模型
3.3.3 模型訓(xùn)練與平滑方法
3.3.4 基于N-gram模型的特征擴展
3.4 特征擴展后的噪聲消除
3.5 基于注意力機制的Bi-LSTM數(shù)據(jù)源分類模型
3.5.1 Bi-LSTM模型
3.5.2 注意力機制的思想
3.5.3 數(shù)據(jù)源分類模型
3.6 實驗結(jié)果與分析
3.6.1 評價指標
3.6.2 Deep Web數(shù)據(jù)源特征擴展實驗
3.6.3 Deep Web數(shù)據(jù)源分類實驗
3.7 本章小結(jié)
第4章 Deep Web數(shù)據(jù)資源智能挖掘系統(tǒng)的設(shè)計與實現(xiàn)
4.1 總體設(shè)計與開發(fā)環(huán)境
4.1.1 系統(tǒng)總體設(shè)計
4.1.2 開發(fā)及運行環(huán)境
4.2 系統(tǒng)詳細設(shè)計
4.2.1 系統(tǒng)整體架構(gòu)
4.2.2 系統(tǒng)功能架構(gòu)
4.2.3 系統(tǒng)技術(shù)架構(gòu)
4.2.4 系統(tǒng)數(shù)據(jù)庫設(shè)計
4.3 系統(tǒng)實現(xiàn)
4.4 系統(tǒng)測試
4.5 本章小結(jié)
第5章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻
附錄
附錄1 數(shù)據(jù)源發(fā)現(xiàn)模型核心代碼
附錄2 數(shù)據(jù)源分類模型核心代碼
攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文及其它成果
致謝
本文編號:3813479
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3813479.html
最近更新
教材專著