Deep Web數(shù)據(jù)資源智能挖掘系統(tǒng)
發(fā)布時(shí)間:2023-05-10 20:43
隨著互聯(lián)網(wǎng)的發(fā)展和信息技術(shù)的快速進(jìn)步,網(wǎng)絡(luò)已成為人們獲取信息的重要渠道。而在網(wǎng)絡(luò)環(huán)境中,與淺層網(wǎng)絡(luò)相比,Deep Web中包含的信息數(shù)量更多,質(zhì)量更高且一般是結(jié)構(gòu)化的。但是,Deep Web中的信息并不能被直接訪問(wèn)。所以,研究如何獲取并利用Deep Web中的信息就顯得十分必要。為了高效地利用Deep Web中的信息,本文提出了一種基于隨機(jī)森林的數(shù)據(jù)源發(fā)現(xiàn)方法和基于文本特征擴(kuò)展與提取的數(shù)據(jù)源分類(lèi)方法。文章的主要研究?jī)?nèi)容和取得的成果可總結(jié)如下:(1)提出了一種基于隨機(jī)森林模型的Deep Web數(shù)據(jù)源發(fā)現(xiàn)方法。首先通過(guò)分析網(wǎng)頁(yè)代碼及結(jié)構(gòu),總結(jié)得出了一系列網(wǎng)頁(yè)表單特征。之后,根據(jù)這些特征建立隨機(jī)森林模型用于將Deep Web數(shù)據(jù)源與其他網(wǎng)頁(yè)表單區(qū)分開(kāi),達(dá)到發(fā)現(xiàn)Deep Web數(shù)據(jù)源的目的。最后,在UIUC TEL-8數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明本文提出的方法可以準(zhǔn)確地完成數(shù)據(jù)源的發(fā)現(xiàn)。(2)針對(duì)Deep Web數(shù)據(jù)源中由于文本較少導(dǎo)致的特征稀疏問(wèn)題,提出了一種基于N-gram模型的特征擴(kuò)展方法。同時(shí),由于在特征擴(kuò)展過(guò)程中可能引入新的噪聲,本文利用Word2Vec進(jìn)行了噪聲消除。實(shí)驗(yàn)結(jié)果表...
【文章頁(yè)數(shù)】:75 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景和意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 論文主要工作與章節(jié)安排
第2章 基于隨機(jī)森林的Deep Web數(shù)據(jù)源發(fā)現(xiàn)
2.1 網(wǎng)頁(yè)表單的特征提取
2.2 基于隨機(jī)森林的數(shù)據(jù)源發(fā)現(xiàn)
2.2.1 決策樹(shù)理論
2.2.2 集成學(xué)習(xí)
2.2.3 隨機(jī)森林模型
2.3 實(shí)驗(yàn)與結(jié)果分析
2.3.1 實(shí)驗(yàn)準(zhǔn)備
2.3.2 實(shí)驗(yàn)與結(jié)果分析
2.4 本章小結(jié)
第3章 Deep Web數(shù)據(jù)源分類(lèi)
3.1 數(shù)據(jù)源的預(yù)處理
3.2 Word Embedding文本表示
3.2.1 CBOW模型
3.2.2 Skip-gram模型
3.3 基于N-gram模型的語(yǔ)義特征擴(kuò)展
3.3.1 文本特征擴(kuò)展
3.3.2 N-gram語(yǔ)言模型
3.3.3 模型訓(xùn)練與平滑方法
3.3.4 基于N-gram模型的特征擴(kuò)展
3.4 特征擴(kuò)展后的噪聲消除
3.5 基于注意力機(jī)制的Bi-LSTM數(shù)據(jù)源分類(lèi)模型
3.5.1 Bi-LSTM模型
3.5.2 注意力機(jī)制的思想
3.5.3 數(shù)據(jù)源分類(lèi)模型
3.6 實(shí)驗(yàn)結(jié)果與分析
3.6.1 評(píng)價(jià)指標(biāo)
3.6.2 Deep Web數(shù)據(jù)源特征擴(kuò)展實(shí)驗(yàn)
3.6.3 Deep Web數(shù)據(jù)源分類(lèi)實(shí)驗(yàn)
3.7 本章小結(jié)
第4章 Deep Web數(shù)據(jù)資源智能挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
4.1 總體設(shè)計(jì)與開(kāi)發(fā)環(huán)境
4.1.1 系統(tǒng)總體設(shè)計(jì)
4.1.2 開(kāi)發(fā)及運(yùn)行環(huán)境
4.2 系統(tǒng)詳細(xì)設(shè)計(jì)
4.2.1 系統(tǒng)整體架構(gòu)
4.2.2 系統(tǒng)功能架構(gòu)
4.2.3 系統(tǒng)技術(shù)架構(gòu)
4.2.4 系統(tǒng)數(shù)據(jù)庫(kù)設(shè)計(jì)
4.3 系統(tǒng)實(shí)現(xiàn)
4.4 系統(tǒng)測(cè)試
4.5 本章小結(jié)
第5章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻(xiàn)
附錄
附錄1 數(shù)據(jù)源發(fā)現(xiàn)模型核心代碼
附錄2 數(shù)據(jù)源分類(lèi)模型核心代碼
攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文及其它成果
致謝
本文編號(hào):3813479
【文章頁(yè)數(shù)】:75 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景和意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 論文主要工作與章節(jié)安排
第2章 基于隨機(jī)森林的Deep Web數(shù)據(jù)源發(fā)現(xiàn)
2.1 網(wǎng)頁(yè)表單的特征提取
2.2 基于隨機(jī)森林的數(shù)據(jù)源發(fā)現(xiàn)
2.2.1 決策樹(shù)理論
2.2.2 集成學(xué)習(xí)
2.2.3 隨機(jī)森林模型
2.3 實(shí)驗(yàn)與結(jié)果分析
2.3.1 實(shí)驗(yàn)準(zhǔn)備
2.3.2 實(shí)驗(yàn)與結(jié)果分析
2.4 本章小結(jié)
第3章 Deep Web數(shù)據(jù)源分類(lèi)
3.1 數(shù)據(jù)源的預(yù)處理
3.2 Word Embedding文本表示
3.2.1 CBOW模型
3.2.2 Skip-gram模型
3.3 基于N-gram模型的語(yǔ)義特征擴(kuò)展
3.3.1 文本特征擴(kuò)展
3.3.2 N-gram語(yǔ)言模型
3.3.3 模型訓(xùn)練與平滑方法
3.3.4 基于N-gram模型的特征擴(kuò)展
3.4 特征擴(kuò)展后的噪聲消除
3.5 基于注意力機(jī)制的Bi-LSTM數(shù)據(jù)源分類(lèi)模型
3.5.1 Bi-LSTM模型
3.5.2 注意力機(jī)制的思想
3.5.3 數(shù)據(jù)源分類(lèi)模型
3.6 實(shí)驗(yàn)結(jié)果與分析
3.6.1 評(píng)價(jià)指標(biāo)
3.6.2 Deep Web數(shù)據(jù)源特征擴(kuò)展實(shí)驗(yàn)
3.6.3 Deep Web數(shù)據(jù)源分類(lèi)實(shí)驗(yàn)
3.7 本章小結(jié)
第4章 Deep Web數(shù)據(jù)資源智能挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
4.1 總體設(shè)計(jì)與開(kāi)發(fā)環(huán)境
4.1.1 系統(tǒng)總體設(shè)計(jì)
4.1.2 開(kāi)發(fā)及運(yùn)行環(huán)境
4.2 系統(tǒng)詳細(xì)設(shè)計(jì)
4.2.1 系統(tǒng)整體架構(gòu)
4.2.2 系統(tǒng)功能架構(gòu)
4.2.3 系統(tǒng)技術(shù)架構(gòu)
4.2.4 系統(tǒng)數(shù)據(jù)庫(kù)設(shè)計(jì)
4.3 系統(tǒng)實(shí)現(xiàn)
4.4 系統(tǒng)測(cè)試
4.5 本章小結(jié)
第5章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻(xiàn)
附錄
附錄1 數(shù)據(jù)源發(fā)現(xiàn)模型核心代碼
附錄2 數(shù)據(jù)源分類(lèi)模型核心代碼
攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文及其它成果
致謝
本文編號(hào):3813479
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3813479.html
最近更新
教材專(zhuān)著