網(wǎng)絡(luò)文本數(shù)據(jù)異構(gòu)集成技術(shù)研究
發(fā)布時(shí)間:2017-09-20 01:17
本文關(guān)鍵詞:網(wǎng)絡(luò)文本數(shù)據(jù)異構(gòu)集成技術(shù)研究
更多相關(guān)文章: 網(wǎng)絡(luò)爬蟲(chóng) 數(shù)據(jù)異構(gòu) 語(yǔ)義分析 XML技術(shù) 數(shù)據(jù)集成
【摘要】:網(wǎng)絡(luò)爬蟲(chóng)技術(shù)在互聯(lián)網(wǎng)中運(yùn)用已經(jīng)是非常成熟,但其檢索結(jié)果的準(zhǔn)確性仍是搜索引擎急需解決的問(wèn)題,并且因互聯(lián)網(wǎng)web數(shù)據(jù)的特殊性和無(wú)結(jié)構(gòu)性,使得檢索數(shù)據(jù)不能按照一定的數(shù)據(jù)結(jié)構(gòu)存儲(chǔ),構(gòu)成了數(shù)據(jù)異構(gòu)集成的難題。本文研究?jī)?nèi)容是對(duì)主題網(wǎng)絡(luò)爬蟲(chóng)進(jìn)行改造,使得主題網(wǎng)絡(luò)爬蟲(chóng)能夠按照主題語(yǔ)義進(jìn)行抓取數(shù)據(jù),提高檢索結(jié)果的準(zhǔn)確率,并且對(duì)檢索結(jié)果進(jìn)行數(shù)據(jù)異構(gòu)集成。聚焦主題網(wǎng)絡(luò)爬蟲(chóng)是在基于主題網(wǎng)絡(luò)爬蟲(chóng)基礎(chǔ)上,利用正則表達(dá)式描述主題模型,結(jié)合改進(jìn)的TF-IDF算法,使得TF-IDF算法能夠根據(jù)主題語(yǔ)義進(jìn)行判斷網(wǎng)頁(yè)內(nèi)容,提高主題網(wǎng)絡(luò)爬蟲(chóng)的搜索數(shù)據(jù)的準(zhǔn)確性;谡Z(yǔ)義分析的垂直網(wǎng)絡(luò)爬蟲(chóng)是根據(jù)用戶輸入語(yǔ)義來(lái)搜索網(wǎng)絡(luò)資源信息,同時(shí)能智能的過(guò)濾掉無(wú)關(guān)信息,使得檢索出來(lái)的信息更加準(zhǔn)確和全面。實(shí)驗(yàn)數(shù)據(jù)表明,改進(jìn)的TF-IDF算法使得檢索結(jié)果的準(zhǔn)確率提高了10%。本系統(tǒng)使用的數(shù)據(jù)集成技術(shù)是基于擴(kuò)展標(biāo)記語(yǔ)言XML技術(shù)對(duì)檢索結(jié)果進(jìn)行集成。XML中間件數(shù)據(jù)交換技術(shù)已經(jīng)成為應(yīng)用間交換數(shù)據(jù)的一種標(biāo)準(zhǔn)。XML數(shù)據(jù)源的結(jié)構(gòu)多樣性,靈活性和適應(yīng)性,使得XML交換技術(shù)在數(shù)據(jù)異構(gòu)集技術(shù)研究中具有明顯優(yōu)勢(shì)。
【關(guān)鍵詞】:網(wǎng)絡(luò)爬蟲(chóng) 數(shù)據(jù)異構(gòu) 語(yǔ)義分析 XML技術(shù) 數(shù)據(jù)集成
【學(xué)位授予單位】:北方工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.3
【目錄】:
- 摘要3-4
- ABSTRACT4-8
- 第一章 緒論8-11
- 1.1 課題研究背景和意義8-9
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀9
- 1.2.1 國(guó)內(nèi)外網(wǎng)絡(luò)爬蟲(chóng)研究現(xiàn)狀9
- 1.2.2 國(guó)內(nèi)外數(shù)據(jù)異構(gòu)集成技術(shù)研究現(xiàn)狀9
- 1.3 研究?jī)?nèi)容9-11
- 1.3.1 基于語(yǔ)義分析的網(wǎng)絡(luò)爬蟲(chóng)9-10
- 1.3.2 網(wǎng)絡(luò)文本數(shù)據(jù)自動(dòng)分析技術(shù)10
- 1.3.3 數(shù)據(jù)異構(gòu)集成技術(shù)10-11
- 第二章 相關(guān)理論和技術(shù)概念11-14
- 2.1 網(wǎng)絡(luò)爬蟲(chóng)技術(shù)11
- 2.2 數(shù)據(jù)異構(gòu)集成技術(shù)11-12
- 2.3 典型數(shù)據(jù)集成技術(shù)12-14
- 2.3.1 聯(lián)邦數(shù)據(jù)庫(kù)系統(tǒng)12
- 2.3.2 數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)(DataWarehouse)12-13
- 2.3.3 面向消息的中間件技術(shù)13
- 2.3.4 XML技術(shù)13-14
- 第三章 方案設(shè)計(jì)概念14-18
- 3.1 數(shù)據(jù)采集模塊14-15
- 3.1.1 數(shù)據(jù)抓取模塊14-15
- 3.1.2 語(yǔ)義分析模塊15
- 3.2 數(shù)據(jù)處理模塊15
- 3.2.1 數(shù)據(jù)存儲(chǔ)15
- 3.2.2 文件索引15
- 3.3 數(shù)據(jù)集成模塊15-18
- 3.3.1 XML生成模塊16
- 3.3.2 XML分析模塊16-17
- 3.3.3 XML關(guān)系映射模塊17
- 3.3.4 XML整合模塊17-18
- 第四章 TF-IDF改進(jìn)算法的聚焦網(wǎng)絡(luò)爬蟲(chóng)研究18-26
- 4.1 聚焦主題網(wǎng)絡(luò)爬蟲(chóng)18
- 4.2 基于語(yǔ)義分析的聚焦主題網(wǎng)絡(luò)爬蟲(chóng)18-19
- 4.3 TF-IDF算法改進(jìn)19-22
- 4.4 基于語(yǔ)義分析的聚焦主題網(wǎng)絡(luò)爬蟲(chóng)設(shè)計(jì)22-26
- 4.4.1 語(yǔ)義庫(kù)22-24
- 4.4.2 數(shù)據(jù)下載模塊24
- 4.4.3 爬行控制模塊24-26
- 第五章 數(shù)據(jù)異構(gòu)集成技術(shù)26-29
- 5.1 網(wǎng)絡(luò)文檔數(shù)據(jù)結(jié)構(gòu)特征提取26-27
- 5.2 XML文檔生成實(shí)現(xiàn)27-28
- 5.3 基于XML數(shù)據(jù)集成28-29
- 第六章 軟件實(shí)現(xiàn)29-47
- 6.1 數(shù)據(jù)抓取29-41
- 6.1.1 語(yǔ)義解析器31-35
- 6.1.2 數(shù)據(jù)分析和抽取35
- 6.1.3 TF-IDF改進(jìn)算法實(shí)現(xiàn)35-41
- 6.2 文件系統(tǒng)和索引系統(tǒng)服務(wù)41-45
- 6.2.1 文件系統(tǒng)服務(wù)42
- 6.2.2 索引系統(tǒng)服務(wù)42-43
- 6.2.3 文件和索引系統(tǒng)服務(wù)核心代碼43-45
- 6.3 數(shù)據(jù)異構(gòu)集成45-47
- 6.3.1 XML文件生成46
- 6.3.2 XML文件分析46
- 6.3.3 XML文件整合46-47
- 第七章 系統(tǒng)測(cè)試和結(jié)果分析47-49
- 7.1 系統(tǒng)測(cè)試47-48
- 7.2 結(jié)果分析48-49
- 第八章 結(jié)論與展望49-50
- 8.1 總結(jié)和展望49-50
- 參考文獻(xiàn)50-53
- 在學(xué)期間的研究成果53-54
- 致謝54
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條
1 胡濱;;基于XML的空間數(shù)據(jù)異構(gòu)共享與在線發(fā)布技術(shù)研究[J];現(xiàn)代機(jī)械;2010年05期
2 ;[J];;年期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條
1 邱銅相;網(wǎng)絡(luò)文本數(shù)據(jù)異構(gòu)集成技術(shù)研究[D];北方工業(yè)大學(xué);2016年
2 張倩;基于XML與.NET的企業(yè)質(zhì)量數(shù)據(jù)異構(gòu)集成系統(tǒng)[D];昆明理工大學(xué);2007年
,本文編號(hào):885042
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/885042.html
最近更新
教材專著