天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

網(wǎng)絡(luò)文本數(shù)據(jù)異構(gòu)集成技術(shù)研究

發(fā)布時(shí)間:2017-09-20 01:17

  本文關(guān)鍵詞:網(wǎng)絡(luò)文本數(shù)據(jù)異構(gòu)集成技術(shù)研究


  更多相關(guān)文章: 網(wǎng)絡(luò)爬蟲(chóng) 數(shù)據(jù)異構(gòu) 語(yǔ)義分析 XML技術(shù) 數(shù)據(jù)集成


【摘要】:網(wǎng)絡(luò)爬蟲(chóng)技術(shù)在互聯(lián)網(wǎng)中運(yùn)用已經(jīng)是非常成熟,但其檢索結(jié)果的準(zhǔn)確性仍是搜索引擎急需解決的問(wèn)題,并且因互聯(lián)網(wǎng)web數(shù)據(jù)的特殊性和無(wú)結(jié)構(gòu)性,使得檢索數(shù)據(jù)不能按照一定的數(shù)據(jù)結(jié)構(gòu)存儲(chǔ),構(gòu)成了數(shù)據(jù)異構(gòu)集成的難題。本文研究?jī)?nèi)容是對(duì)主題網(wǎng)絡(luò)爬蟲(chóng)進(jìn)行改造,使得主題網(wǎng)絡(luò)爬蟲(chóng)能夠按照主題語(yǔ)義進(jìn)行抓取數(shù)據(jù),提高檢索結(jié)果的準(zhǔn)確率,并且對(duì)檢索結(jié)果進(jìn)行數(shù)據(jù)異構(gòu)集成。聚焦主題網(wǎng)絡(luò)爬蟲(chóng)是在基于主題網(wǎng)絡(luò)爬蟲(chóng)基礎(chǔ)上,利用正則表達(dá)式描述主題模型,結(jié)合改進(jìn)的TF-IDF算法,使得TF-IDF算法能夠根據(jù)主題語(yǔ)義進(jìn)行判斷網(wǎng)頁(yè)內(nèi)容,提高主題網(wǎng)絡(luò)爬蟲(chóng)的搜索數(shù)據(jù)的準(zhǔn)確性;谡Z(yǔ)義分析的垂直網(wǎng)絡(luò)爬蟲(chóng)是根據(jù)用戶輸入語(yǔ)義來(lái)搜索網(wǎng)絡(luò)資源信息,同時(shí)能智能的過(guò)濾掉無(wú)關(guān)信息,使得檢索出來(lái)的信息更加準(zhǔn)確和全面。實(shí)驗(yàn)數(shù)據(jù)表明,改進(jìn)的TF-IDF算法使得檢索結(jié)果的準(zhǔn)確率提高了10%。本系統(tǒng)使用的數(shù)據(jù)集成技術(shù)是基于擴(kuò)展標(biāo)記語(yǔ)言XML技術(shù)對(duì)檢索結(jié)果進(jìn)行集成。XML中間件數(shù)據(jù)交換技術(shù)已經(jīng)成為應(yīng)用間交換數(shù)據(jù)的一種標(biāo)準(zhǔn)。XML數(shù)據(jù)源的結(jié)構(gòu)多樣性,靈活性和適應(yīng)性,使得XML交換技術(shù)在數(shù)據(jù)異構(gòu)集技術(shù)研究中具有明顯優(yōu)勢(shì)。
【關(guān)鍵詞】:網(wǎng)絡(luò)爬蟲(chóng) 數(shù)據(jù)異構(gòu) 語(yǔ)義分析 XML技術(shù) 數(shù)據(jù)集成
【學(xué)位授予單位】:北方工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.3
【目錄】:
  • 摘要3-4
  • ABSTRACT4-8
  • 第一章 緒論8-11
  • 1.1 課題研究背景和意義8-9
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀9
  • 1.2.1 國(guó)內(nèi)外網(wǎng)絡(luò)爬蟲(chóng)研究現(xiàn)狀9
  • 1.2.2 國(guó)內(nèi)外數(shù)據(jù)異構(gòu)集成技術(shù)研究現(xiàn)狀9
  • 1.3 研究?jī)?nèi)容9-11
  • 1.3.1 基于語(yǔ)義分析的網(wǎng)絡(luò)爬蟲(chóng)9-10
  • 1.3.2 網(wǎng)絡(luò)文本數(shù)據(jù)自動(dòng)分析技術(shù)10
  • 1.3.3 數(shù)據(jù)異構(gòu)集成技術(shù)10-11
  • 第二章 相關(guān)理論和技術(shù)概念11-14
  • 2.1 網(wǎng)絡(luò)爬蟲(chóng)技術(shù)11
  • 2.2 數(shù)據(jù)異構(gòu)集成技術(shù)11-12
  • 2.3 典型數(shù)據(jù)集成技術(shù)12-14
  • 2.3.1 聯(lián)邦數(shù)據(jù)庫(kù)系統(tǒng)12
  • 2.3.2 數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)(DataWarehouse)12-13
  • 2.3.3 面向消息的中間件技術(shù)13
  • 2.3.4 XML技術(shù)13-14
  • 第三章 方案設(shè)計(jì)概念14-18
  • 3.1 數(shù)據(jù)采集模塊14-15
  • 3.1.1 數(shù)據(jù)抓取模塊14-15
  • 3.1.2 語(yǔ)義分析模塊15
  • 3.2 數(shù)據(jù)處理模塊15
  • 3.2.1 數(shù)據(jù)存儲(chǔ)15
  • 3.2.2 文件索引15
  • 3.3 數(shù)據(jù)集成模塊15-18
  • 3.3.1 XML生成模塊16
  • 3.3.2 XML分析模塊16-17
  • 3.3.3 XML關(guān)系映射模塊17
  • 3.3.4 XML整合模塊17-18
  • 第四章 TF-IDF改進(jìn)算法的聚焦網(wǎng)絡(luò)爬蟲(chóng)研究18-26
  • 4.1 聚焦主題網(wǎng)絡(luò)爬蟲(chóng)18
  • 4.2 基于語(yǔ)義分析的聚焦主題網(wǎng)絡(luò)爬蟲(chóng)18-19
  • 4.3 TF-IDF算法改進(jìn)19-22
  • 4.4 基于語(yǔ)義分析的聚焦主題網(wǎng)絡(luò)爬蟲(chóng)設(shè)計(jì)22-26
  • 4.4.1 語(yǔ)義庫(kù)22-24
  • 4.4.2 數(shù)據(jù)下載模塊24
  • 4.4.3 爬行控制模塊24-26
  • 第五章 數(shù)據(jù)異構(gòu)集成技術(shù)26-29
  • 5.1 網(wǎng)絡(luò)文檔數(shù)據(jù)結(jié)構(gòu)特征提取26-27
  • 5.2 XML文檔生成實(shí)現(xiàn)27-28
  • 5.3 基于XML數(shù)據(jù)集成28-29
  • 第六章 軟件實(shí)現(xiàn)29-47
  • 6.1 數(shù)據(jù)抓取29-41
  • 6.1.1 語(yǔ)義解析器31-35
  • 6.1.2 數(shù)據(jù)分析和抽取35
  • 6.1.3 TF-IDF改進(jìn)算法實(shí)現(xiàn)35-41
  • 6.2 文件系統(tǒng)和索引系統(tǒng)服務(wù)41-45
  • 6.2.1 文件系統(tǒng)服務(wù)42
  • 6.2.2 索引系統(tǒng)服務(wù)42-43
  • 6.2.3 文件和索引系統(tǒng)服務(wù)核心代碼43-45
  • 6.3 數(shù)據(jù)異構(gòu)集成45-47
  • 6.3.1 XML文件生成46
  • 6.3.2 XML文件分析46
  • 6.3.3 XML文件整合46-47
  • 第七章 系統(tǒng)測(cè)試和結(jié)果分析47-49
  • 7.1 系統(tǒng)測(cè)試47-48
  • 7.2 結(jié)果分析48-49
  • 第八章 結(jié)論與展望49-50
  • 8.1 總結(jié)和展望49-50
  • 參考文獻(xiàn)50-53
  • 在學(xué)期間的研究成果53-54
  • 致謝54

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條

1 胡濱;;基于XML的空間數(shù)據(jù)異構(gòu)共享與在線發(fā)布技術(shù)研究[J];現(xiàn)代機(jī)械;2010年05期

2 ;[J];;年期

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條

1 邱銅相;網(wǎng)絡(luò)文本數(shù)據(jù)異構(gòu)集成技術(shù)研究[D];北方工業(yè)大學(xué);2016年

2 張倩;基于XML與.NET的企業(yè)質(zhì)量數(shù)據(jù)異構(gòu)集成系統(tǒng)[D];昆明理工大學(xué);2007年

,

本文編號(hào):885042

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/885042.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1d26e***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com