天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

異構就業(yè)數(shù)據(jù)集成服務的設計與實現(xiàn)

發(fā)布時間:2017-09-02 03:19

  本文關鍵詞:異構就業(yè)數(shù)據(jù)集成服務的設計與實現(xiàn)


  更多相關文章: 異構數(shù)據(jù)集成 OGSA-DAI Web 信息提取 VIPS算法


【摘要】:隨著互聯(lián)網(wǎng)的發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為了世界上最大、最豐富的數(shù)據(jù)源,其中蘊含著大量的就業(yè)信息資源。這些資源不僅包含傳統(tǒng)數(shù)據(jù)庫這類的結構化資源,還包括Web上廣泛應用的半結構化資源。但是由于這些數(shù)據(jù)源廣泛的異構性和分布性,人們想要獲取一條需要的就業(yè)信息就變得十分困難。為了充分利用這些資源,方便人們的查詢,就需要將這些結構化和半結構化的數(shù)據(jù)在統(tǒng)一的平臺上進行集成和訪問。異構數(shù)據(jù)集成就是在這種情況下產(chǎn)生的。 本文從實現(xiàn)就業(yè)數(shù)據(jù)集成服務的角度,分別研究了具有代表性的結構化和半結構化數(shù)據(jù)集成系統(tǒng),總結了各個系統(tǒng)的特點。針對結構化數(shù)據(jù)集成問題,本文利用現(xiàn)有的網(wǎng)格技術和中間件集成思想,使用網(wǎng)格中間件OGSA-DAI實現(xiàn)了結構化數(shù)據(jù)集成子系統(tǒng),解決了異構數(shù)據(jù)庫信息的動態(tài)更新問題。針對半結構化數(shù)據(jù)集成問題,本文在基于視覺的網(wǎng)頁分塊算法基礎上,根據(jù)就業(yè)網(wǎng)站的特點,設計了半結構化數(shù)據(jù)集成子系統(tǒng),改進了傳統(tǒng)網(wǎng)頁提取系統(tǒng)對頁面解析能力不足、適應性差的缺點。 本文的就業(yè)數(shù)據(jù)集成分成兩大部分:結構化就業(yè)數(shù)據(jù)集成和半結構化就業(yè)數(shù)據(jù)集成。其中結構化就業(yè)數(shù)據(jù)集成子系統(tǒng)采用XML作為統(tǒng)一元數(shù)據(jù)標準,將就業(yè)信息數(shù)據(jù)與元數(shù)據(jù)進行映射,實現(xiàn)異構數(shù)據(jù)的統(tǒng)一存儲與查詢;采用OGSA-DAI中問件實現(xiàn)數(shù)據(jù)源注冊、數(shù)據(jù)查詢、元數(shù)據(jù)管理和數(shù)據(jù)更新等功能,有效屏蔽數(shù)據(jù)庫之間的差異,實現(xiàn)結構化數(shù)據(jù)集成。半結構化就業(yè)數(shù)據(jù)集成子系統(tǒng)首先對網(wǎng)頁預處理,生成視覺樹;其次使用VIPS算法對頁面分塊,定位就業(yè)信息在網(wǎng)頁中位置,并通過人工配置,建立就業(yè)信息提取模板;最后利用XPath實現(xiàn)網(wǎng)頁就業(yè)信息的提取。 本文設計了一個就業(yè)領域的數(shù)據(jù)集成服務系統(tǒng),實現(xiàn)了結構化數(shù)據(jù)和半結構化數(shù)據(jù)的數(shù)據(jù)集成。構建了一個就業(yè)數(shù)據(jù)集成系統(tǒng)原型,實驗結果表明系統(tǒng)的設計方案是可行的。
【關鍵詞】:異構數(shù)據(jù)集成 OGSA-DAI Web 信息提取 VIPS算法
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP393.09
【目錄】:
  • 摘要4-5
  • ABSTRACT5-9
  • 第一章 緒論9-14
  • 1.1 研究背景與意義9
  • 1.2 研究現(xiàn)狀9-12
  • 1.2.1 結構化數(shù)據(jù)集成研究現(xiàn)狀9-11
  • 1.2.2 半結構化數(shù)據(jù)抽取研究現(xiàn)狀11-12
  • 1.3 本文研究內(nèi)容12-13
  • 1.4 本文組織結構13-14
  • 第二章 異構數(shù)據(jù)集成關鍵技術14-30
  • 2.1 OGSA14-15
  • 2.2 OGSA的關鍵技術15-17
  • 2.2.1 XML技術15-16
  • 2.2.2 Web Service16-17
  • 2.3 OGSA-DAI17-21
  • 2.3.1 OGSA-DAI概述17-18
  • 2.3.2 OGSA-DAI體系結構18-19
  • 2.3.3 OGSA-DAI的主要部件19-20
  • 2.3.4 OGSA-DAI中間件服務20
  • 2.3.5 OGSA-DAI的執(zhí)行流程20-21
  • 2.4 Web信息提取21-23
  • 2.4.1 Web信息提取概述21
  • 2.4.2 信息提取體系結構21-22
  • 2.4.3 Web信息提取的評價標準22-23
  • 2.5 Web信息提取相關技術23-24
  • 2.5.1 HTML23
  • 2.5.2 DOM23-24
  • 2.6 VIPS24-29
  • 2.6.1 VIPS概述24-25
  • 2.6.2 VIPS算法描述25-26
  • 2.6.3 VIPS算法流程26-29
  • 2.7 本章小結29-30
  • 第三章 就業(yè)數(shù)據(jù)集成系統(tǒng)設計30-54
  • 3.1 背景需求30-31
  • 3.2 困難和挑戰(zhàn)31
  • 3.3 就業(yè)數(shù)據(jù)集成系統(tǒng)設計方案31-32
  • 3.4 用戶查詢模塊32
  • 3.5 結構化就業(yè)數(shù)據(jù)集成子系統(tǒng)32-40
  • 3.5.1 元數(shù)據(jù)管理模塊34-36
  • 3.5.2 數(shù)據(jù)提取模塊36-38
  • 3.5.3 數(shù)據(jù)集成總體流程38-40
  • 3.6 半結構化就業(yè)數(shù)據(jù)集成子系統(tǒng)40-52
  • 3.6.1 頁面預處理模塊40-47
  • 3.6.2 頁面信息規(guī)則生成模塊47-51
  • 3.6.3 頁面信息提取模塊51-52
  • 3.7 本章小結52-54
  • 第四章 系統(tǒng)實現(xiàn)與分析54-62
  • 4.1 開發(fā)環(huán)境和開發(fā)工具54
  • 4.1.1 系統(tǒng)開發(fā)環(huán)境54
  • 4.1.2 系統(tǒng)開發(fā)工具54
  • 4.2 系統(tǒng)的實現(xiàn)與分析54-61
  • 4.2.1 結構化數(shù)據(jù)集成子系統(tǒng)54-57
  • 4.2.2 半結構化數(shù)據(jù)集成子系統(tǒng)57-61
  • 4.3 本章小結61-62
  • 第五章 總結與展望62-64
  • 5.1 總結62-63
  • 5.2 展望63-64
  • 參考文獻64-67
  • 致謝67-68
  • 攻讀碩士學位期間的學術成果68
  • 學位論文68

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前6條

1 陳少飛,郝亞南,李天柱,徐林昊,楊文柱;Web信息抽取技術研究進展[J];河北大學學報(自然科學版);2003年01期

2 王茹,宋瀚濤,陸玉昌;網(wǎng)頁數(shù)據(jù)自動抽取系統(tǒng)[J];計算機工程與應用;2004年19期

3 李文奇,張忠能;頁面包裝器自動生成的改進算法[J];計算機工程與應用;2004年22期

4 肖創(chuàng)柏;馮維文;劉時光;;基于語義表示的數(shù)據(jù)倉庫構建方法[J];計算機工程;2007年10期

5 陳釗;張冬梅;;Web信息抽取技術綜述[J];計算機應用研究;2010年12期

6 曹冬林;廖祥文;許洪波;白碩;;基于網(wǎng)頁格式信息量的博客文章和評論抽取模型[J];軟件學報;2009年05期

,

本文編號:776075

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/776075.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶c17d9***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com