異構就業(yè)數(shù)據(jù)集成服務的設計與實現(xiàn)
發(fā)布時間:2017-09-02 03:19
本文關鍵詞:異構就業(yè)數(shù)據(jù)集成服務的設計與實現(xiàn)
更多相關文章: 異構數(shù)據(jù)集成 OGSA-DAI Web 信息提取 VIPS算法
【摘要】:隨著互聯(lián)網(wǎng)的發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為了世界上最大、最豐富的數(shù)據(jù)源,其中蘊含著大量的就業(yè)信息資源。這些資源不僅包含傳統(tǒng)數(shù)據(jù)庫這類的結構化資源,還包括Web上廣泛應用的半結構化資源。但是由于這些數(shù)據(jù)源廣泛的異構性和分布性,人們想要獲取一條需要的就業(yè)信息就變得十分困難。為了充分利用這些資源,方便人們的查詢,就需要將這些結構化和半結構化的數(shù)據(jù)在統(tǒng)一的平臺上進行集成和訪問。異構數(shù)據(jù)集成就是在這種情況下產(chǎn)生的。 本文從實現(xiàn)就業(yè)數(shù)據(jù)集成服務的角度,分別研究了具有代表性的結構化和半結構化數(shù)據(jù)集成系統(tǒng),總結了各個系統(tǒng)的特點。針對結構化數(shù)據(jù)集成問題,本文利用現(xiàn)有的網(wǎng)格技術和中間件集成思想,使用網(wǎng)格中間件OGSA-DAI實現(xiàn)了結構化數(shù)據(jù)集成子系統(tǒng),解決了異構數(shù)據(jù)庫信息的動態(tài)更新問題。針對半結構化數(shù)據(jù)集成問題,本文在基于視覺的網(wǎng)頁分塊算法基礎上,根據(jù)就業(yè)網(wǎng)站的特點,設計了半結構化數(shù)據(jù)集成子系統(tǒng),改進了傳統(tǒng)網(wǎng)頁提取系統(tǒng)對頁面解析能力不足、適應性差的缺點。 本文的就業(yè)數(shù)據(jù)集成分成兩大部分:結構化就業(yè)數(shù)據(jù)集成和半結構化就業(yè)數(shù)據(jù)集成。其中結構化就業(yè)數(shù)據(jù)集成子系統(tǒng)采用XML作為統(tǒng)一元數(shù)據(jù)標準,將就業(yè)信息數(shù)據(jù)與元數(shù)據(jù)進行映射,實現(xiàn)異構數(shù)據(jù)的統(tǒng)一存儲與查詢;采用OGSA-DAI中問件實現(xiàn)數(shù)據(jù)源注冊、數(shù)據(jù)查詢、元數(shù)據(jù)管理和數(shù)據(jù)更新等功能,有效屏蔽數(shù)據(jù)庫之間的差異,實現(xiàn)結構化數(shù)據(jù)集成。半結構化就業(yè)數(shù)據(jù)集成子系統(tǒng)首先對網(wǎng)頁預處理,生成視覺樹;其次使用VIPS算法對頁面分塊,定位就業(yè)信息在網(wǎng)頁中位置,并通過人工配置,建立就業(yè)信息提取模板;最后利用XPath實現(xiàn)網(wǎng)頁就業(yè)信息的提取。 本文設計了一個就業(yè)領域的數(shù)據(jù)集成服務系統(tǒng),實現(xiàn)了結構化數(shù)據(jù)和半結構化數(shù)據(jù)的數(shù)據(jù)集成。構建了一個就業(yè)數(shù)據(jù)集成系統(tǒng)原型,實驗結果表明系統(tǒng)的設計方案是可行的。
【關鍵詞】:異構數(shù)據(jù)集成 OGSA-DAI Web 信息提取 VIPS算法
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP393.09
【目錄】:
- 摘要4-5
- ABSTRACT5-9
- 第一章 緒論9-14
- 1.1 研究背景與意義9
- 1.2 研究現(xiàn)狀9-12
- 1.2.1 結構化數(shù)據(jù)集成研究現(xiàn)狀9-11
- 1.2.2 半結構化數(shù)據(jù)抽取研究現(xiàn)狀11-12
- 1.3 本文研究內(nèi)容12-13
- 1.4 本文組織結構13-14
- 第二章 異構數(shù)據(jù)集成關鍵技術14-30
- 2.1 OGSA14-15
- 2.2 OGSA的關鍵技術15-17
- 2.2.1 XML技術15-16
- 2.2.2 Web Service16-17
- 2.3 OGSA-DAI17-21
- 2.3.1 OGSA-DAI概述17-18
- 2.3.2 OGSA-DAI體系結構18-19
- 2.3.3 OGSA-DAI的主要部件19-20
- 2.3.4 OGSA-DAI中間件服務20
- 2.3.5 OGSA-DAI的執(zhí)行流程20-21
- 2.4 Web信息提取21-23
- 2.4.1 Web信息提取概述21
- 2.4.2 信息提取體系結構21-22
- 2.4.3 Web信息提取的評價標準22-23
- 2.5 Web信息提取相關技術23-24
- 2.5.1 HTML23
- 2.5.2 DOM23-24
- 2.6 VIPS24-29
- 2.6.1 VIPS概述24-25
- 2.6.2 VIPS算法描述25-26
- 2.6.3 VIPS算法流程26-29
- 2.7 本章小結29-30
- 第三章 就業(yè)數(shù)據(jù)集成系統(tǒng)設計30-54
- 3.1 背景需求30-31
- 3.2 困難和挑戰(zhàn)31
- 3.3 就業(yè)數(shù)據(jù)集成系統(tǒng)設計方案31-32
- 3.4 用戶查詢模塊32
- 3.5 結構化就業(yè)數(shù)據(jù)集成子系統(tǒng)32-40
- 3.5.1 元數(shù)據(jù)管理模塊34-36
- 3.5.2 數(shù)據(jù)提取模塊36-38
- 3.5.3 數(shù)據(jù)集成總體流程38-40
- 3.6 半結構化就業(yè)數(shù)據(jù)集成子系統(tǒng)40-52
- 3.6.1 頁面預處理模塊40-47
- 3.6.2 頁面信息規(guī)則生成模塊47-51
- 3.6.3 頁面信息提取模塊51-52
- 3.7 本章小結52-54
- 第四章 系統(tǒng)實現(xiàn)與分析54-62
- 4.1 開發(fā)環(huán)境和開發(fā)工具54
- 4.1.1 系統(tǒng)開發(fā)環(huán)境54
- 4.1.2 系統(tǒng)開發(fā)工具54
- 4.2 系統(tǒng)的實現(xiàn)與分析54-61
- 4.2.1 結構化數(shù)據(jù)集成子系統(tǒng)54-57
- 4.2.2 半結構化數(shù)據(jù)集成子系統(tǒng)57-61
- 4.3 本章小結61-62
- 第五章 總結與展望62-64
- 5.1 總結62-63
- 5.2 展望63-64
- 參考文獻64-67
- 致謝67-68
- 攻讀碩士學位期間的學術成果68
- 學位論文68
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前6條
1 陳少飛,郝亞南,李天柱,徐林昊,楊文柱;Web信息抽取技術研究進展[J];河北大學學報(自然科學版);2003年01期
2 王茹,宋瀚濤,陸玉昌;網(wǎng)頁數(shù)據(jù)自動抽取系統(tǒng)[J];計算機工程與應用;2004年19期
3 李文奇,張忠能;頁面包裝器自動生成的改進算法[J];計算機工程與應用;2004年22期
4 肖創(chuàng)柏;馮維文;劉時光;;基于語義表示的數(shù)據(jù)倉庫構建方法[J];計算機工程;2007年10期
5 陳釗;張冬梅;;Web信息抽取技術綜述[J];計算機應用研究;2010年12期
6 曹冬林;廖祥文;許洪波;白碩;;基于網(wǎng)頁格式信息量的博客文章和評論抽取模型[J];軟件學報;2009年05期
,本文編號:776075
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/776075.html
最近更新
教材專著