異構就業(yè)數(shù)據(jù)集成服務的設計與實現(xiàn)

發(fā)布時間：2017-09-02 03:19

本文關鍵詞：異構就業(yè)數(shù)據(jù)集成服務的設計與實現(xiàn)

【摘要】：隨著互聯(lián)網(wǎng)的發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為了世界上最大、最豐富的數(shù)據(jù)源,其中蘊含著大量的就業(yè)信息資源。這些資源不僅包含傳統(tǒng)數(shù)據(jù)庫這類的結構化資源,還包括Web上廣泛應用的半結構化資源。但是由于這些數(shù)據(jù)源廣泛的異構性和分布性,人們想要獲取一條需要的就業(yè)信息就變得十分困難。為了充分利用這些資源,方便人們的查詢,就需要將這些結構化和半結構化的數(shù)據(jù)在統(tǒng)一的平臺上進行集成和訪問。異構數(shù)據(jù)集成就是在這種情況下產(chǎn)生的。本文從實現(xiàn)就業(yè)數(shù)據(jù)集成服務的角度,分別研究了具有代表性的結構化和半結構化數(shù)據(jù)集成系統(tǒng),總結了各個系統(tǒng)的特點。針對結構化數(shù)據(jù)集成問題,本文利用現(xiàn)有的網(wǎng)格技術和中間件集成思想,使用網(wǎng)格中間件OGSA-DAI實現(xiàn)了結構化數(shù)據(jù)集成子系統(tǒng),解決了異構數(shù)據(jù)庫信息的動態(tài)更新問題。針對半結構化數(shù)據(jù)集成問題,本文在基于視覺的網(wǎng)頁分塊算法基礎上,根據(jù)就業(yè)網(wǎng)站的特點,設計了半結構化數(shù)據(jù)集成子系統(tǒng),改進了傳統(tǒng)網(wǎng)頁提取系統(tǒng)對頁面解析能力不足、適應性差的缺點。本文的就業(yè)數(shù)據(jù)集成分成兩大部分：結構化就業(yè)數(shù)據(jù)集成和半結構化就業(yè)數(shù)據(jù)集成。其中結構化就業(yè)數(shù)據(jù)集成子系統(tǒng)采用XML作為統(tǒng)一元數(shù)據(jù)標準,將就業(yè)信息數(shù)據(jù)與元數(shù)據(jù)進行映射,實現(xiàn)異構數(shù)據(jù)的統(tǒng)一存儲與查詢；采用OGSA-DAI中問件實現(xiàn)數(shù)據(jù)源注冊、數(shù)據(jù)查詢、元數(shù)據(jù)管理和數(shù)據(jù)更新等功能,有效屏蔽數(shù)據(jù)庫之間的差異,實現(xiàn)結構化數(shù)據(jù)集成。半結構化就業(yè)數(shù)據(jù)集成子系統(tǒng)首先對網(wǎng)頁預處理,生成視覺樹；其次使用VIPS算法對頁面分塊,定位就業(yè)信息在網(wǎng)頁中位置,并通過人工配置,建立就業(yè)信息提取模板；最后利用XPath實現(xiàn)網(wǎng)頁就業(yè)信息的提取。本文設計了一個就業(yè)領域的數(shù)據(jù)集成服務系統(tǒng),實現(xiàn)了結構化數(shù)據(jù)和半結構化數(shù)據(jù)的數(shù)據(jù)集成。構建了一個就業(yè)數(shù)據(jù)集成系統(tǒng)原型,實驗結果表明系統(tǒng)的設計方案是可行的。
【關鍵詞】：異構數(shù)據(jù)集成 OGSA-DAI Web 信息提取 VIPS算法
【學位授予單位】：北京郵電大學
【學位級別】：碩士
【學位授予年份】：2015
【分類號】：TP393.09
【目錄】：

摘要4-5
ABSTRACT5-9
第一章緒論9-14
1.1 研究背景與意義9
1.2 研究現(xiàn)狀9-12
1.2.1 結構化數(shù)據(jù)集成研究現(xiàn)狀9-11
1.2.2 半結構化數(shù)據(jù)抽取研究現(xiàn)狀11-12
1.3 本文研究內(nèi)容12-13
1.4 本文組織結構13-14
第二章異構數(shù)據(jù)集成關鍵技術14-30
2.1 OGSA14-15
2.2 OGSA的關鍵技術15-17
2.2.1 XML技術15-16
2.2.2 Web Service16-17
2.3 OGSA-DAI17-21
2.3.1 OGSA-DAI概述17-18
2.3.2 OGSA-DAI體系結構18-19
2.3.3 OGSA-DAI的主要部件19-20
2.3.4 OGSA-DAI中間件服務20
2.3.5 OGSA-DAI的執(zhí)行流程20-21
2.4 Web信息提取21-23
2.4.1 Web信息提取概述21
2.4.2 信息提取體系結構21-22
2.4.3 Web信息提取的評價標準22-23
2.5 Web信息提取相關技術23-24
2.5.1 HTML23
2.5.2 DOM23-24
2.6 VIPS24-29
2.6.1 VIPS概述24-25
2.6.2 VIPS算法描述25-26
2.6.3 VIPS算法流程26-29
2.7 本章小結29-30
第三章就業(yè)數(shù)據(jù)集成系統(tǒng)設計30-54
3.1 背景需求30-31
3.2 困難和挑戰(zhàn)31
3.3 就業(yè)數(shù)據(jù)集成系統(tǒng)設計方案31-32
3.4 用戶查詢模塊32
3.5 結構化就業(yè)數(shù)據(jù)集成子系統(tǒng)32-40
3.5.1 元數(shù)據(jù)管理模塊34-36
3.5.2 數(shù)據(jù)提取模塊36-38
3.5.3 數(shù)據(jù)集成總體流程38-40
3.6 半結構化就業(yè)數(shù)據(jù)集成子系統(tǒng)40-52
3.6.1 頁面預處理模塊40-47
3.6.2 頁面信息規(guī)則生成模塊47-51
3.6.3 頁面信息提取模塊51-52
3.7 本章小結52-54
第四章系統(tǒng)實現(xiàn)與分析54-62
4.1 開發(fā)環(huán)境和開發(fā)工具54
4.1.1 系統(tǒng)開發(fā)環(huán)境54
4.1.2 系統(tǒng)開發(fā)工具54
4.2 系統(tǒng)的實現(xiàn)與分析54-61
4.2.1 結構化數(shù)據(jù)集成子系統(tǒng)54-57
4.2.2 半結構化數(shù)據(jù)集成子系統(tǒng)57-61
4.3 本章小結61-62
第五章總結與展望62-64
5.1 總結62-63
5.2 展望63-64
參考文獻64-67
致謝67-68
攻讀碩士學位期間的學術成果68
學位論文68

【參考文獻】

中國期刊全文數(shù)據(jù)庫前6條

1 陳少飛,郝亞南,李天柱,徐林昊,楊文柱;Web信息抽取技術研究進展[J];河北大學學報(自然科學版);2003年01期

2 王茹,宋瀚濤,陸玉昌;網(wǎng)頁數(shù)據(jù)自動抽取系統(tǒng)[J];計算機工程與應用;2004年19期

3 李文奇,張忠能;頁面包裝器自動生成的改進算法[J];計算機工程與應用;2004年22期

4 肖創(chuàng)柏;馮維文;劉時光;;基于語義表示的數(shù)據(jù)倉庫構建方法[J];計算機工程;2007年10期

5 陳釗;張冬梅;;Web信息抽取技術綜述[J];計算機應用研究;2010年12期

6 曹冬林;廖祥文;許洪波;白碩;;基于網(wǎng)頁格式信息量的博客文章和評論抽取模型[J];軟件學報;2009年05期

，

本文編號：776075

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/ydhl/776075.html

上一篇：基于元胞遺傳算法的Web服務選擇
下一篇：基于社會網(wǎng)的合作算法設計與實現(xiàn)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

異構就業(yè)數(shù)據(jù)集成服務的設計與實現(xiàn)