異構(gòu)就業(yè)數(shù)據(jù)集成服務(wù)的設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2017-09-02 03:19
本文關(guān)鍵詞:異構(gòu)就業(yè)數(shù)據(jù)集成服務(wù)的設(shè)計(jì)與實(shí)現(xiàn)
更多相關(guān)文章: 異構(gòu)數(shù)據(jù)集成 OGSA-DAI Web 信息提取 VIPS算法
【摘要】:隨著互聯(lián)網(wǎng)的發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為了世界上最大、最豐富的數(shù)據(jù)源,其中蘊(yùn)含著大量的就業(yè)信息資源。這些資源不僅包含傳統(tǒng)數(shù)據(jù)庫這類的結(jié)構(gòu)化資源,還包括Web上廣泛應(yīng)用的半結(jié)構(gòu)化資源。但是由于這些數(shù)據(jù)源廣泛的異構(gòu)性和分布性,人們想要獲取一條需要的就業(yè)信息就變得十分困難。為了充分利用這些資源,方便人們的查詢,就需要將這些結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)在統(tǒng)一的平臺(tái)上進(jìn)行集成和訪問。異構(gòu)數(shù)據(jù)集成就是在這種情況下產(chǎn)生的。 本文從實(shí)現(xiàn)就業(yè)數(shù)據(jù)集成服務(wù)的角度,分別研究了具有代表性的結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)集成系統(tǒng),總結(jié)了各個(gè)系統(tǒng)的特點(diǎn)。針對結(jié)構(gòu)化數(shù)據(jù)集成問題,本文利用現(xiàn)有的網(wǎng)格技術(shù)和中間件集成思想,使用網(wǎng)格中間件OGSA-DAI實(shí)現(xiàn)了結(jié)構(gòu)化數(shù)據(jù)集成子系統(tǒng),解決了異構(gòu)數(shù)據(jù)庫信息的動(dòng)態(tài)更新問題。針對半結(jié)構(gòu)化數(shù)據(jù)集成問題,本文在基于視覺的網(wǎng)頁分塊算法基礎(chǔ)上,根據(jù)就業(yè)網(wǎng)站的特點(diǎn),設(shè)計(jì)了半結(jié)構(gòu)化數(shù)據(jù)集成子系統(tǒng),改進(jìn)了傳統(tǒng)網(wǎng)頁提取系統(tǒng)對頁面解析能力不足、適應(yīng)性差的缺點(diǎn)。 本文的就業(yè)數(shù)據(jù)集成分成兩大部分:結(jié)構(gòu)化就業(yè)數(shù)據(jù)集成和半結(jié)構(gòu)化就業(yè)數(shù)據(jù)集成。其中結(jié)構(gòu)化就業(yè)數(shù)據(jù)集成子系統(tǒng)采用XML作為統(tǒng)一元數(shù)據(jù)標(biāo)準(zhǔn),將就業(yè)信息數(shù)據(jù)與元數(shù)據(jù)進(jìn)行映射,實(shí)現(xiàn)異構(gòu)數(shù)據(jù)的統(tǒng)一存儲(chǔ)與查詢;采用OGSA-DAI中問件實(shí)現(xiàn)數(shù)據(jù)源注冊、數(shù)據(jù)查詢、元數(shù)據(jù)管理和數(shù)據(jù)更新等功能,有效屏蔽數(shù)據(jù)庫之間的差異,實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)集成。半結(jié)構(gòu)化就業(yè)數(shù)據(jù)集成子系統(tǒng)首先對網(wǎng)頁預(yù)處理,生成視覺樹;其次使用VIPS算法對頁面分塊,定位就業(yè)信息在網(wǎng)頁中位置,并通過人工配置,建立就業(yè)信息提取模板;最后利用XPath實(shí)現(xiàn)網(wǎng)頁就業(yè)信息的提取。 本文設(shè)計(jì)了一個(gè)就業(yè)領(lǐng)域的數(shù)據(jù)集成服務(wù)系統(tǒng),實(shí)現(xiàn)了結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)集成。構(gòu)建了一個(gè)就業(yè)數(shù)據(jù)集成系統(tǒng)原型,實(shí)驗(yàn)結(jié)果表明系統(tǒng)的設(shè)計(jì)方案是可行的。
【關(guān)鍵詞】:異構(gòu)數(shù)據(jù)集成 OGSA-DAI Web 信息提取 VIPS算法
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP393.09
【目錄】:
- 摘要4-5
- ABSTRACT5-9
- 第一章 緒論9-14
- 1.1 研究背景與意義9
- 1.2 研究現(xiàn)狀9-12
- 1.2.1 結(jié)構(gòu)化數(shù)據(jù)集成研究現(xiàn)狀9-11
- 1.2.2 半結(jié)構(gòu)化數(shù)據(jù)抽取研究現(xiàn)狀11-12
- 1.3 本文研究內(nèi)容12-13
- 1.4 本文組織結(jié)構(gòu)13-14
- 第二章 異構(gòu)數(shù)據(jù)集成關(guān)鍵技術(shù)14-30
- 2.1 OGSA14-15
- 2.2 OGSA的關(guān)鍵技術(shù)15-17
- 2.2.1 XML技術(shù)15-16
- 2.2.2 Web Service16-17
- 2.3 OGSA-DAI17-21
- 2.3.1 OGSA-DAI概述17-18
- 2.3.2 OGSA-DAI體系結(jié)構(gòu)18-19
- 2.3.3 OGSA-DAI的主要部件19-20
- 2.3.4 OGSA-DAI中間件服務(wù)20
- 2.3.5 OGSA-DAI的執(zhí)行流程20-21
- 2.4 Web信息提取21-23
- 2.4.1 Web信息提取概述21
- 2.4.2 信息提取體系結(jié)構(gòu)21-22
- 2.4.3 Web信息提取的評(píng)價(jià)標(biāo)準(zhǔn)22-23
- 2.5 Web信息提取相關(guān)技術(shù)23-24
- 2.5.1 HTML23
- 2.5.2 DOM23-24
- 2.6 VIPS24-29
- 2.6.1 VIPS概述24-25
- 2.6.2 VIPS算法描述25-26
- 2.6.3 VIPS算法流程26-29
- 2.7 本章小結(jié)29-30
- 第三章 就業(yè)數(shù)據(jù)集成系統(tǒng)設(shè)計(jì)30-54
- 3.1 背景需求30-31
- 3.2 困難和挑戰(zhàn)31
- 3.3 就業(yè)數(shù)據(jù)集成系統(tǒng)設(shè)計(jì)方案31-32
- 3.4 用戶查詢模塊32
- 3.5 結(jié)構(gòu)化就業(yè)數(shù)據(jù)集成子系統(tǒng)32-40
- 3.5.1 元數(shù)據(jù)管理模塊34-36
- 3.5.2 數(shù)據(jù)提取模塊36-38
- 3.5.3 數(shù)據(jù)集成總體流程38-40
- 3.6 半結(jié)構(gòu)化就業(yè)數(shù)據(jù)集成子系統(tǒng)40-52
- 3.6.1 頁面預(yù)處理模塊40-47
- 3.6.2 頁面信息規(guī)則生成模塊47-51
- 3.6.3 頁面信息提取模塊51-52
- 3.7 本章小結(jié)52-54
- 第四章 系統(tǒng)實(shí)現(xiàn)與分析54-62
- 4.1 開發(fā)環(huán)境和開發(fā)工具54
- 4.1.1 系統(tǒng)開發(fā)環(huán)境54
- 4.1.2 系統(tǒng)開發(fā)工具54
- 4.2 系統(tǒng)的實(shí)現(xiàn)與分析54-61
- 4.2.1 結(jié)構(gòu)化數(shù)據(jù)集成子系統(tǒng)54-57
- 4.2.2 半結(jié)構(gòu)化數(shù)據(jù)集成子系統(tǒng)57-61
- 4.3 本章小結(jié)61-62
- 第五章 總結(jié)與展望62-64
- 5.1 總結(jié)62-63
- 5.2 展望63-64
- 參考文獻(xiàn)64-67
- 致謝67-68
- 攻讀碩士學(xué)位期間的學(xué)術(shù)成果68
- 學(xué)位論文68
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前6條
1 陳少飛,郝亞南,李天柱,徐林昊,楊文柱;Web信息抽取技術(shù)研究進(jìn)展[J];河北大學(xué)學(xué)報(bào)(自然科學(xué)版);2003年01期
2 王茹,宋瀚濤,陸玉昌;網(wǎng)頁數(shù)據(jù)自動(dòng)抽取系統(tǒng)[J];計(jì)算機(jī)工程與應(yīng)用;2004年19期
3 李文奇,張忠能;頁面包裝器自動(dòng)生成的改進(jìn)算法[J];計(jì)算機(jī)工程與應(yīng)用;2004年22期
4 肖創(chuàng)柏;馮維文;劉時(shí)光;;基于語義表示的數(shù)據(jù)倉庫構(gòu)建方法[J];計(jì)算機(jī)工程;2007年10期
5 陳釗;張冬梅;;Web信息抽取技術(shù)綜述[J];計(jì)算機(jī)應(yīng)用研究;2010年12期
6 曹冬林;廖祥文;許洪波;白碩;;基于網(wǎng)頁格式信息量的博客文章和評(píng)論抽取模型[J];軟件學(xué)報(bào);2009年05期
,本文編號(hào):776075
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/776075.html
最近更新
教材專著