基于WEB元數(shù)據(jù)抽取的ETL資源整合模型研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-10-16 11:38
數(shù)字資源整合是目前圖書館界數(shù)字化建設(shè)的一個(gè)重要方面。隨著數(shù)字資源的不斷增長(zhǎng),圖書館對(duì)資源管理的難度和工作量也在加大,用戶在浩如煙海的數(shù)字資源面前也感覺到使用的不便。用戶希望能夠通過(guò)統(tǒng)一的檢索界面,方便快捷地利用到圖書館所有分布式資源,包括電子圖書、電子期刊等學(xué)術(shù)資源,以及文摘題錄、專利成果和其他網(wǎng)上教學(xué)資源、會(huì)議錄等形式各異的數(shù)字資源,希望圖書館提供一站式的信息服務(wù)。這就是資源整合要解決的問(wèn)題。本文在依托湖南師范大學(xué)“數(shù)字圖書館”建設(shè)項(xiàng)目的基礎(chǔ)之上,對(duì)ETL數(shù)據(jù)抽取模型進(jìn)行深入研究后,給出了基于WEB元數(shù)據(jù)抽取的數(shù)字資源整合系統(tǒng)的實(shí)現(xiàn)模型。論文主要圍繞數(shù)字圖書館元數(shù)據(jù)整合解決方案,首先簡(jiǎn)單回顧了國(guó)內(nèi)外資源整合的現(xiàn)狀;接著對(duì)資源整合的內(nèi)容、模式等進(jìn)行了理論分析,重點(diǎn)探討了基于元數(shù)據(jù)倉(cāng)庫(kù)的資源整合模式;然后借助于ETL抽取模型,詳細(xì)介紹了WEB元數(shù)據(jù)抽取的相關(guān)技術(shù),包括HTML、XHTML、XML、DOM、JAXP等;接著分析了WEB信息抽取的流程,分為樣本頁(yè)面提取與規(guī)則庫(kù)的生成、HTML頁(yè)面清洗、噪音處理、DOM樹解析、XML到數(shù)據(jù)庫(kù)的轉(zhuǎn)換存儲(chǔ)等過(guò)程;最后結(jié)合這些相關(guān)技術(shù)和JDK、Ecl...
【文章來(lái)源】:湖南師范大學(xué)湖南省 211工程院校
【文章頁(yè)數(shù)】:81 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 主要研究?jī)?nèi)容
1.4 論文的組織結(jié)構(gòu)
第二章 數(shù)字資源整合概述
2.1 數(shù)字資源整合的概念
2.2 數(shù)字資源整合的內(nèi)容
2.2.1 按資源來(lái)源劃分
2.2.2 按文獻(xiàn)類型劃分
2.3 數(shù)字資源整合的必要性分析
2.4 數(shù)字資源整合的作用
2.5 數(shù)字資源整合的原則
2.6 數(shù)字資源整合的模式
2.6.1 基于導(dǎo)航系統(tǒng)的資源整合
2.6.2 基于OPAC系統(tǒng)的資源整合
2.6.3 基于跨庫(kù)檢索的資源整合
2.6.4 基于中間件的資源整合
2.6.5 基于元數(shù)據(jù)倉(cāng)庫(kù)的資源整合
第三章 基于元數(shù)據(jù)倉(cāng)庫(kù)的資源整合模型研究
3.1 基于元數(shù)據(jù)倉(cāng)庫(kù)的資源整合解決方案
3.2 ETL整合模型
3.2.1 ETL概念
3.2.2 ETL數(shù)據(jù)抽取機(jī)制
3.2.3 ETL體系結(jié)構(gòu)
3.2.4 ETL工具
3.3 數(shù)據(jù)庫(kù)設(shè)計(jì)
3.3.1 數(shù)據(jù)庫(kù)需求分析
3.3.2 數(shù)據(jù)庫(kù)結(jié)構(gòu)設(shè)計(jì)
3.3.3 數(shù)據(jù)采集模式分析
第四章 WEB元數(shù)據(jù)抽取模式實(shí)現(xiàn)
4.1 Web信息抽取概述
4.1.1 Web信息抽取的相關(guān)概念
4.1.2 Web信息抽取方式的分類
4.2 WEB信息抽取的相關(guān)技術(shù)
4.2.1 HTML
4.2.2 XML
4.2.3 XHTML
4.2.4 DOM
4.3 WEB信息抽取的實(shí)現(xiàn)
4.3.1 WEB信息抽取包裝器的構(gòu)造
4.3.2 WEB抽取的基本流程
4.3.3 通過(guò)樣本頁(yè)面,生成規(guī)則庫(kù)
4.3.4 獲取整個(gè)網(wǎng)頁(yè)的內(nèi)容
4.3.5 頁(yè)面清洗與轉(zhuǎn)換工作
4.3.6 DOM樹解析
4.3.7 XML到數(shù)據(jù)庫(kù)的轉(zhuǎn)換
第五章 系統(tǒng)設(shè)計(jì)與運(yùn)行實(shí)例
5.1 總體設(shè)計(jì)
5.2 開發(fā)工具
5.3 包裝器界面
5.3.1 包裝器運(yùn)行界面
5.3.2 數(shù)據(jù)結(jié)果
5.4 集成檢索界面與結(jié)果
第六章 總結(jié)與展望
參考文獻(xiàn)
附錄
致謝
【參考文獻(xiàn)】:
期刊論文
[1]對(duì)WebFeat Express的認(rèn)識(shí)、實(shí)踐與思考[J]. 李欣. 圖書館學(xué)研究. 2010(02)
[2]ETL中的數(shù)據(jù)增量抽取機(jī)制研究[J]. 戴浩,楊波. 計(jì)算機(jī)工程與設(shè)計(jì). 2009(23)
[3]圖書館數(shù)字信息資源整合模式探究[J]. 陳永選,鄭樂(lè)丹. 四川圖書館學(xué)報(bào). 2008(02)
[4]基于Web的信息抽取技術(shù)研究綜述[J]. 蒲筱哥. 現(xiàn)代情報(bào). 2007(10)
[5]CALIS數(shù)字圖書館資源統(tǒng)一檢索系統(tǒng)評(píng)價(jià)研究[J]. 張宏亮. 圖書館學(xué)研究. 2007(10)
[6]數(shù)字資源整合技術(shù)在數(shù)字圖書館建設(shè)中的應(yīng)用[J]. 彭澤華. 高校圖書館工作. 2007(05)
[7]高校圖書館數(shù)字資源體系建設(shè)淺析[J]. 朱嘉嘉. 科技情報(bào)開發(fā)與經(jīng)濟(jì). 2007(15)
[8]TRS數(shù)據(jù)庫(kù)統(tǒng)一檢索平臺(tái)的應(yīng)用分析[J]. 馮潔,詹穎. 貴圖學(xué)刊. 2006(04)
[9]ETL技術(shù)及其在數(shù)字圖書館中的應(yīng)用研究[J]. 黃永文,李廣建. 圖書館雜志. 2006(02)
[10]信息資源整合的建模與實(shí)現(xiàn)方法研究[J]. 章成志,蘇新寧. 現(xiàn)代圖書情報(bào)技術(shù). 2005(10)
本文編號(hào):3439742
【文章來(lái)源】:湖南師范大學(xué)湖南省 211工程院校
【文章頁(yè)數(shù)】:81 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 主要研究?jī)?nèi)容
1.4 論文的組織結(jié)構(gòu)
第二章 數(shù)字資源整合概述
2.1 數(shù)字資源整合的概念
2.2 數(shù)字資源整合的內(nèi)容
2.2.1 按資源來(lái)源劃分
2.2.2 按文獻(xiàn)類型劃分
2.3 數(shù)字資源整合的必要性分析
2.4 數(shù)字資源整合的作用
2.5 數(shù)字資源整合的原則
2.6 數(shù)字資源整合的模式
2.6.1 基于導(dǎo)航系統(tǒng)的資源整合
2.6.2 基于OPAC系統(tǒng)的資源整合
2.6.3 基于跨庫(kù)檢索的資源整合
2.6.4 基于中間件的資源整合
2.6.5 基于元數(shù)據(jù)倉(cāng)庫(kù)的資源整合
第三章 基于元數(shù)據(jù)倉(cāng)庫(kù)的資源整合模型研究
3.1 基于元數(shù)據(jù)倉(cāng)庫(kù)的資源整合解決方案
3.2 ETL整合模型
3.2.1 ETL概念
3.2.2 ETL數(shù)據(jù)抽取機(jī)制
3.2.3 ETL體系結(jié)構(gòu)
3.2.4 ETL工具
3.3 數(shù)據(jù)庫(kù)設(shè)計(jì)
3.3.1 數(shù)據(jù)庫(kù)需求分析
3.3.2 數(shù)據(jù)庫(kù)結(jié)構(gòu)設(shè)計(jì)
3.3.3 數(shù)據(jù)采集模式分析
第四章 WEB元數(shù)據(jù)抽取模式實(shí)現(xiàn)
4.1 Web信息抽取概述
4.1.1 Web信息抽取的相關(guān)概念
4.1.2 Web信息抽取方式的分類
4.2 WEB信息抽取的相關(guān)技術(shù)
4.2.1 HTML
4.2.2 XML
4.2.3 XHTML
4.2.4 DOM
4.3 WEB信息抽取的實(shí)現(xiàn)
4.3.1 WEB信息抽取包裝器的構(gòu)造
4.3.2 WEB抽取的基本流程
4.3.3 通過(guò)樣本頁(yè)面,生成規(guī)則庫(kù)
4.3.4 獲取整個(gè)網(wǎng)頁(yè)的內(nèi)容
4.3.5 頁(yè)面清洗與轉(zhuǎn)換工作
4.3.6 DOM樹解析
4.3.7 XML到數(shù)據(jù)庫(kù)的轉(zhuǎn)換
第五章 系統(tǒng)設(shè)計(jì)與運(yùn)行實(shí)例
5.1 總體設(shè)計(jì)
5.2 開發(fā)工具
5.3 包裝器界面
5.3.1 包裝器運(yùn)行界面
5.3.2 數(shù)據(jù)結(jié)果
5.4 集成檢索界面與結(jié)果
第六章 總結(jié)與展望
參考文獻(xiàn)
附錄
致謝
【參考文獻(xiàn)】:
期刊論文
[1]對(duì)WebFeat Express的認(rèn)識(shí)、實(shí)踐與思考[J]. 李欣. 圖書館學(xué)研究. 2010(02)
[2]ETL中的數(shù)據(jù)增量抽取機(jī)制研究[J]. 戴浩,楊波. 計(jì)算機(jī)工程與設(shè)計(jì). 2009(23)
[3]圖書館數(shù)字信息資源整合模式探究[J]. 陳永選,鄭樂(lè)丹. 四川圖書館學(xué)報(bào). 2008(02)
[4]基于Web的信息抽取技術(shù)研究綜述[J]. 蒲筱哥. 現(xiàn)代情報(bào). 2007(10)
[5]CALIS數(shù)字圖書館資源統(tǒng)一檢索系統(tǒng)評(píng)價(jià)研究[J]. 張宏亮. 圖書館學(xué)研究. 2007(10)
[6]數(shù)字資源整合技術(shù)在數(shù)字圖書館建設(shè)中的應(yīng)用[J]. 彭澤華. 高校圖書館工作. 2007(05)
[7]高校圖書館數(shù)字資源體系建設(shè)淺析[J]. 朱嘉嘉. 科技情報(bào)開發(fā)與經(jīng)濟(jì). 2007(15)
[8]TRS數(shù)據(jù)庫(kù)統(tǒng)一檢索平臺(tái)的應(yīng)用分析[J]. 馮潔,詹穎. 貴圖學(xué)刊. 2006(04)
[9]ETL技術(shù)及其在數(shù)字圖書館中的應(yīng)用研究[J]. 黃永文,李廣建. 圖書館雜志. 2006(02)
[10]信息資源整合的建模與實(shí)現(xiàn)方法研究[J]. 章成志,蘇新寧. 現(xiàn)代圖書情報(bào)技術(shù). 2005(10)
本文編號(hào):3439742
本文鏈接:http://sikaile.net/tushudanganlunwen/3439742.html
最近更新
教材專著