開放存取期刊論文自動采集方法的研究
本文關(guān)鍵詞:開放存取期刊論文自動采集方法的研究,由筆耕文化傳播整理發(fā)布。
【摘要】:在以互聯(lián)網(wǎng)上的開放存取OA (Open Access)期刊論文為信息源創(chuàng)建數(shù)字資源庫時,需要解決的一個關(guān)鍵問題就是OA期刊論文的自動采集。由于OA期刊網(wǎng)站散落分布在網(wǎng)絡(luò)的各個地方,從而制約了OA期刊應(yīng)有效能的發(fā)揮。因此,OA期刊資源的獲取成為當(dāng)前圖書館數(shù)字資源庫建設(shè)中的熱點研究對象。本文在前人的研究基礎(chǔ)上,主要做了以下幾方面的研究。 首先,,針對傳統(tǒng)的網(wǎng)絡(luò)信息采集框架因采集目標(biāo)數(shù)據(jù)源不同而不能直接應(yīng)用于OA期刊論文采集的問題,提出了一種開放存取期刊論文的自動采集框架。首先,設(shè)計了OA期刊論文自動采集系統(tǒng)的總體架構(gòu)、總體模塊以及闡述了各模塊間的關(guān)系;其次介紹了系統(tǒng)的工作流程和系統(tǒng)的性能指標(biāo)及工作原理;最后探討了框架中主要模塊的設(shè)計思想及采集系統(tǒng)構(gòu)建中遇到的關(guān)鍵問題及解決辦法。 其次,本文在對大量OA期刊網(wǎng)站頁面結(jié)構(gòu)進行認真分析和研究的基礎(chǔ)上,提出了一種基于網(wǎng)頁分塊的卷期目錄鏈接提取方法,該方法利用卷期目錄鏈接成塊、基于Table和Div布局的特點,進行網(wǎng)頁分塊,然后通過基于子樹相似度合并相似子塊對網(wǎng)頁語義塊進行劃分,最后根據(jù)卷期目錄鏈接的特征識別出目錄鏈接,實驗證明了該方法能夠有效的提取出卷期目錄鏈接。 最后,在以上研究工作的基礎(chǔ)上,實現(xiàn)了原型系統(tǒng),并在原型系統(tǒng)上進行了實驗,對該系統(tǒng)的采集精度和采集效率、卷期目錄鏈接識別算法等方面進行了實驗驗證及分析。
【關(guān)鍵詞】:開放存取 OA期刊 自動采集 采集框架 目錄鏈接 鏈接提取
【學(xué)位授予單位】:燕山大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP393.09
【目錄】:
- 摘要5-6
- Abstract6-10
- 第1章 緒論10-16
- 1.1 課題背景及意義10-11
- 1.2 國內(nèi)外研究現(xiàn)狀11-13
- 1.2.1 OA 資源利用與發(fā)展現(xiàn)狀11-12
- 1.2.2 Web 信息資源采集研究現(xiàn)狀12-13
- 1.3 本文的主要研究內(nèi)容13-14
- 1.4 本文組織結(jié)構(gòu)14-16
- 第2章 基礎(chǔ)知識和相關(guān)技術(shù)16-26
- 2.1 HTML 基礎(chǔ)16-19
- 2.1.1 HTML 簡介16
- 2.1.2 HTML DOM 樹16-18
- 2.1.3 HTML 解析工具的介紹18-19
- 2.2 HTTP 協(xié)議分析19-20
- 2.2.1 HTTP 協(xié)議概述19
- 2.2.2 HTTP 協(xié)議報頭信息19-20
- 2.3 網(wǎng)絡(luò)爬蟲技術(shù)介紹20-22
- 2.4 Web 信息抽取技術(shù)22-25
- 2.5 本章小結(jié)25-26
- 第3章 OA 期刊論文自動采集框架的設(shè)計26-38
- 3.1 OA 期刊論文自動采集框架26-30
- 3.1.1 采集系統(tǒng)的總體架構(gòu)26-27
- 3.1.2 系統(tǒng)總體模塊27-28
- 3.1.3 系統(tǒng)工作流程28-29
- 3.1.4 系統(tǒng)的性能指標(biāo)及工作原理29-30
- 3.2 采集系統(tǒng)中的主要模塊及關(guān)鍵問題30-36
- 3.2.1 頁面更新檢測模塊30-32
- 3.2.2 論文采集模塊32-35
- 3.2.3 采集系統(tǒng)中的關(guān)鍵問題35-36
- 3.3 本章小結(jié)36-38
- 第4章 OA 期刊卷期目錄鏈接的提取方法38-49
- 4.1 問題描述38-39
- 4.2 問題解決方法39
- 4.3 基于網(wǎng)頁原子分割和內(nèi)容塊聚類的網(wǎng)頁分塊方法39-43
- 4.3.1 網(wǎng)頁的原子分割39-41
- 4.3.2 原子內(nèi)容塊聚類41-43
- 4.4 卷期目錄鏈接塊的識別算法43-47
- 4.4.1 相關(guān)定義43-44
- 4.4.2 鏈接文本相似度的計算44
- 4.4.3 Bayes 后驗概率的計算44-46
- 4.4.4 卷期目錄鏈接的識別算法46-47
- 4.5 本章小結(jié)47-49
- 第5章 實驗驗證與分析49-58
- 5.1 實驗環(huán)境的搭建49-51
- 5.1.1 系統(tǒng)環(huán)境的配置49-50
- 5.1.2 系統(tǒng)整體界面50-51
- 5.1.3 OA 期刊站點服務(wù)注冊51
- 5.2 實驗數(shù)據(jù)來源及評價標(biāo)準(zhǔn)51-52
- 5.2.1 實驗數(shù)據(jù)來源51
- 5.2.2 實驗評價標(biāo)準(zhǔn)51-52
- 5.3 卷期目錄鏈接提取方法的驗證52-54
- 5.3.1 網(wǎng)頁分塊算法的對比分析52-53
- 5.3.2 卷期目錄鏈接識別和提取算法的驗證53-54
- 5.4 自動采集系統(tǒng)性能的分析54-57
- 5.5 本章小結(jié)57-58
- 結(jié)論58-60
- 參考文獻60-64
- 攻讀碩士學(xué)位期間承擔(dān)的科研任務(wù)與主要成果64-65
- 致謝65-66
- 作者簡介66
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 程維紅;任勝利;;中國科技期刊開放存取出版現(xiàn)狀[J];編輯學(xué)報;2007年03期
2 肖冬梅;;開放存取資源整合及集成服務(wù)平臺分析[J];高校圖書館工作;2008年02期
3 周德懋;李舟軍;;高性能網(wǎng)絡(luò)爬蟲:研究綜述[J];計算機科學(xué);2009年08期
4 周明建,高濟,李飛;基于本體論的Web信息抽取[J];計算機輔助設(shè)計與圖形學(xué)學(xué)報;2004年04期
5 李效東,顧毓清;基于DOM的Web信息提取[J];計算機學(xué)報;2002年05期
6 謝鯤;閔應(yīng)驊;張大方;謝高崗;文吉剛;;分檔布魯姆過濾器的查詢算法[J];計算機學(xué)報;2007年04期
7 陳釗;張冬梅;;Web信息抽取技術(shù)綜述[J];計算機應(yīng)用研究;2010年12期
8 張紅云;劉煒;熊前興;;一種基于語義本體的網(wǎng)絡(luò)爬蟲模型[J];計算機應(yīng)用與軟件;2009年11期
9 曹冬林;廖祥文;許洪波;白碩;;基于網(wǎng)頁格式信息量的博客文章和評論抽取模型[J];軟件學(xué)報;2009年05期
10 宋聚平,王永成,尹中航,滕偉;面向主題的網(wǎng)頁搜索系統(tǒng)[J];上海交通大學(xué)學(xué)報;2003年03期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 劉煒;基于語義分析的主題信息采集技術(shù)的研究[D];武漢理工大學(xué);2009年
本文關(guān)鍵詞:開放存取期刊論文自動采集方法的研究,由筆耕文化傳播整理發(fā)布。
本文編號:389262
本文鏈接:http://sikaile.net/wenshubaike/xingzhengshiwu/389262.html