開放存取期刊論文自動(dòng)采集方法的研究

發(fā)布時(shí)間：2017-05-23 23:01

本文關(guān)鍵詞：開放存取期刊論文自動(dòng)采集方法的研究，由筆耕文化傳播整理發(fā)布。

【摘要】：在以互聯(lián)網(wǎng)上的開放存取OA (Open Access)期刊論文為信息源創(chuàng)建數(shù)字資源庫(kù)時(shí)，需要解決的一個(gè)關(guān)鍵問(wèn)題就是OA期刊論文的自動(dòng)采集。由于OA期刊網(wǎng)站散落分布在網(wǎng)絡(luò)的各個(gè)地方，從而制約了OA期刊應(yīng)有效能的發(fā)揮。因此，OA期刊資源的獲取成為當(dāng)前圖書館數(shù)字資源庫(kù)建設(shè)中的熱點(diǎn)研究對(duì)象。本文在前人的研究基礎(chǔ)上，主要做了以下幾方面的研究。首先，，針對(duì)傳統(tǒng)的網(wǎng)絡(luò)信息采集框架因采集目標(biāo)數(shù)據(jù)源不同而不能直接應(yīng)用于OA期刊論文采集的問(wèn)題，提出了一種開放存取期刊論文的自動(dòng)采集框架。首先，設(shè)計(jì)了OA期刊論文自動(dòng)采集系統(tǒng)的總體架構(gòu)、總體模塊以及闡述了各模塊間的關(guān)系；其次介紹了系統(tǒng)的工作流程和系統(tǒng)的性能指標(biāo)及工作原理；最后探討了框架中主要模塊的設(shè)計(jì)思想及采集系統(tǒng)構(gòu)建中遇到的關(guān)鍵問(wèn)題及解決辦法。其次，本文在對(duì)大量OA期刊網(wǎng)站頁(yè)面結(jié)構(gòu)進(jìn)行認(rèn)真分析和研究的基礎(chǔ)上，提出了一種基于網(wǎng)頁(yè)分塊的卷期目錄鏈接提取方法，該方法利用卷期目錄鏈接成塊、基于Table和Div布局的特點(diǎn)，進(jìn)行網(wǎng)頁(yè)分塊，然后通過(guò)基于子樹相似度合并相似子塊對(duì)網(wǎng)頁(yè)語(yǔ)義塊進(jìn)行劃分，最后根據(jù)卷期目錄鏈接的特征識(shí)別出目錄鏈接，實(shí)驗(yàn)證明了該方法能夠有效的提取出卷期目錄鏈接。最后，在以上研究工作的基礎(chǔ)上，實(shí)現(xiàn)了原型系統(tǒng)，并在原型系統(tǒng)上進(jìn)行了實(shí)驗(yàn)，對(duì)該系統(tǒng)的采集精度和采集效率、卷期目錄鏈接識(shí)別算法等方面進(jìn)行了實(shí)驗(yàn)驗(yàn)證及分析。
【關(guān)鍵詞】：開放存取 OA期刊 自動(dòng)采集 采集框架 目錄鏈接 鏈接提取
【學(xué)位授予單位】：燕山大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2012
【分類號(hào)】：TP393.09
【目錄】：

摘要5-6
Abstract6-10
第1章緒論10-16
1.1 課題背景及意義10-11
1.2 國(guó)內(nèi)外研究現(xiàn)狀11-13
1.2.1 OA 資源利用與發(fā)展現(xiàn)狀11-12
1.2.2 Web 信息資源采集研究現(xiàn)狀12-13
1.3 本文的主要研究?jī)?nèi)容13-14
1.4 本文組織結(jié)構(gòu)14-16
第2章基礎(chǔ)知識(shí)和相關(guān)技術(shù)16-26
2.1 HTML 基礎(chǔ)16-19
2.1.1 HTML 簡(jiǎn)介16
2.1.2 HTML DOM 樹16-18
2.1.3 HTML 解析工具的介紹18-19
2.2 HTTP 協(xié)議分析19-20
2.2.1 HTTP 協(xié)議概述19
2.2.2 HTTP 協(xié)議報(bào)頭信息19-20
2.3 網(wǎng)絡(luò)爬蟲技術(shù)介紹20-22
2.4 Web 信息抽取技術(shù)22-25
2.5 本章小結(jié)25-26
第3章 OA 期刊論文自動(dòng)采集框架的設(shè)計(jì)26-38
3.1 OA 期刊論文自動(dòng)采集框架26-30
3.1.1 采集系統(tǒng)的總體架構(gòu)26-27
3.1.2 系統(tǒng)總體模塊27-28
3.1.3 系統(tǒng)工作流程28-29
3.1.4 系統(tǒng)的性能指標(biāo)及工作原理29-30
3.2 采集系統(tǒng)中的主要模塊及關(guān)鍵問(wèn)題30-36
3.2.1 頁(yè)面更新檢測(cè)模塊30-32
3.2.2 論文采集模塊32-35
3.2.3 采集系統(tǒng)中的關(guān)鍵問(wèn)題35-36
3.3 本章小結(jié)36-38
第4章 OA 期刊卷期目錄鏈接的提取方法38-49
4.1 問(wèn)題描述38-39
4.2 問(wèn)題解決方法39
4.3 基于網(wǎng)頁(yè)原子分割和內(nèi)容塊聚類的網(wǎng)頁(yè)分塊方法39-43
4.3.1 網(wǎng)頁(yè)的原子分割39-41
4.3.2 原子內(nèi)容塊聚類41-43
4.4 卷期目錄鏈接塊的識(shí)別算法43-47
4.4.1 相關(guān)定義43-44
4.4.2 鏈接文本相似度的計(jì)算44
4.4.3 Bayes 后驗(yàn)概率的計(jì)算44-46
4.4.4 卷期目錄鏈接的識(shí)別算法46-47
4.5 本章小結(jié)47-49
第5章實(shí)驗(yàn)驗(yàn)證與分析49-58
5.1 實(shí)驗(yàn)環(huán)境的搭建49-51
5.1.1 系統(tǒng)環(huán)境的配置49-50
5.1.2 系統(tǒng)整體界面50-51
5.1.3 OA 期刊站點(diǎn)服務(wù)注冊(cè)51
5.2 實(shí)驗(yàn)數(shù)據(jù)來(lái)源及評(píng)價(jià)標(biāo)準(zhǔn)51-52
5.2.1 實(shí)驗(yàn)數(shù)據(jù)來(lái)源51
5.2.2 實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)51-52
5.3 卷期目錄鏈接提取方法的驗(yàn)證52-54
5.3.1 網(wǎng)頁(yè)分塊算法的對(duì)比分析52-53
5.3.2 卷期目錄鏈接識(shí)別和提取算法的驗(yàn)證53-54
5.4 自動(dòng)采集系統(tǒng)性能的分析54-57
5.5 本章小結(jié)57-58
結(jié)論58-60
參考文獻(xiàn)60-64
攻讀碩士學(xué)位期間承擔(dān)的科研任務(wù)與主要成果64-65
致謝65-66
作者簡(jiǎn)介66

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 程維紅;任勝利;;中國(guó)科技期刊開放存取出版現(xiàn)狀[J];編輯學(xué)報(bào);2007年03期

2 肖冬梅;;開放存取資源整合及集成服務(wù)平臺(tái)分析[J];高校圖書館工作;2008年02期

3 周德懋;李舟軍;;高性能網(wǎng)絡(luò)爬蟲:研究綜述[J];計(jì)算機(jī)科學(xué);2009年08期

4 周明建,高濟(jì),李飛;基于本體論的Web信息抽取[J];計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào);2004年04期

5 李效東,顧毓清;基于DOM的Web信息提取[J];計(jì)算機(jī)學(xué)報(bào);2002年05期

6 謝鯤;閔應(yīng)驊;張大方;謝高崗;文吉?jiǎng)?;分檔布魯姆過(guò)濾器的查詢算法[J];計(jì)算機(jī)學(xué)報(bào);2007年04期

7 陳釗;張冬梅;;Web信息抽取技術(shù)綜述[J];計(jì)算機(jī)應(yīng)用研究;2010年12期

8 張紅云;劉煒;熊前興;;一種基于語(yǔ)義本體的網(wǎng)絡(luò)爬蟲模型[J];計(jì)算機(jī)應(yīng)用與軟件;2009年11期

9 曹冬林;廖祥文;許洪波;白碩;;基于網(wǎng)頁(yè)格式信息量的博客文章和評(píng)論抽取模型[J];軟件學(xué)報(bào);2009年05期

10 宋聚平,王永成,尹中航,滕偉;面向主題的網(wǎng)頁(yè)搜索系統(tǒng)[J];上海交通大學(xué)學(xué)報(bào);2003年03期

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條

1 劉煒;基于語(yǔ)義分析的主題信息采集技術(shù)的研究[D];武漢理工大學(xué);2009年

本文關(guān)鍵詞：開放存取期刊論文自動(dòng)采集方法的研究，由筆耕文化傳播整理發(fā)布。

本文編號(hào)：389262

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/wenshubaike/xingzhengshiwu/389262.html

上一篇：附屬醫(yī)院核醫(yī)學(xué)科論文被國(guó)際臨床核醫(yī)學(xué)期刊選作雜志封面
下一篇：學(xué)科期刊論文率指標(biāo)及應(yīng)用——中國(guó)自然科學(xué)期刊論文學(xué)科分布狀況研究

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

開放存取期刊論文自動(dòng)采集方法的研究