天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 論文百科 > 期刊論文 >

開放存取期刊論文自動(dòng)采集方法的研究

發(fā)布時(shí)間:2017-05-23 23:01

  本文關(guān)鍵詞:開放存取期刊論文自動(dòng)采集方法的研究,由筆耕文化傳播整理發(fā)布。


【摘要】:在以互聯(lián)網(wǎng)上的開放存取OA (Open Access)期刊論文為信息源創(chuàng)建數(shù)字資源庫(kù)時(shí),需要解決的一個(gè)關(guān)鍵問(wèn)題就是OA期刊論文的自動(dòng)采集。由于OA期刊網(wǎng)站散落分布在網(wǎng)絡(luò)的各個(gè)地方,從而制約了OA期刊應(yīng)有效能的發(fā)揮。因此,OA期刊資源的獲取成為當(dāng)前圖書館數(shù)字資源庫(kù)建設(shè)中的熱點(diǎn)研究對(duì)象。本文在前人的研究基礎(chǔ)上,主要做了以下幾方面的研究。 首先,,針對(duì)傳統(tǒng)的網(wǎng)絡(luò)信息采集框架因采集目標(biāo)數(shù)據(jù)源不同而不能直接應(yīng)用于OA期刊論文采集的問(wèn)題,提出了一種開放存取期刊論文的自動(dòng)采集框架。首先,設(shè)計(jì)了OA期刊論文自動(dòng)采集系統(tǒng)的總體架構(gòu)、總體模塊以及闡述了各模塊間的關(guān)系;其次介紹了系統(tǒng)的工作流程和系統(tǒng)的性能指標(biāo)及工作原理;最后探討了框架中主要模塊的設(shè)計(jì)思想及采集系統(tǒng)構(gòu)建中遇到的關(guān)鍵問(wèn)題及解決辦法。 其次,本文在對(duì)大量OA期刊網(wǎng)站頁(yè)面結(jié)構(gòu)進(jìn)行認(rèn)真分析和研究的基礎(chǔ)上,提出了一種基于網(wǎng)頁(yè)分塊的卷期目錄鏈接提取方法,該方法利用卷期目錄鏈接成塊、基于Table和Div布局的特點(diǎn),進(jìn)行網(wǎng)頁(yè)分塊,然后通過(guò)基于子樹相似度合并相似子塊對(duì)網(wǎng)頁(yè)語(yǔ)義塊進(jìn)行劃分,最后根據(jù)卷期目錄鏈接的特征識(shí)別出目錄鏈接,實(shí)驗(yàn)證明了該方法能夠有效的提取出卷期目錄鏈接。 最后,在以上研究工作的基礎(chǔ)上,實(shí)現(xiàn)了原型系統(tǒng),并在原型系統(tǒng)上進(jìn)行了實(shí)驗(yàn),對(duì)該系統(tǒng)的采集精度和采集效率、卷期目錄鏈接識(shí)別算法等方面進(jìn)行了實(shí)驗(yàn)驗(yàn)證及分析。
【關(guān)鍵詞】:開放存取 OA期刊 自動(dòng)采集 采集框架 目錄鏈接 鏈接提取
【學(xué)位授予單位】:燕山大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類號(hào)】:TP393.09
【目錄】:
  • 摘要5-6
  • Abstract6-10
  • 第1章 緒論10-16
  • 1.1 課題背景及意義10-11
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀11-13
  • 1.2.1 OA 資源利用與發(fā)展現(xiàn)狀11-12
  • 1.2.2 Web 信息資源采集研究現(xiàn)狀12-13
  • 1.3 本文的主要研究?jī)?nèi)容13-14
  • 1.4 本文組織結(jié)構(gòu)14-16
  • 第2章 基礎(chǔ)知識(shí)和相關(guān)技術(shù)16-26
  • 2.1 HTML 基礎(chǔ)16-19
  • 2.1.1 HTML 簡(jiǎn)介16
  • 2.1.2 HTML DOM 樹16-18
  • 2.1.3 HTML 解析工具的介紹18-19
  • 2.2 HTTP 協(xié)議分析19-20
  • 2.2.1 HTTP 協(xié)議概述19
  • 2.2.2 HTTP 協(xié)議報(bào)頭信息19-20
  • 2.3 網(wǎng)絡(luò)爬蟲技術(shù)介紹20-22
  • 2.4 Web 信息抽取技術(shù)22-25
  • 2.5 本章小結(jié)25-26
  • 第3章 OA 期刊論文自動(dòng)采集框架的設(shè)計(jì)26-38
  • 3.1 OA 期刊論文自動(dòng)采集框架26-30
  • 3.1.1 采集系統(tǒng)的總體架構(gòu)26-27
  • 3.1.2 系統(tǒng)總體模塊27-28
  • 3.1.3 系統(tǒng)工作流程28-29
  • 3.1.4 系統(tǒng)的性能指標(biāo)及工作原理29-30
  • 3.2 采集系統(tǒng)中的主要模塊及關(guān)鍵問(wèn)題30-36
  • 3.2.1 頁(yè)面更新檢測(cè)模塊30-32
  • 3.2.2 論文采集模塊32-35
  • 3.2.3 采集系統(tǒng)中的關(guān)鍵問(wèn)題35-36
  • 3.3 本章小結(jié)36-38
  • 第4章 OA 期刊卷期目錄鏈接的提取方法38-49
  • 4.1 問(wèn)題描述38-39
  • 4.2 問(wèn)題解決方法39
  • 4.3 基于網(wǎng)頁(yè)原子分割和內(nèi)容塊聚類的網(wǎng)頁(yè)分塊方法39-43
  • 4.3.1 網(wǎng)頁(yè)的原子分割39-41
  • 4.3.2 原子內(nèi)容塊聚類41-43
  • 4.4 卷期目錄鏈接塊的識(shí)別算法43-47
  • 4.4.1 相關(guān)定義43-44
  • 4.4.2 鏈接文本相似度的計(jì)算44
  • 4.4.3 Bayes 后驗(yàn)概率的計(jì)算44-46
  • 4.4.4 卷期目錄鏈接的識(shí)別算法46-47
  • 4.5 本章小結(jié)47-49
  • 第5章 實(shí)驗(yàn)驗(yàn)證與分析49-58
  • 5.1 實(shí)驗(yàn)環(huán)境的搭建49-51
  • 5.1.1 系統(tǒng)環(huán)境的配置49-50
  • 5.1.2 系統(tǒng)整體界面50-51
  • 5.1.3 OA 期刊站點(diǎn)服務(wù)注冊(cè)51
  • 5.2 實(shí)驗(yàn)數(shù)據(jù)來(lái)源及評(píng)價(jià)標(biāo)準(zhǔn)51-52
  • 5.2.1 實(shí)驗(yàn)數(shù)據(jù)來(lái)源51
  • 5.2.2 實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)51-52
  • 5.3 卷期目錄鏈接提取方法的驗(yàn)證52-54
  • 5.3.1 網(wǎng)頁(yè)分塊算法的對(duì)比分析52-53
  • 5.3.2 卷期目錄鏈接識(shí)別和提取算法的驗(yàn)證53-54
  • 5.4 自動(dòng)采集系統(tǒng)性能的分析54-57
  • 5.5 本章小結(jié)57-58
  • 結(jié)論58-60
  • 參考文獻(xiàn)60-64
  • 攻讀碩士學(xué)位期間承擔(dān)的科研任務(wù)與主要成果64-65
  • 致謝65-66
  • 作者簡(jiǎn)介66

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 程維紅;任勝利;;中國(guó)科技期刊開放存取出版現(xiàn)狀[J];編輯學(xué)報(bào);2007年03期

2 肖冬梅;;開放存取資源整合及集成服務(wù)平臺(tái)分析[J];高校圖書館工作;2008年02期

3 周德懋;李舟軍;;高性能網(wǎng)絡(luò)爬蟲:研究綜述[J];計(jì)算機(jī)科學(xué);2009年08期

4 周明建,高濟(jì),李飛;基于本體論的Web信息抽取[J];計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào);2004年04期

5 李效東,顧毓清;基于DOM的Web信息提取[J];計(jì)算機(jī)學(xué)報(bào);2002年05期

6 謝鯤;閔應(yīng)驊;張大方;謝高崗;文吉?jiǎng)?;分檔布魯姆過(guò)濾器的查詢算法[J];計(jì)算機(jī)學(xué)報(bào);2007年04期

7 陳釗;張冬梅;;Web信息抽取技術(shù)綜述[J];計(jì)算機(jī)應(yīng)用研究;2010年12期

8 張紅云;劉煒;熊前興;;一種基于語(yǔ)義本體的網(wǎng)絡(luò)爬蟲模型[J];計(jì)算機(jī)應(yīng)用與軟件;2009年11期

9 曹冬林;廖祥文;許洪波;白碩;;基于網(wǎng)頁(yè)格式信息量的博客文章和評(píng)論抽取模型[J];軟件學(xué)報(bào);2009年05期

10 宋聚平,王永成,尹中航,滕偉;面向主題的網(wǎng)頁(yè)搜索系統(tǒng)[J];上海交通大學(xué)學(xué)報(bào);2003年03期

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條

1 劉煒;基于語(yǔ)義分析的主題信息采集技術(shù)的研究[D];武漢理工大學(xué);2009年


  本文關(guān)鍵詞:開放存取期刊論文自動(dòng)采集方法的研究,由筆耕文化傳播整理發(fā)布。



本文編號(hào):389262

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenshubaike/xingzhengshiwu/389262.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6b67f***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com