基于Hadoop的OA期刊論文資源發(fā)現(xiàn)及采集方法

發(fā)布時(shí)間：2017-04-30 01:07

本文關(guān)鍵詞：基于Hadoop的OA期刊論文資源發(fā)現(xiàn)及采集方法，，由筆耕文化傳播整理發(fā)布。

【摘要】：互聯(lián)網(wǎng)上大量OA期刊論文資源屬于深層Web(DeepWeb)資源，傳統(tǒng)的搜索引擎不能對(duì)其有效地建立索引，用戶在檢索時(shí)很難得到期望的OA期刊論文資源。解決該問題的一條有效途徑就是實(shí)現(xiàn)互聯(lián)網(wǎng)上OA期刊論文資源的集成整合，并為用戶提供一個(gè)統(tǒng)一、透明的檢索服務(wù)接口，而OA期刊論文資源的發(fā)現(xiàn)和采集則是其重要環(huán)節(jié)。針對(duì)海量OA期刊論文資源的處理，分布式存儲(chǔ)和并行機(jī)制可大大提高其效率�；贖adoop的分布式文件系統(tǒng)(HDFS)和并行機(jī)制(MapReduce)是目前處理海量信息的一種可行平臺(tái)，本文基于Hadoop實(shí)現(xiàn)了OA期刊論文資源的發(fā)現(xiàn)和采集。本文主要做了以下研究。首先，針對(duì)傳統(tǒng)搜索引擎不能有效索引OA期刊論文資源的問題，設(shè)計(jì)了一種基于Hadoop的OA期刊論文資源的采集系統(tǒng)。首先設(shè)計(jì)了該采集系統(tǒng)的總體框架、總體模塊和總體流程；然后詳細(xì)介紹了各個(gè)主要模塊的功能及其工作流程。其次，通過對(duì)期刊站點(diǎn)內(nèi)論文資源訪問方式的研究，提出一種面向OA期刊站點(diǎn)的論文資源發(fā)現(xiàn)方法。該方法首先通過提取OA期刊站點(diǎn)的首頁(yè)特征構(gòu)建C4.5決策樹；然后利用決策樹對(duì)期刊站點(diǎn)進(jìn)行分類；最后針對(duì)這兩類OA期刊站點(diǎn)分別提出一種論文資源發(fā)現(xiàn)算法，并將論文資源信息保存到論文信息資源庫(kù)文件。再次，針對(duì)構(gòu)建OA期刊知識(shí)元數(shù)據(jù)倉(cāng)儲(chǔ)的需求，提出一種面向OA期刊站點(diǎn)的論文采集方法。該方法首先通過解析論文信息資源庫(kù)文件獲取論文的下載信息和下載參數(shù)；然后利用HTTP協(xié)議下載期刊論文文件；最后根據(jù)閾值將下載的多個(gè)論文小文件打包成Sequence大文件，并上傳到HDFS。最后，實(shí)現(xiàn)了基于Hadoop的OA期刊論文資源采集的原型系統(tǒng)，并通過原型系統(tǒng)進(jìn)行了試驗(yàn)驗(yàn)證。
【關(guān)鍵詞】：開放存取 OA期刊站點(diǎn) 論文資源發(fā)現(xiàn) C4.5決策樹 期刊卷期目錄 檢索接口
【學(xué)位授予單位】：燕山大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2013
【分類號(hào)】：TP391.3
【目錄】：

摘要5-6
Abstract6-11
第1章緒論11-17
1.1 課題背景及意義11-12
1.2 國(guó)內(nèi)外研究現(xiàn)狀12-15
1.2.1 OA期刊資源整合的研究現(xiàn)狀12-13
1.2.2 DeepWeb資源發(fā)現(xiàn)和采集的研究現(xiàn)狀13-14
1.2.3 Web信息抽取技術(shù)的研究現(xiàn)狀14-15
1.2.4 Hadoop技術(shù)的研究現(xiàn)狀15
1.3 本文的主要研究?jī)?nèi)容15-16
1.4 本文組織結(jié)構(gòu)16-17
第2章基礎(chǔ)知識(shí)和相關(guān)技術(shù)17-25
2.1 HTML解析工具的介紹17-18
2.2 網(wǎng)絡(luò)爬蟲技術(shù)介紹18-19
2.3 Web信息抽取技術(shù)介紹19-20
2.4 決策樹簡(jiǎn)介20-22
2.5 Hadoop簡(jiǎn)介22-24
2.5.1 HDFS22-23
2.5.2 MapReduce編程模型23-24
2.6 本章小結(jié)24-25
第3章 OA期刊論文資源采集系統(tǒng)的框架設(shè)計(jì)25-33
3.1 系統(tǒng)框架25-28
3.1.1 OA期刊論文資源采集系統(tǒng)框架25-26
3.1.2 系統(tǒng)總體模塊26-27
3.1.3 系統(tǒng)總體流程27-28
3.2 系統(tǒng)中的主要模塊28-32
3.2.1 分布式論文資源發(fā)現(xiàn)模塊28-29
3.2.2 分布式論文資源采集模塊29-31
3.2.3 更新檢測(cè)模塊31-32
3.3 本章小結(jié)32-33
第4章面向OA期刊站點(diǎn)的論文資源發(fā)現(xiàn)方法33-45
4.1 OA期刊論文資源發(fā)現(xiàn)流程33-34
4.2 OA期刊站點(diǎn)分類34-37
4.2.1 首頁(yè)特征選取34-35
4.2.2 構(gòu)建 C4.5 決策樹35-36
4.2.3 基于決策樹 C4.5 的OA期刊站點(diǎn)分類算法36-37
4.3 期刊站點(diǎn)內(nèi)論文資源發(fā)現(xiàn)37-44
4.3.1 卷期目錄型期刊站點(diǎn)內(nèi)論文資源發(fā)現(xiàn)37-41
4.3.2 檢索接口型期刊站點(diǎn)內(nèi)論文資源發(fā)現(xiàn)41-44
4.4 本章小結(jié)44-45
第5章面向OA期刊站點(diǎn)的論文資源的采集方法45-55
5.1 OA期刊論文資源采集流程45-46
5.2 OA期刊論文資源采集46-51
5.2.1 論文信息資源庫(kù)文件解析46-48
5.2.2 pdf論文采集48-51
5.3 pdf小文件處理51-52
5.4 期刊站點(diǎn)的更新檢測(cè)52-54
5.4.1 更新檢測(cè)的時(shí)間間隔的判定53
5.4.2 更新檢測(cè)判定53-54
5.5 本章小結(jié)54-55
第6章系統(tǒng)實(shí)現(xiàn)與實(shí)驗(yàn)分析55-72
6.1 環(huán)境搭建55-57
6.1.1 Hadoop平臺(tái)搭建55-56
6.1.2 Hadoop環(huán)境配置56-57
6.2 系統(tǒng)主要功能模塊的實(shí)現(xiàn)57-66
6.2.1 分布式論文資源發(fā)現(xiàn)模塊實(shí)現(xiàn)58-63
6.2.2 分布式論文資源采集模塊實(shí)現(xiàn)63-66
6.3 論文資源發(fā)現(xiàn)實(shí)驗(yàn)與分析66-68
6.3.1 實(shí)驗(yàn)數(shù)據(jù)及其評(píng)價(jià)標(biāo)準(zhǔn)66-67
6.3.2 OA 期刊站點(diǎn)分類實(shí)驗(yàn)67-68
6.3.3 OA 期刊論文資源發(fā)現(xiàn)算法實(shí)驗(yàn)68
6.4 論文資源采集實(shí)驗(yàn)與分析68-71
6.4.1 評(píng)價(jià)標(biāo)準(zhǔn)68-69
6.4.2 OA 期刊論文資源采集算法實(shí)驗(yàn)69-70
6.4.3 單機(jī)環(huán)境和集群環(huán)境下采集效率的對(duì)比70-71
6.5 本章小結(jié)71-72
結(jié)論72-74
參考文獻(xiàn)74-77
攻讀碩士學(xué)位期間承擔(dān)的科研任務(wù)與主要成果77-78
致謝78-79
作者簡(jiǎn)介79

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條

1 何召衛(wèi);陳俊亮;;基于本體關(guān)系匹配的信息抽取[J];計(jì)算機(jī)工程;2007年21期

2 陳艷;;初識(shí)HTML語(yǔ)言[J];科技信息;2009年03期

本文關(guān)鍵詞：基于Hadoop的OA期刊論文資源發(fā)現(xiàn)及采集方法，由筆耕文化傳播整理發(fā)布。

本文編號(hào)：335947

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/wenshubaike/xingzhengshiwu/335947.html

上一篇：2014年全國(guó)高校高等教育科研論文統(tǒng)計(jì)分析——基于17家高等教育中文核心期刊的發(fā)文統(tǒng)計(jì)
下一篇：科技期刊論文審稿人署名的問題

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Hadoop的OA期刊論文資源發(fā)現(xiàn)及采集方法