基于Hadoop的OA期刊論文資源發(fā)現(xiàn)及采集方法
發(fā)布時(shí)間:2017-04-30 01:07
本文關(guān)鍵詞:基于Hadoop的OA期刊論文資源發(fā)現(xiàn)及采集方法,,由筆耕文化傳播整理發(fā)布。
【摘要】:互聯(lián)網(wǎng)上大量OA期刊論文資源屬于深層Web(DeepWeb)資源,傳統(tǒng)的搜索引擎不能對(duì)其有效地建立索引,用戶在檢索時(shí)很難得到期望的OA期刊論文資源。解決該問題的一條有效途徑就是實(shí)現(xiàn)互聯(lián)網(wǎng)上OA期刊論文資源的集成整合,并為用戶提供一個(gè)統(tǒng)一、透明的檢索服務(wù)接口,而OA期刊論文資源的發(fā)現(xiàn)和采集則是其重要環(huán)節(jié)。 針對(duì)海量OA期刊論文資源的處理,分布式存儲(chǔ)和并行機(jī)制可大大提高其效率;贖adoop的分布式文件系統(tǒng)(HDFS)和并行機(jī)制(MapReduce)是目前處理海量信息的一種可行平臺(tái),本文基于Hadoop實(shí)現(xiàn)了OA期刊論文資源的發(fā)現(xiàn)和采集。本文主要做了以下研究。 首先,針對(duì)傳統(tǒng)搜索引擎不能有效索引OA期刊論文資源的問題,設(shè)計(jì)了一種基于Hadoop的OA期刊論文資源的采集系統(tǒng)。首先設(shè)計(jì)了該采集系統(tǒng)的總體框架、總體模塊和總體流程;然后詳細(xì)介紹了各個(gè)主要模塊的功能及其工作流程。 其次,通過對(duì)期刊站點(diǎn)內(nèi)論文資源訪問方式的研究,提出一種面向OA期刊站點(diǎn)的論文資源發(fā)現(xiàn)方法。該方法首先通過提取OA期刊站點(diǎn)的首頁(yè)特征構(gòu)建C4.5決策樹;然后利用決策樹對(duì)期刊站點(diǎn)進(jìn)行分類;最后針對(duì)這兩類OA期刊站點(diǎn)分別提出一種論文資源發(fā)現(xiàn)算法,并將論文資源信息保存到論文信息資源庫(kù)文件。 再次,針對(duì)構(gòu)建OA期刊知識(shí)元數(shù)據(jù)倉(cāng)儲(chǔ)的需求,提出一種面向OA期刊站點(diǎn)的論文采集方法。該方法首先通過解析論文信息資源庫(kù)文件獲取論文的下載信息和下載參數(shù);然后利用HTTP協(xié)議下載期刊論文文件;最后根據(jù)閾值將下載的多個(gè)論文小文件打包成Sequence大文件,并上傳到HDFS。 最后,實(shí)現(xiàn)了基于Hadoop的OA期刊論文資源采集的原型系統(tǒng),并通過原型系統(tǒng)進(jìn)行了試驗(yàn)驗(yàn)證。
【關(guān)鍵詞】:開放存取 OA期刊站點(diǎn) 論文資源發(fā)現(xiàn) C4.5決策樹 期刊卷期目錄 檢索接口
【學(xué)位授予單位】:燕山大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP391.3
【目錄】:
- 摘要5-6
- Abstract6-11
- 第1章 緒論11-17
- 1.1 課題背景及意義11-12
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀12-15
- 1.2.1 OA期刊資源整合的研究現(xiàn)狀12-13
- 1.2.2 DeepWeb資源發(fā)現(xiàn)和采集的研究現(xiàn)狀13-14
- 1.2.3 Web信息抽取技術(shù)的研究現(xiàn)狀14-15
- 1.2.4 Hadoop技術(shù)的研究現(xiàn)狀15
- 1.3 本文的主要研究?jī)?nèi)容15-16
- 1.4 本文組織結(jié)構(gòu)16-17
- 第2章 基礎(chǔ)知識(shí)和相關(guān)技術(shù)17-25
- 2.1 HTML解析工具的介紹17-18
- 2.2 網(wǎng)絡(luò)爬蟲技術(shù)介紹18-19
- 2.3 Web信息抽取技術(shù)介紹19-20
- 2.4 決策樹簡(jiǎn)介20-22
- 2.5 Hadoop簡(jiǎn)介22-24
- 2.5.1 HDFS22-23
- 2.5.2 MapReduce編程模型23-24
- 2.6 本章小結(jié)24-25
- 第3章 OA期刊論文資源采集系統(tǒng)的框架設(shè)計(jì)25-33
- 3.1 系統(tǒng)框架25-28
- 3.1.1 OA期刊論文資源采集系統(tǒng)框架25-26
- 3.1.2 系統(tǒng)總體模塊26-27
- 3.1.3 系統(tǒng)總體流程27-28
- 3.2 系統(tǒng)中的主要模塊28-32
- 3.2.1 分布式論文資源發(fā)現(xiàn)模塊28-29
- 3.2.2 分布式論文資源采集模塊29-31
- 3.2.3 更新檢測(cè)模塊31-32
- 3.3 本章小結(jié)32-33
- 第4章 面向OA期刊站點(diǎn)的論文資源發(fā)現(xiàn)方法33-45
- 4.1 OA期刊論文資源發(fā)現(xiàn)流程33-34
- 4.2 OA期刊站點(diǎn)分類34-37
- 4.2.1 首頁(yè)特征選取34-35
- 4.2.2 構(gòu)建 C4.5 決策樹35-36
- 4.2.3 基于決策樹 C4.5 的OA期刊站點(diǎn)分類算法36-37
- 4.3 期刊站點(diǎn)內(nèi)論文資源發(fā)現(xiàn)37-44
- 4.3.1 卷期目錄型期刊站點(diǎn)內(nèi)論文資源發(fā)現(xiàn)37-41
- 4.3.2 檢索接口型期刊站點(diǎn)內(nèi)論文資源發(fā)現(xiàn)41-44
- 4.4 本章小結(jié)44-45
- 第5章 面向OA期刊站點(diǎn)的論文資源的采集方法45-55
- 5.1 OA期刊論文資源采集流程45-46
- 5.2 OA期刊論文資源采集46-51
- 5.2.1 論文信息資源庫(kù)文件解析46-48
- 5.2.2 pdf論文采集48-51
- 5.3 pdf小文件處理51-52
- 5.4 期刊站點(diǎn)的更新檢測(cè)52-54
- 5.4.1 更新檢測(cè)的時(shí)間間隔的判定53
- 5.4.2 更新檢測(cè)判定53-54
- 5.5 本章小結(jié)54-55
- 第6章 系統(tǒng)實(shí)現(xiàn)與實(shí)驗(yàn)分析55-72
- 6.1 環(huán)境搭建55-57
- 6.1.1 Hadoop平臺(tái)搭建55-56
- 6.1.2 Hadoop環(huán)境配置56-57
- 6.2 系統(tǒng)主要功能模塊的實(shí)現(xiàn)57-66
- 6.2.1 分布式論文資源發(fā)現(xiàn)模塊實(shí)現(xiàn)58-63
- 6.2.2 分布式論文資源采集模塊實(shí)現(xiàn)63-66
- 6.3 論文資源發(fā)現(xiàn)實(shí)驗(yàn)與分析66-68
- 6.3.1 實(shí)驗(yàn)數(shù)據(jù)及其評(píng)價(jià)標(biāo)準(zhǔn)66-67
- 6.3.2 OA 期刊站點(diǎn)分類實(shí)驗(yàn)67-68
- 6.3.3 OA 期刊論文資源發(fā)現(xiàn)算法實(shí)驗(yàn)68
- 6.4 論文資源采集實(shí)驗(yàn)與分析68-71
- 6.4.1 評(píng)價(jià)標(biāo)準(zhǔn)68-69
- 6.4.2 OA 期刊論文資源采集算法實(shí)驗(yàn)69-70
- 6.4.3 單機(jī)環(huán)境和集群環(huán)境下采集效率的對(duì)比70-71
- 6.5 本章小結(jié)71-72
- 結(jié)論72-74
- 參考文獻(xiàn)74-77
- 攻讀碩士學(xué)位期間承擔(dān)的科研任務(wù)與主要成果77-78
- 致謝78-79
- 作者簡(jiǎn)介79
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條
1 何召衛(wèi);陳俊亮;;基于本體關(guān)系匹配的信息抽取[J];計(jì)算機(jī)工程;2007年21期
2 陳艷;;初識(shí)HTML語(yǔ)言[J];科技信息;2009年03期
本文關(guān)鍵詞:基于Hadoop的OA期刊論文資源發(fā)現(xiàn)及采集方法,由筆耕文化傳播整理發(fā)布。
本文編號(hào):335947
本文鏈接:http://sikaile.net/wenshubaike/xingzhengshiwu/335947.html
最近更新
教材專著