天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 論文百科 > 期刊論文 >

基于Hadoop的OA期刊論文資源發(fā)現(xiàn)及采集方法

發(fā)布時(shí)間:2017-04-30 01:07

  本文關(guān)鍵詞:基于Hadoop的OA期刊論文資源發(fā)現(xiàn)及采集方法,,由筆耕文化傳播整理發(fā)布。


【摘要】:互聯(lián)網(wǎng)上大量OA期刊論文資源屬于深層Web(DeepWeb)資源,傳統(tǒng)的搜索引擎不能對(duì)其有效地建立索引,用戶在檢索時(shí)很難得到期望的OA期刊論文資源。解決該問題的一條有效途徑就是實(shí)現(xiàn)互聯(lián)網(wǎng)上OA期刊論文資源的集成整合,并為用戶提供一個(gè)統(tǒng)一、透明的檢索服務(wù)接口,而OA期刊論文資源的發(fā)現(xiàn)和采集則是其重要環(huán)節(jié)。 針對(duì)海量OA期刊論文資源的處理,分布式存儲(chǔ)和并行機(jī)制可大大提高其效率;贖adoop的分布式文件系統(tǒng)(HDFS)和并行機(jī)制(MapReduce)是目前處理海量信息的一種可行平臺(tái),本文基于Hadoop實(shí)現(xiàn)了OA期刊論文資源的發(fā)現(xiàn)和采集。本文主要做了以下研究。 首先,針對(duì)傳統(tǒng)搜索引擎不能有效索引OA期刊論文資源的問題,設(shè)計(jì)了一種基于Hadoop的OA期刊論文資源的采集系統(tǒng)。首先設(shè)計(jì)了該采集系統(tǒng)的總體框架、總體模塊和總體流程;然后詳細(xì)介紹了各個(gè)主要模塊的功能及其工作流程。 其次,通過對(duì)期刊站點(diǎn)內(nèi)論文資源訪問方式的研究,提出一種面向OA期刊站點(diǎn)的論文資源發(fā)現(xiàn)方法。該方法首先通過提取OA期刊站點(diǎn)的首頁(yè)特征構(gòu)建C4.5決策樹;然后利用決策樹對(duì)期刊站點(diǎn)進(jìn)行分類;最后針對(duì)這兩類OA期刊站點(diǎn)分別提出一種論文資源發(fā)現(xiàn)算法,并將論文資源信息保存到論文信息資源庫(kù)文件。 再次,針對(duì)構(gòu)建OA期刊知識(shí)元數(shù)據(jù)倉(cāng)儲(chǔ)的需求,提出一種面向OA期刊站點(diǎn)的論文采集方法。該方法首先通過解析論文信息資源庫(kù)文件獲取論文的下載信息和下載參數(shù);然后利用HTTP協(xié)議下載期刊論文文件;最后根據(jù)閾值將下載的多個(gè)論文小文件打包成Sequence大文件,并上傳到HDFS。 最后,實(shí)現(xiàn)了基于Hadoop的OA期刊論文資源采集的原型系統(tǒng),并通過原型系統(tǒng)進(jìn)行了試驗(yàn)驗(yàn)證。
【關(guān)鍵詞】:開放存取 OA期刊站點(diǎn) 論文資源發(fā)現(xiàn) C4.5決策樹 期刊卷期目錄 檢索接口
【學(xué)位授予單位】:燕山大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP391.3
【目錄】:
  • 摘要5-6
  • Abstract6-11
  • 第1章 緒論11-17
  • 1.1 課題背景及意義11-12
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀12-15
  • 1.2.1 OA期刊資源整合的研究現(xiàn)狀12-13
  • 1.2.2 DeepWeb資源發(fā)現(xiàn)和采集的研究現(xiàn)狀13-14
  • 1.2.3 Web信息抽取技術(shù)的研究現(xiàn)狀14-15
  • 1.2.4 Hadoop技術(shù)的研究現(xiàn)狀15
  • 1.3 本文的主要研究?jī)?nèi)容15-16
  • 1.4 本文組織結(jié)構(gòu)16-17
  • 第2章 基礎(chǔ)知識(shí)和相關(guān)技術(shù)17-25
  • 2.1 HTML解析工具的介紹17-18
  • 2.2 網(wǎng)絡(luò)爬蟲技術(shù)介紹18-19
  • 2.3 Web信息抽取技術(shù)介紹19-20
  • 2.4 決策樹簡(jiǎn)介20-22
  • 2.5 Hadoop簡(jiǎn)介22-24
  • 2.5.1 HDFS22-23
  • 2.5.2 MapReduce編程模型23-24
  • 2.6 本章小結(jié)24-25
  • 第3章 OA期刊論文資源采集系統(tǒng)的框架設(shè)計(jì)25-33
  • 3.1 系統(tǒng)框架25-28
  • 3.1.1 OA期刊論文資源采集系統(tǒng)框架25-26
  • 3.1.2 系統(tǒng)總體模塊26-27
  • 3.1.3 系統(tǒng)總體流程27-28
  • 3.2 系統(tǒng)中的主要模塊28-32
  • 3.2.1 分布式論文資源發(fā)現(xiàn)模塊28-29
  • 3.2.2 分布式論文資源采集模塊29-31
  • 3.2.3 更新檢測(cè)模塊31-32
  • 3.3 本章小結(jié)32-33
  • 第4章 面向OA期刊站點(diǎn)的論文資源發(fā)現(xiàn)方法33-45
  • 4.1 OA期刊論文資源發(fā)現(xiàn)流程33-34
  • 4.2 OA期刊站點(diǎn)分類34-37
  • 4.2.1 首頁(yè)特征選取34-35
  • 4.2.2 構(gòu)建 C4.5 決策樹35-36
  • 4.2.3 基于決策樹 C4.5 的OA期刊站點(diǎn)分類算法36-37
  • 4.3 期刊站點(diǎn)內(nèi)論文資源發(fā)現(xiàn)37-44
  • 4.3.1 卷期目錄型期刊站點(diǎn)內(nèi)論文資源發(fā)現(xiàn)37-41
  • 4.3.2 檢索接口型期刊站點(diǎn)內(nèi)論文資源發(fā)現(xiàn)41-44
  • 4.4 本章小結(jié)44-45
  • 第5章 面向OA期刊站點(diǎn)的論文資源的采集方法45-55
  • 5.1 OA期刊論文資源采集流程45-46
  • 5.2 OA期刊論文資源采集46-51
  • 5.2.1 論文信息資源庫(kù)文件解析46-48
  • 5.2.2 pdf論文采集48-51
  • 5.3 pdf小文件處理51-52
  • 5.4 期刊站點(diǎn)的更新檢測(cè)52-54
  • 5.4.1 更新檢測(cè)的時(shí)間間隔的判定53
  • 5.4.2 更新檢測(cè)判定53-54
  • 5.5 本章小結(jié)54-55
  • 第6章 系統(tǒng)實(shí)現(xiàn)與實(shí)驗(yàn)分析55-72
  • 6.1 環(huán)境搭建55-57
  • 6.1.1 Hadoop平臺(tái)搭建55-56
  • 6.1.2 Hadoop環(huán)境配置56-57
  • 6.2 系統(tǒng)主要功能模塊的實(shí)現(xiàn)57-66
  • 6.2.1 分布式論文資源發(fā)現(xiàn)模塊實(shí)現(xiàn)58-63
  • 6.2.2 分布式論文資源采集模塊實(shí)現(xiàn)63-66
  • 6.3 論文資源發(fā)現(xiàn)實(shí)驗(yàn)與分析66-68
  • 6.3.1 實(shí)驗(yàn)數(shù)據(jù)及其評(píng)價(jià)標(biāo)準(zhǔn)66-67
  • 6.3.2 OA 期刊站點(diǎn)分類實(shí)驗(yàn)67-68
  • 6.3.3 OA 期刊論文資源發(fā)現(xiàn)算法實(shí)驗(yàn)68
  • 6.4 論文資源采集實(shí)驗(yàn)與分析68-71
  • 6.4.1 評(píng)價(jià)標(biāo)準(zhǔn)68-69
  • 6.4.2 OA 期刊論文資源采集算法實(shí)驗(yàn)69-70
  • 6.4.3 單機(jī)環(huán)境和集群環(huán)境下采集效率的對(duì)比70-71
  • 6.5 本章小結(jié)71-72
  • 結(jié)論72-74
  • 參考文獻(xiàn)74-77
  • 攻讀碩士學(xué)位期間承擔(dān)的科研任務(wù)與主要成果77-78
  • 致謝78-79
  • 作者簡(jiǎn)介79

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條

1 何召衛(wèi);陳俊亮;;基于本體關(guān)系匹配的信息抽取[J];計(jì)算機(jī)工程;2007年21期

2 陳艷;;初識(shí)HTML語(yǔ)言[J];科技信息;2009年03期


  本文關(guān)鍵詞:基于Hadoop的OA期刊論文資源發(fā)現(xiàn)及采集方法,由筆耕文化傳播整理發(fā)布。



本文編號(hào):335947

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenshubaike/xingzhengshiwu/335947.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶153ab***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
一区二区三区精品人妻| 久久女同精品一区二区| 狠狠干狠狠操在线播放| 91欧美亚洲视频在线| 欧美一区二区在线日韩| 午夜成年人黄片免费观看| 中文人妻精品一区二区三区四区| 国内外免费在线激情视频| 久久国产精品热爱视频| 日韩黄色大片免费在线| 91超频在线视频中文字幕| 翘臀少妇成人一区二区| 国产又粗又深又猛又爽又黄| 午夜视频成人在线免费| 欧美色婷婷综合狠狠爱| 超薄丝袜足一区二区三区| 久久精品蜜桃一区二区av| 国产成人午夜福利片片| 国产不卡的视频在线观看| 久久少妇诱惑免费视频| 老司机精品视频在线免费| 日韩精品毛片视频免费看| 激情国产白嫩美女在线观看| 亚洲深夜精品福利一区| 欧美字幕一区二区三区| 欧美黑人巨大一区二区三区| 欧美日韩黑人免费观看| 尹人大香蕉中文在线播放| 国产麻豆一区二区三区在| 日本成人三级在线播放| 亚洲视频偷拍福利来袭| 国产又猛又黄又粗又爽无遮挡 | 午夜精品久久久99热连载| 日本精品中文字幕人妻| 又色又爽又无遮挡的视频| 日韩精品视频一二三区| 国产一级特黄在线观看| 精品国产品国语在线不卡| 国产日韩熟女中文字幕| 日韩精品免费一区三区| 91超精品碰国产在线观看|