天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于Nutch的節(jié)能減排垂直搜索引擎的設(shè)計與實現(xiàn)

發(fā)布時間:2017-04-09 20:15

  本文關(guān)鍵詞:基于Nutch的節(jié)能減排垂直搜索引擎的設(shè)計與實現(xiàn),由筆耕文化傳播整理發(fā)布。


【摘要】:為了促進(jìn)經(jīng)濟的可持續(xù)發(fā)展,緩解環(huán)境保護(hù)的壓力,國家開始推行節(jié)能減排工作,希望借此解決當(dāng)代中國發(fā)展所面臨有關(guān)資源環(huán)境方面的問題,最終實現(xiàn)以環(huán)境友好的方式進(jìn)行經(jīng)濟建設(shè)。伴隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,互聯(lián)網(wǎng)上有關(guān)節(jié)能減排的信息急劇上升,相關(guān)用戶也希望能夠快速有效的找到與節(jié)能減排相關(guān)的信息。但使用傳統(tǒng)的搜索引擎進(jìn)行檢索一般會出現(xiàn)大量無用的信息,使得用戶獲取有價值信息的難度加大。為了解決這一問題,本文采用開源框架Nutch實現(xiàn)了一個針對節(jié)能減排領(lǐng)域的搜索引擎。主要內(nèi)容如下:(1)面向節(jié)能減排領(lǐng)域,完成垂直搜索引擎的開發(fā)工作。為了用戶更方便的獲取節(jié)能減排領(lǐng)域的信息,本文在開源網(wǎng)絡(luò)爬蟲Nutch基礎(chǔ)上利用插件機制對其進(jìn)行二次開發(fā),并結(jié)合了信息提取、分類和主題判定等技術(shù)。本文采用了網(wǎng)頁模板技術(shù)對網(wǎng)絡(luò)爬蟲抓取下來的網(wǎng)頁進(jìn)行過濾,去除不符合模板提取規(guī)則的頁面,并對網(wǎng)頁部分信息進(jìn)行提取,提高信息提取的準(zhǔn)確性;采用了向量空間模型對節(jié)能減排主題領(lǐng)域進(jìn)行判斷,獲取主題相關(guān)頁面;采用了關(guān)鍵詞判斷與樸素貝葉斯分類算法相結(jié)合的方式將網(wǎng)頁分成政策資訊、標(biāo)準(zhǔn)規(guī)范、技術(shù)文獻(xiàn)三類,并用同樣的方法將網(wǎng)頁按照行業(yè)進(jìn)行分類。(2)針對搜索引擎完成系統(tǒng)管理平臺的開發(fā)工作。為了方便不熟悉搜索引擎的人員能夠完成對本搜索引擎相關(guān)功能的擴展和管理,設(shè)計并完成了一個基于B/S模式的系統(tǒng)管理平臺。該平臺主要提供了檢索關(guān)鍵詞管理,標(biāo)準(zhǔn)規(guī)范和技術(shù)文獻(xiàn)兩類本地庫的索引管理,初始種子管理,網(wǎng)頁模板和模版庫管理以及網(wǎng)頁信息類別管理等功能。
【關(guān)鍵詞】:節(jié)能減排 Nutch 垂直搜索引擎 網(wǎng)頁模板 向量空間模型 樸素貝葉斯分類算法
【學(xué)位授予單位】:安徽工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.3
【目錄】:
  • 摘要3-4
  • Abstract4-8
  • 第一章 緒論8-14
  • 1.1 課題的背景和意義8-9
  • 1.2 搜索引擎發(fā)展歷史9
  • 1.3 國內(nèi)外研究現(xiàn)狀9-11
  • 1.3.1 國外研究現(xiàn)狀10-11
  • 1.3.2 國內(nèi)研究現(xiàn)狀11
  • 1.4 研究的主要內(nèi)容11-12
  • 1.5 論文的組織結(jié)構(gòu)12-14
  • 第二章 垂直搜索引擎原理及Nutch技術(shù)14-27
  • 2.1 搜索引擎概述14-17
  • 2.1.1 通用搜索引擎14-15
  • 2.1.2 垂直搜索引擎15
  • 2.1.3 搜索引擎原理結(jié)構(gòu)15-16
  • 2.1.4 垂直搜索引擎與通用搜索引擎的比較16-17
  • 2.2 垂直搜索引擎關(guān)鍵技術(shù)17-23
  • 2.2.1 信息抓取技術(shù)17-20
  • 2.2.2 信息抽取技術(shù)20-21
  • 2.2.3 索引技術(shù)21-22
  • 2.2.4 中文分詞技術(shù)22-23
  • 2.3 Nutch相關(guān)技術(shù)23-27
  • 2.3.1 Nutch簡介23-24
  • 2.3.2 Nutch系統(tǒng)架構(gòu)24-26
  • 2.3.3 Nutch插件機制26-27
  • 第三章 垂直搜索引擎的實現(xiàn)27-46
  • 3.1 搜索引擎總架構(gòu)設(shè)計27-29
  • 3.1.1 搜索引擎體系結(jié)構(gòu)27-28
  • 3.1.2 搜索引擎設(shè)計思路28-29
  • 3.2 網(wǎng)絡(luò)爬蟲設(shè)計29-32
  • 3.2.1 Nutch網(wǎng)絡(luò)爬蟲的搭建30-31
  • 3.2.2 初始URL種子設(shè)定31-32
  • 3.3 網(wǎng)頁模板技術(shù)的實現(xiàn)32-34
  • 3.3.1 網(wǎng)頁的特征32-33
  • 3.3.2 網(wǎng)頁模板的設(shè)計33-34
  • 3.4 特征詞庫的確定34-37
  • 3.4.1 權(quán)重的計算方法35-36
  • 3.4.2 特征詞庫選擇步驟36-37
  • 3.5 主題相關(guān)性判別的實現(xiàn)37-40
  • 3.5.1 向量空間模型37-39
  • 3.5.2 主題相關(guān)性判別方法39-40
  • 3.6 網(wǎng)頁信息分類的實現(xiàn)40-44
  • 3.6.1 樸素貝葉斯分類算法41-42
  • 3.6.2 網(wǎng)頁信息分類方法42-44
  • 3.7 用戶檢索接口功能擴展44-46
  • 第四章 垂直搜索引擎系統(tǒng)管理平臺的設(shè)計與實現(xiàn)46-55
  • 4.1 系統(tǒng)管理平臺需求分析46-47
  • 4.2 系統(tǒng)管理平臺系統(tǒng)設(shè)計47-55
  • 4.2.1 系統(tǒng)功能模塊設(shè)計47-51
  • 4.2.2 數(shù)據(jù)庫設(shè)計51-55
  • 第五章 系統(tǒng)運行和測試55-66
  • 5.1 系統(tǒng)運行條件55
  • 5.2 垂直搜索引擎測試和分析55-60
  • 5.2.1 系統(tǒng)的運行55-57
  • 5.2.2 系統(tǒng)相關(guān)測試57-60
  • 5.3 垂直搜索引擎管理平臺測試和分析60-66
  • 5.3.1 管理平臺運行60
  • 5.3.2 主要模塊功能測試60-66
  • 第六章 總結(jié)與展望66-68
  • 6.1 總結(jié)66-67
  • 6.2 展望67-68
  • 參考文獻(xiàn)68-71
  • 在學(xué)研究成果71-72
  • 致謝72

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 楊堅爭;李朝平;;垂直搜索引擎及其應(yīng)用[J];電子商務(wù);2006年10期

2 羅麗姍;;垂直搜索引擎發(fā)展概述[J];圖書館學(xué)研究;2006年12期

3 嚴(yán)宏偉;何俊;;基于房源分析系統(tǒng)的垂直搜索引擎關(guān)鍵技術(shù)的探討[J];中國科技信息;2007年05期

4 胡華梁;何進(jìn);鐘元生;;圖書垂直搜索引擎的設(shè)計[J];計算機與現(xiàn)代化;2007年08期

5 鄭凱明;李義杰;;垂直搜索引擎及其應(yīng)用價值[J];信息技術(shù);2008年04期

6 畢建濤;霍云福;;垂直搜索引擎贏利模式探討[J];大連大學(xué)學(xué)報;2008年03期

7 許鑫;黃仲清;;垂直搜索引擎應(yīng)用中的若干策略探討——以12580餐飲垂直搜索為例[J];現(xiàn)代圖書情報技術(shù);2009年02期

8 孔祥春;李義杰;鄭凱明;;垂直搜索引擎應(yīng)用研究[J];計算機系統(tǒng)應(yīng)用;2009年07期

9 楊皖蘇;閆冬;;垂直搜索引擎發(fā)展策略探討[J];商業(yè)時代;2009年23期

10 肖婷;;垂直搜索引擎與旅游行業(yè)探討[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2009年11期

中國重要會議論文全文數(shù)據(jù)庫 前4條

1 褚蓓蓓;劉丹;;垂直搜索引擎:搜索引擎發(fā)展方向[A];2007年河北省電子學(xué)會、河北省計算機學(xué)會、河北省自動化學(xué)會、河北省人工智能學(xué)會、河北省計算機輔助設(shè)計研究會、河北省軟件行業(yè)協(xié)會聯(lián)合學(xué)術(shù)年會論文集[C];2007年

2 林歡歡;王文杰;史忠植;;移動環(huán)境下垂直搜索引擎[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年

3 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設(shè)計與實現(xiàn)[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2009年

4 毛華揚;劉衛(wèi);;會計信息搜索方法研究[A];第十屆全國會計信息化年會論文集[C];2011年

中國重要報紙全文數(shù)據(jù)庫 前10條

1 北大縱橫管理顧問公司高級顧問戴曉東;“商搜”變法 垂直搜索引擎的春天還遠(yuǎn)嗎?[N];中國經(jīng)營報;2006年

2 王艷;垂直搜索引擎市場看好[N];中國旅游報;2000年

3 王靖;賽迪網(wǎng)推出垂直搜索引擎[N];人民日報海外版;2000年

4 楊國民;國內(nèi)生物醫(yī)藥行業(yè) 垂直搜索引擎誕生[N];經(jīng)濟日報;2007年

5 本報記者 王曉雁;垂直搜索引擎著作權(quán)之爭未破題[N];法制日報;2009年

6 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學(xué)技術(shù)情報研究所 周峻松;用開源軟件建垂直搜索引擎[N];計算機世界;2010年

7 中新;生意寶推“生意搜”攪局電子商務(wù)搜索市場[N];經(jīng)理日報;2008年

8 源訊 編譯;搜索巨頭的下一步[N];計算機世界;2006年

9 賽迪網(wǎng) 方剛;不只是網(wǎng)站才垂直[N];中國計算機報;2000年

10 ;沱沱網(wǎng)“亮劍”國際消費電子博覽會 專業(yè)服務(wù)帶來B2B差異化變革[N];中國貿(mào)易報;2007年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前5條

1 王曄;垂直搜索引擎若干問題研究[D];復(fù)旦大學(xué);2011年

2 吳羽;面向時間敏感對象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年

3 胡宜敏;農(nóng)業(yè)垂直搜索引擎語義化若干問題的研究與實現(xiàn)[D];中國科學(xué)技術(shù)大學(xué);2012年

4 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年

5 王桂紅;農(nóng)產(chǎn)品市場價格web信息分析方法研究[D];沈陽農(nóng)業(yè)大學(xué);2013年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 韓冰;垂直搜索引擎?zhèn)性化推薦研究與應(yīng)用[D];大連理工大學(xué);2009年

2 關(guān)小敏;垂直搜索引擎的研究與實現(xiàn)[D];北京郵電大學(xué);2012年

3 吳燕瑋;基于行業(yè)知識垂直搜索引擎的研究與實現(xiàn)[D];北京郵電大學(xué);2012年

4 柳力麗;旅游垂直搜索引擎的品牌傳播研究[D];西南大學(xué);2015年

5 錢永杰;面向網(wǎng)絡(luò)文學(xué)的垂直搜索引擎的研究與實現(xiàn)[D];曲阜師范大學(xué);2015年

6 袁鳳云;垂直搜索引擎關(guān)鍵技術(shù)研究與實現(xiàn)[D];電子科技大學(xué);2014年

7 任睿麗;面向旅游業(yè)的垂直搜索引擎的設(shè)計與實現(xiàn)[D];電子科技大學(xué);2014年

8 張高偉;基于ElasticSearch的分布式視頻垂直搜索引擎的設(shè)計與實現(xiàn)[D];哈爾濱工業(yè)大學(xué);2014年

9 朱鵬;英文語料庫垂直搜索引擎的研究與實現(xiàn)[D];北京郵電大學(xué);2015年

10 楊小丹;面向教育資源c\索引擎的研究與實現(xiàn)[D];電子科技大學(xué);2015年


  本文關(guān)鍵詞:基于Nutch的節(jié)能減排垂直搜索引擎的設(shè)計與實現(xiàn),由筆耕文化傳播整理發(fā)布。

,

本文編號:296033

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/296033.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶bb304***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com