天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 管理論文 > 項目管理論文 >

基于Hadoop的分布式藏文新聞網站垂直搜索引擎設計與實現

發(fā)布時間:2017-09-10 22:20

  本文關鍵詞:基于Hadoop的分布式藏文新聞網站垂直搜索引擎設計與實現


  更多相關文章: 藏文 垂直搜索引擎 分布式 新聞


【摘要】:在網絡發(fā)展日新月異的今天,各種形式的信息呈現爆炸式增長的態(tài)勢,這給傳統(tǒng)搜索引擎快速去除無關內容、及時索引、準確檢索帶來了嚴峻的挑戰(zhàn)。同時,面對傳統(tǒng)搜索引擎返回的海量檢索結果,我們常常需要花費很長時間來尋找真正需要的內容,可是結果仍然未必能如我們所愿,這一點無論是國外還是國內的搜索引擎都無法給出完美的解決方案。而垂直搜索引擎因其針對某一特定領域或人群的特性,有效地改善了這一現狀,過濾了海量無關、冗余信息,提高了檢索效率,最重要的是幫助用戶快速、精準地鎖定目標信息。隨著藏族網民數量的逐年增加,人們獲取藏文新聞的需求也越來越普遍。然而藏文的新聞網站卻存在分布的比較分散,訪問難度大;新聞更新不及時、新聞質量沒有保證;網站之間新聞內容區(qū)分度不高,并且含有大量的無效網址、亂碼新聞頁面的特點,這給藏文新聞的傳播帶來了巨大阻礙。為了幫助人們高效、精確地瀏覽藏文新聞,本文設計和實現了一個基于Hadoop的分布式藏文新聞網站垂直搜索引擎,將垂直搜索引擎首次應用在藏文新聞領域。本文的設計方案在保證垂直搜索引擎精準性的前提下,有效地解決了上述問題,本文主要貢獻如下:(1)設計并實現了基于Hadoop的分布式藏文新聞網站垂直搜索引擎系統(tǒng)。本系統(tǒng)嚴格按照傳統(tǒng)軟件項目管理流程設計。首先,從功能、界面、性能需求三個方向對軟件進行細致的需求分析,并完成系統(tǒng)總體架構分析;其次,通過研究語料的選取來確定研究的領域,并具體分析系統(tǒng)研究數據的各項指標;最后,實現系統(tǒng)的功能模塊,包括網絡爬蟲模塊、信息預處理模塊及索引和檢索模塊三大部分。(2)提出了藏文網絡爬蟲解決方案。本文分析了常見網絡爬蟲的工作原理,在此基礎上開發(fā)了適合藏文新聞網站的爬蟲解決方案,此解決方案實現了跨平臺性,增加了系統(tǒng)可靠性。(3)提出了高頻文章推薦算法。結合藏文新聞網頁數量較少的特點,本文開發(fā)了高頻文章推薦算法,將時下用戶關注的熱點新聞定向推薦給用戶。(4)基于Hadoop的分布式藏文新聞網站垂直搜索引擎系統(tǒng)軟件測試。系統(tǒng)開發(fā)結束,即進行了細致的軟件測試。通過黑盒測試對系統(tǒng)界面、用戶交互和性能三方面進行測試發(fā)現,本系統(tǒng)符合設計預期,可以滿足用戶使用需求?傊,本文的創(chuàng)新點在于,設計、實現了基于Hadoop的分布式藏文新聞網站垂直搜索引擎系統(tǒng),通過了全面而系統(tǒng)的軟件測試,并提出了藏文網絡爬蟲解決方案和高頻文章推薦算法。
【關鍵詞】:藏文 垂直搜索引擎 分布式 新聞
【學位授予單位】:中央民族大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.3;TP393.092
【目錄】:
  • 摘要3-6
  • ABSTRACT6-14
  • 第一章 緒論14-19
  • 1.1 研究背景與意義14-15
  • 1.2 研究現狀15-17
  • 1.2.1 國內研究現狀15-16
  • 1.2.2 國外研究現狀16-17
  • 1.3 主要研究內容17
  • 1.4 論文組織結構17-19
  • 第二章 系統(tǒng)理論基礎及關鍵技術分析19-30
  • 2.1 搜索引擎概述19-21
  • 2.1.1 搜索引擎的概念19-20
  • 2.1.2 搜索引擎的發(fā)展20-21
  • 2.1.3 垂直搜索引擎的優(yōu)勢和特征21
  • 2.2 網絡爬蟲技術21-23
  • 2.2.1 網絡爬蟲(Spider)21-22
  • 2.2.2 網絡爬蟲的工作過程22-23
  • 2.3 分布式存儲技術23-24
  • 2.4 藏文分詞技術24-25
  • 2.4.1 藏文分詞的方法24-25
  • 2.5 網頁去重技術25-28
  • 2.5.1 網頁去重策略26-28
  • 2.6 倒排索引技術28
  • 2.7 檢索排序技術28-29
  • 2.8 本章小結29-30
  • 第三章 系統(tǒng)需求分析30-35
  • 3.1 系統(tǒng)需求分析30-33
  • 3.1.1 系統(tǒng)的功能需求30-32
  • 3.1.2 系統(tǒng)的界面需求32
  • 3.1.3 系統(tǒng)的性能需求32-33
  • 3.2 系統(tǒng)總體架構分析33-34
  • 3.3 本章小結34-35
  • 第四章 系統(tǒng)設計與實現35-45
  • 4.1 研究語料35-36
  • 4.2 網絡爬蟲模塊設計與實現36-39
  • 4.3 信息預處理模塊設計與實現39-42
  • 4.3.1 去噪預處理40-41
  • 4.3.2 藏文分詞預處理41-42
  • 4.4 索引和檢索模塊設計與實現42-44
  • 4.4.1 索引模塊42
  • 4.4.2 查詢模塊42-44
  • 4.4.3 高頻文章推薦44
  • 4.5 本章小結44-45
  • 第五章 系統(tǒng)測試45-56
  • 5.1 測試的評價原則與標準45-46
  • 5.2 測試的環(huán)境46-48
  • 5.3 系統(tǒng)功能測試48-53
  • 5.4 系統(tǒng)性能測試53-54
  • 5.5 本章小結54-56
  • 第六章 總結與展望56-58
  • 參考文獻58-62
  • 致謝62-63
  • 攻讀學位期間發(fā)表的學術論文目錄63

【相似文獻】

中國期刊全文數據庫 前10條

1 楊堅爭;李朝平;;垂直搜索引擎及其應用[J];電子商務;2006年10期

2 羅麗姍;;垂直搜索引擎發(fā)展概述[J];圖書館學研究;2006年12期

3 嚴宏偉;何俊;;基于房源分析系統(tǒng)的垂直搜索引擎關鍵技術的探討[J];中國科技信息;2007年05期

4 胡華梁;何進;鐘元生;;圖書垂直搜索引擎的設計[J];計算機與現代化;2007年08期

5 鄭凱明;李義杰;;垂直搜索引擎及其應用價值[J];信息技術;2008年04期

6 畢建濤;霍云福;;垂直搜索引擎贏利模式探討[J];大連大學學報;2008年03期

7 許鑫;黃仲清;;垂直搜索引擎應用中的若干策略探討——以12580餐飲垂直搜索為例[J];現代圖書情報技術;2009年02期

8 孔祥春;李義杰;鄭凱明;;垂直搜索引擎應用研究[J];計算機系統(tǒng)應用;2009年07期

9 楊皖蘇;閆冬;;垂直搜索引擎發(fā)展策略探討[J];商業(yè)時代;2009年23期

10 肖婷;;垂直搜索引擎與旅游行業(yè)探討[J];農業(yè)網絡信息;2009年11期

中國重要會議論文全文數據庫 前4條

1 褚蓓蓓;劉丹;;垂直搜索引擎:搜索引擎發(fā)展方向[A];2007年河北省電子學會、河北省計算機學會、河北省自動化學會、河北省人工智能學會、河北省計算機輔助設計研究會、河北省軟件行業(yè)協(xié)會聯合學術年會論文集[C];2007年

2 林歡歡;王文杰;史忠植;;移動環(huán)境下垂直搜索引擎[A];第三屆全國信息檢索與內容安全學術會議論文集[C];2007年

3 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設計與實現[A];第26屆中國數據庫學術會議論文集(B輯)[C];2009年

4 毛華揚;劉衛(wèi);;會計信息搜索方法研究[A];第十屆全國會計信息化年會論文集[C];2011年

中國重要報紙全文數據庫 前10條

1 北大縱橫管理顧問公司高級顧問戴曉東;“商搜”變法 垂直搜索引擎的春天還遠嗎?[N];中國經營報;2006年

2 王艷;垂直搜索引擎市場看好[N];中國旅游報;2000年

3 王靖;賽迪網推出垂直搜索引擎[N];人民日報海外版;2000年

4 楊國民;國內生物醫(yī)藥行業(yè) 垂直搜索引擎誕生[N];經濟日報;2007年

5 本報記者 王曉雁;垂直搜索引擎著作權之爭未破題[N];法制日報;2009年

6 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學技術情報研究所 周峻松;用開源軟件建垂直搜索引擎[N];計算機世界;2010年

7 中新;生意寶推“生意搜”攪局電子商務搜索市場[N];經理日報;2008年

8 源訊 編譯;搜索巨頭的下一步[N];計算機世界;2006年

9 賽迪網 方剛;不只是網站才垂直[N];中國計算機報;2000年

10 ;沱沱網“亮劍”國際消費電子博覽會 專業(yè)服務帶來B2B差異化變革[N];中國貿易報;2007年

中國博士學位論文全文數據庫 前5條

1 王曄;垂直搜索引擎若干問題研究[D];復旦大學;2011年

2 吳羽;面向時間敏感對象的垂直搜索引擎關鍵技術研究[D];浙江大學;2011年

3 胡宜敏;農業(yè)垂直搜索引擎語義化若干問題的研究與實現[D];中國科學技術大學;2012年

4 陳竹敏;面向垂直搜索引擎的主題爬行技術研究[D];山東大學;2008年

5 王桂紅;農產品市場價格web信息分析方法研究[D];沈陽農業(yè)大學;2013年

中國碩士學位論文全文數據庫 前10條

1 韓冰;垂直搜索引擎?zhèn)性化推薦研究與應用[D];大連理工大學;2009年

2 關小敏;垂直搜索引擎的研究與實現[D];北京郵電大學;2012年

3 吳燕瑋;基于行業(yè)知識垂直搜索引擎的研究與實現[D];北京郵電大學;2012年

4 黃興財;大學生職位垂直c\索引擎的設計與實現[D];電子科技大學;2015年

5 陳龍飛;垂直搜索引擎在煙草行業(yè)的研究與應用[D];浙江理工大學;2016年

6 林祖新;視頻垂直搜索引擎中信息抽取與存儲系統(tǒng)的設計與實現[D];北京郵電大學;2013年

7 張亞鳳;垂直搜索引擎中關鍵技術的研究[D];長春工業(yè)大學;2016年

8 桂佳;招聘信息垂直搜索引擎系統(tǒng)設計與實現[D];華中科技大學;2014年

9 韓志強;基于Hadoop的分布式藏文新聞網站垂直搜索引擎設計與實現[D];中央民族大學;2016年

10 吳昊;垂直搜索引擎關鍵技術研究及分布式實現[D];東南大學;2016年

,

本文編號:826968

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/xiangmuguanli/826968.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶c51f9***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
免费在线成人午夜视频| 五月情婷婷综合激情综合狠狠 | 国产日韩欧美一区二区| 91插插插外国一区二区| 日本在线高清精品人妻| 免费观看在线午夜视频| av在线免费播放一区二区| 一区二区三区在线不卡免费| 好吊妞在线免费观看视频| 深夜少妇一区二区三区| 精品日韩视频在线观看| 欧美大粗爽一区二区三区| 欧洲一级片一区二区三区| 加勒比人妻精品一区二区| 欧美有码黄片免费在线视频| 色老汉在线视频免费亚欧| 国产伦精品一区二区三区精品视频 | 日本成人中文字幕一区| 又色又爽又无遮挡的视频| 国产精品亚洲一级av第二区| 国产欧美日本在线播放| 欧美一区二区三区在线播放| 手机在线不卡国产视频| 国内精品一区二区欧美| 日韩欧美中文字幕人妻| 丰满人妻熟妇乱又乱精品古代| 最新日韩精品一推荐日韩精品| 老熟妇2久久国内精品| 大伊香蕉一区二区三区| 91麻豆视频国产一区二区| 国产毛片av一区二区三区小说| 欧美一二三区高清不卡| 小黄片大全欧美一区二区| 97人妻人人揉人人躁人人| 一区二区在线激情视频| 精品推荐久久久国产av| 国产传媒精品视频一区| 日本黄色高清视频久久| 精品一区二区三区中文字幕| 国产精品人妻熟女毛片av久| 国产午夜福利在线观看精品|