天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Hadoop的分布式藏文新聞網(wǎng)站垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2017-09-10 22:20

  本文關(guān)鍵詞:基于Hadoop的分布式藏文新聞網(wǎng)站垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)


  更多相關(guān)文章: 藏文 垂直搜索引擎 分布式 新聞


【摘要】:在網(wǎng)絡(luò)發(fā)展日新月異的今天,各種形式的信息呈現(xiàn)爆炸式增長(zhǎng)的態(tài)勢(shì),這給傳統(tǒng)搜索引擎快速去除無關(guān)內(nèi)容、及時(shí)索引、準(zhǔn)確檢索帶來了嚴(yán)峻的挑戰(zhàn)。同時(shí),面對(duì)傳統(tǒng)搜索引擎返回的海量檢索結(jié)果,我們常常需要花費(fèi)很長(zhǎng)時(shí)間來尋找真正需要的內(nèi)容,可是結(jié)果仍然未必能如我們所愿,這一點(diǎn)無論是國(guó)外還是國(guó)內(nèi)的搜索引擎都無法給出完美的解決方案。而垂直搜索引擎因其針對(duì)某一特定領(lǐng)域或人群的特性,有效地改善了這一現(xiàn)狀,過濾了海量無關(guān)、冗余信息,提高了檢索效率,最重要的是幫助用戶快速、精準(zhǔn)地鎖定目標(biāo)信息。隨著藏族網(wǎng)民數(shù)量的逐年增加,人們獲取藏文新聞的需求也越來越普遍。然而藏文的新聞網(wǎng)站卻存在分布的比較分散,訪問難度大;新聞更新不及時(shí)、新聞質(zhì)量沒有保證;網(wǎng)站之間新聞內(nèi)容區(qū)分度不高,并且含有大量的無效網(wǎng)址、亂碼新聞頁(yè)面的特點(diǎn),這給藏文新聞的傳播帶來了巨大阻礙。為了幫助人們高效、精確地瀏覽藏文新聞,本文設(shè)計(jì)和實(shí)現(xiàn)了一個(gè)基于Hadoop的分布式藏文新聞網(wǎng)站垂直搜索引擎,將垂直搜索引擎首次應(yīng)用在藏文新聞?lì)I(lǐng)域。本文的設(shè)計(jì)方案在保證垂直搜索引擎精準(zhǔn)性的前提下,有效地解決了上述問題,本文主要貢獻(xiàn)如下:(1)設(shè)計(jì)并實(shí)現(xiàn)了基于Hadoop的分布式藏文新聞網(wǎng)站垂直搜索引擎系統(tǒng)。本系統(tǒng)嚴(yán)格按照傳統(tǒng)軟件項(xiàng)目管理流程設(shè)計(jì)。首先,從功能、界面、性能需求三個(gè)方向?qū)浖M(jìn)行細(xì)致的需求分析,并完成系統(tǒng)總體架構(gòu)分析;其次,通過研究語(yǔ)料的選取來確定研究的領(lǐng)域,并具體分析系統(tǒng)研究數(shù)據(jù)的各項(xiàng)指標(biāo);最后,實(shí)現(xiàn)系統(tǒng)的功能模塊,包括網(wǎng)絡(luò)爬蟲模塊、信息預(yù)處理模塊及索引和檢索模塊三大部分。(2)提出了藏文網(wǎng)絡(luò)爬蟲解決方案。本文分析了常見網(wǎng)絡(luò)爬蟲的工作原理,在此基礎(chǔ)上開發(fā)了適合藏文新聞網(wǎng)站的爬蟲解決方案,此解決方案實(shí)現(xiàn)了跨平臺(tái)性,增加了系統(tǒng)可靠性。(3)提出了高頻文章推薦算法。結(jié)合藏文新聞網(wǎng)頁(yè)數(shù)量較少的特點(diǎn),本文開發(fā)了高頻文章推薦算法,將時(shí)下用戶關(guān)注的熱點(diǎn)新聞定向推薦給用戶。(4)基于Hadoop的分布式藏文新聞網(wǎng)站垂直搜索引擎系統(tǒng)軟件測(cè)試。系統(tǒng)開發(fā)結(jié)束,即進(jìn)行了細(xì)致的軟件測(cè)試。通過黑盒測(cè)試對(duì)系統(tǒng)界面、用戶交互和性能三方面進(jìn)行測(cè)試發(fā)現(xiàn),本系統(tǒng)符合設(shè)計(jì)預(yù)期,可以滿足用戶使用需求?傊,本文的創(chuàng)新點(diǎn)在于,設(shè)計(jì)、實(shí)現(xiàn)了基于Hadoop的分布式藏文新聞網(wǎng)站垂直搜索引擎系統(tǒng),通過了全面而系統(tǒng)的軟件測(cè)試,并提出了藏文網(wǎng)絡(luò)爬蟲解決方案和高頻文章推薦算法。
【關(guān)鍵詞】:藏文 垂直搜索引擎 分布式 新聞
【學(xué)位授予單位】:中央民族大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.3;TP393.092
【目錄】:
  • 摘要3-6
  • ABSTRACT6-14
  • 第一章 緒論14-19
  • 1.1 研究背景與意義14-15
  • 1.2 研究現(xiàn)狀15-17
  • 1.2.1 國(guó)內(nèi)研究現(xiàn)狀15-16
  • 1.2.2 國(guó)外研究現(xiàn)狀16-17
  • 1.3 主要研究?jī)?nèi)容17
  • 1.4 論文組織結(jié)構(gòu)17-19
  • 第二章 系統(tǒng)理論基礎(chǔ)及關(guān)鍵技術(shù)分析19-30
  • 2.1 搜索引擎概述19-21
  • 2.1.1 搜索引擎的概念19-20
  • 2.1.2 搜索引擎的發(fā)展20-21
  • 2.1.3 垂直搜索引擎的優(yōu)勢(shì)和特征21
  • 2.2 網(wǎng)絡(luò)爬蟲技術(shù)21-23
  • 2.2.1 網(wǎng)絡(luò)爬蟲(Spider)21-22
  • 2.2.2 網(wǎng)絡(luò)爬蟲的工作過程22-23
  • 2.3 分布式存儲(chǔ)技術(shù)23-24
  • 2.4 藏文分詞技術(shù)24-25
  • 2.4.1 藏文分詞的方法24-25
  • 2.5 網(wǎng)頁(yè)去重技術(shù)25-28
  • 2.5.1 網(wǎng)頁(yè)去重策略26-28
  • 2.6 倒排索引技術(shù)28
  • 2.7 檢索排序技術(shù)28-29
  • 2.8 本章小結(jié)29-30
  • 第三章 系統(tǒng)需求分析30-35
  • 3.1 系統(tǒng)需求分析30-33
  • 3.1.1 系統(tǒng)的功能需求30-32
  • 3.1.2 系統(tǒng)的界面需求32
  • 3.1.3 系統(tǒng)的性能需求32-33
  • 3.2 系統(tǒng)總體架構(gòu)分析33-34
  • 3.3 本章小結(jié)34-35
  • 第四章 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)35-45
  • 4.1 研究語(yǔ)料35-36
  • 4.2 網(wǎng)絡(luò)爬蟲模塊設(shè)計(jì)與實(shí)現(xiàn)36-39
  • 4.3 信息預(yù)處理模塊設(shè)計(jì)與實(shí)現(xiàn)39-42
  • 4.3.1 去噪預(yù)處理40-41
  • 4.3.2 藏文分詞預(yù)處理41-42
  • 4.4 索引和檢索模塊設(shè)計(jì)與實(shí)現(xiàn)42-44
  • 4.4.1 索引模塊42
  • 4.4.2 查詢模塊42-44
  • 4.4.3 高頻文章推薦44
  • 4.5 本章小結(jié)44-45
  • 第五章 系統(tǒng)測(cè)試45-56
  • 5.1 測(cè)試的評(píng)價(jià)原則與標(biāo)準(zhǔn)45-46
  • 5.2 測(cè)試的環(huán)境46-48
  • 5.3 系統(tǒng)功能測(cè)試48-53
  • 5.4 系統(tǒng)性能測(cè)試53-54
  • 5.5 本章小結(jié)54-56
  • 第六章 總結(jié)與展望56-58
  • 參考文獻(xiàn)58-62
  • 致謝62-63
  • 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄63

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 楊堅(jiān)爭(zhēng);李朝平;;垂直搜索引擎及其應(yīng)用[J];電子商務(wù);2006年10期

2 羅麗姍;;垂直搜索引擎發(fā)展概述[J];圖書館學(xué)研究;2006年12期

3 嚴(yán)宏偉;何俊;;基于房源分析系統(tǒng)的垂直搜索引擎關(guān)鍵技術(shù)的探討[J];中國(guó)科技信息;2007年05期

4 胡華梁;何進(jìn);鐘元生;;圖書垂直搜索引擎的設(shè)計(jì)[J];計(jì)算機(jī)與現(xiàn)代化;2007年08期

5 鄭凱明;李義杰;;垂直搜索引擎及其應(yīng)用價(jià)值[J];信息技術(shù);2008年04期

6 畢建濤;霍云福;;垂直搜索引擎贏利模式探討[J];大連大學(xué)學(xué)報(bào);2008年03期

7 許鑫;黃仲清;;垂直搜索引擎應(yīng)用中的若干策略探討——以12580餐飲垂直搜索為例[J];現(xiàn)代圖書情報(bào)技術(shù);2009年02期

8 孔祥春;李義杰;鄭凱明;;垂直搜索引擎應(yīng)用研究[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2009年07期

9 楊皖蘇;閆冬;;垂直搜索引擎發(fā)展策略探討[J];商業(yè)時(shí)代;2009年23期

10 肖婷;;垂直搜索引擎與旅游行業(yè)探討[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2009年11期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前4條

1 褚蓓蓓;劉丹;;垂直搜索引擎:搜索引擎發(fā)展方向[A];2007年河北省電子學(xué)會(huì)、河北省計(jì)算機(jī)學(xué)會(huì)、河北省自動(dòng)化學(xué)會(huì)、河北省人工智能學(xué)會(huì)、河北省計(jì)算機(jī)輔助設(shè)計(jì)研究會(huì)、河北省軟件行業(yè)協(xié)會(huì)聯(lián)合學(xué)術(shù)年會(huì)論文集[C];2007年

2 林歡歡;王文杰;史忠植;;移動(dòng)環(huán)境下垂直搜索引擎[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

3 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年

4 毛華揚(yáng);劉衛(wèi);;會(huì)計(jì)信息搜索方法研究[A];第十屆全國(guó)會(huì)計(jì)信息化年會(huì)論文集[C];2011年

中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條

1 北大縱橫管理顧問公司高級(jí)顧問戴曉東;“商搜”變法 垂直搜索引擎的春天還遠(yuǎn)嗎?[N];中國(guó)經(jīng)營(yíng)報(bào);2006年

2 王艷;垂直搜索引擎市場(chǎng)看好[N];中國(guó)旅游報(bào);2000年

3 王靖;賽迪網(wǎng)推出垂直搜索引擎[N];人民日?qǐng)?bào)海外版;2000年

4 楊國(guó)民;國(guó)內(nèi)生物醫(yī)藥行業(yè) 垂直搜索引擎誕生[N];經(jīng)濟(jì)日?qǐng)?bào);2007年

5 本報(bào)記者 王曉雁;垂直搜索引擎著作權(quán)之爭(zhēng)未破題[N];法制日?qǐng)?bào);2009年

6 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學(xué)技術(shù)情報(bào)研究所 周峻松;用開源軟件建垂直搜索引擎[N];計(jì)算機(jī)世界;2010年

7 中新;生意寶推“生意搜”攪局電子商務(wù)搜索市場(chǎng)[N];經(jīng)理日?qǐng)?bào);2008年

8 源訊 編譯;搜索巨頭的下一步[N];計(jì)算機(jī)世界;2006年

9 賽迪網(wǎng) 方剛;不只是網(wǎng)站才垂直[N];中國(guó)計(jì)算機(jī)報(bào);2000年

10 ;沱沱網(wǎng)“亮劍”國(guó)際消費(fèi)電子博覽會(huì) 專業(yè)服務(wù)帶來B2B差異化變革[N];中國(guó)貿(mào)易報(bào);2007年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前5條

1 王曄;垂直搜索引擎若干問題研究[D];復(fù)旦大學(xué);2011年

2 吳羽;面向時(shí)間敏感對(duì)象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年

3 胡宜敏;農(nóng)業(yè)垂直搜索引擎語(yǔ)義化若干問題的研究與實(shí)現(xiàn)[D];中國(guó)科學(xué)技術(shù)大學(xué);2012年

4 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年

5 王桂紅;農(nóng)產(chǎn)品市場(chǎng)價(jià)格web信息分析方法研究[D];沈陽(yáng)農(nóng)業(yè)大學(xué);2013年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 韓冰;垂直搜索引擎?zhèn)性化推薦研究與應(yīng)用[D];大連理工大學(xué);2009年

2 關(guān)小敏;垂直搜索引擎的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2012年

3 吳燕瑋;基于行業(yè)知識(shí)垂直搜索引擎的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2012年

4 黃興財(cái);大學(xué)生職位垂直c\索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2015年

5 陳龍飛;垂直搜索引擎在煙草行業(yè)的研究與應(yīng)用[D];浙江理工大學(xué);2016年

6 林祖新;視頻垂直搜索引擎中信息抽取與存儲(chǔ)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2013年

7 張亞鳳;垂直搜索引擎中關(guān)鍵技術(shù)的研究[D];長(zhǎng)春工業(yè)大學(xué);2016年

8 桂佳;招聘信息垂直搜索引擎系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];華中科技大學(xué);2014年

9 韓志強(qiáng);基于Hadoop的分布式藏文新聞網(wǎng)站垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[D];中央民族大學(xué);2016年

10 吳昊;垂直搜索引擎關(guān)鍵技術(shù)研究及分布式實(shí)現(xiàn)[D];東南大學(xué);2016年

,

本文編號(hào):826968

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/xiangmuguanli/826968.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c51f9***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com