天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

主題元搜索引擎排序算法研究

發(fā)布時(shí)間:2017-11-19 15:15

  本文關(guān)鍵詞:主題元搜索引擎排序算法研究


  更多相關(guān)文章: 主題元搜索引擎 ICTCLAS2015 中文分詞 Nutch 排序算法


【摘要】:主題搜索引擎的產(chǎn)生是針對(duì)某種具體的組織、行業(yè)的網(wǎng)絡(luò)信息來構(gòu)建的,這是一個(gè)能夠使該組織、行業(yè)的搜索要求滿足的搜索引擎。隨著網(wǎng)絡(luò)信息的多元化形成,沒有任何一種主題搜索技術(shù)能應(yīng)用到所有的主題信息領(lǐng)域,而主題元搜索引擎的出現(xiàn)很好地解決了這個(gè)現(xiàn)象。主題元搜索引擎將元搜索引擎和主題搜索引擎相結(jié)合,在提高查全率的同時(shí)又進(jìn)一步提高了查準(zhǔn)率。其中搜索引擎的分詞技術(shù)和排序技術(shù)是影響搜索結(jié)果的關(guān)鍵性。本文以開源的搜索引擎Nutch為原型,使用主題提取器在多個(gè)搜索引擎中提取種子站點(diǎn),再從各種子站點(diǎn)上搜索關(guān)鍵詞,實(shí)現(xiàn)搜索的主題化和多元化,提高了查準(zhǔn)率和查全率。針對(duì)Nutch搜索引擎按字分詞和排序效果差的問題,本文主要完成了以下兩方面的工作:第一,參考各種資料以及相關(guān)中文分詞插件文檔,通過實(shí)驗(yàn)對(duì)Paoding,IKAnalyzer等中文分詞器進(jìn)行了時(shí)效性以及準(zhǔn)確率等方面的對(duì)比,選取在大量文字分詞時(shí),時(shí)間和準(zhǔn)確度等方面性能更優(yōu)且有豐富的本地詞庫的ICTCLAS2015分詞器,進(jìn)行了Nutch中文分詞模塊的改進(jìn)。第二,本文提出了結(jié)合使用Page Rank算法并加入本地瀏覽器書簽作為參考因子的方法,對(duì)Nutch的評(píng)分機(jī)制進(jìn)行了改進(jìn),提高了搜索結(jié)果的確切度。對(duì)改進(jìn)后的算法進(jìn)行了驗(yàn)證,通過對(duì)實(shí)驗(yàn)數(shù)據(jù)的分析說明了改進(jìn)后的算法不僅可以提高PR值較高的頁面的排序結(jié)果,而且對(duì)本地書簽有相關(guān)性的搜索結(jié)果的排名有所提高。本文通過結(jié)合ICTCLAS2015中文分詞插件和改良中文分詞算法對(duì)Nutch搜索引擎系統(tǒng)進(jìn)行了二次開發(fā),在此基礎(chǔ)上,結(jié)合網(wǎng)站PR值和本地書簽影響因子對(duì)Nutch排序算法進(jìn)行改進(jìn),經(jīng)試驗(yàn)測(cè)試表明,改進(jìn)后的算法在搜索結(jié)果更確切,更符合用戶的需求。
【學(xué)位授予單位】:華北電力大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.3

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫 前10條

1 黃賢英;陳紅陽;;基于用戶興趣度的PageRank改進(jìn)算法[J];重慶理工大學(xué)學(xué)報(bào)(自然科學(xué));2014年05期

2 周世龍;陳興蜀;羅永剛;;Hadoop視角下的Nutch爬行性能優(yōu)化[J];計(jì)算機(jī)應(yīng)用;2013年10期

3 賀志明;王麗宏;張剛;程學(xué)旗;;一種抵抗鏈接作弊的PageRank改進(jìn)算法[J];中文信息學(xué)報(bào);2012年05期

4 縣小平;;主題搜索引擎的PageRank算法研究[J];甘肅高師學(xué)報(bào);2011年05期

5 陸安江;董旭暉;;個(gè)性化元搜索引擎模型的研究與設(shè)計(jì)[J];計(jì)算機(jī)與現(xiàn)代化;2011年01期

6 王德廣;周志剛;梁旭;;PageRank算法的分析及其改進(jìn)[J];計(jì)算機(jī)工程;2010年22期

7 鄭小波;鄭誠;封軍;;基于Nutch專題搜索引擎的研究[J];微計(jì)算機(jī)信息;2010年30期

8 王春花;朱俊平;;改進(jìn)的非平均傳遞權(quán)值PageRank算法[J];計(jì)算機(jī)工程與設(shè)計(jì);2010年10期

9 王忠;程磊;;基于元搜索引擎的個(gè)性化Web信息采集[J];計(jì)算機(jī)工程與設(shè)計(jì);2009年13期

10 牟帥;黃映輝;李冠宇;;基于中文分詞的OWL-S/UDDI語義Web服務(wù)檢索模型[J];計(jì)算機(jī)工程與設(shè)計(jì);2009年03期

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 余靜;基于Nutch的面向特定主題的爬蟲研究[D];遼寧工程技術(shù)大學(xué);2008年

,

本文編號(hào):1203974

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1203974.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f7373***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com