主題元搜索引擎排序算法研究
本文關鍵詞:主題元搜索引擎排序算法研究
更多相關文章: 主題元搜索引擎 ICTCLAS2015 中文分詞 Nutch 排序算法
【摘要】:主題搜索引擎的產(chǎn)生是針對某種具體的組織、行業(yè)的網(wǎng)絡信息來構建的,這是一個能夠使該組織、行業(yè)的搜索要求滿足的搜索引擎。隨著網(wǎng)絡信息的多元化形成,沒有任何一種主題搜索技術能應用到所有的主題信息領域,而主題元搜索引擎的出現(xiàn)很好地解決了這個現(xiàn)象。主題元搜索引擎將元搜索引擎和主題搜索引擎相結合,在提高查全率的同時又進一步提高了查準率。其中搜索引擎的分詞技術和排序技術是影響搜索結果的關鍵性。本文以開源的搜索引擎Nutch為原型,使用主題提取器在多個搜索引擎中提取種子站點,再從各種子站點上搜索關鍵詞,實現(xiàn)搜索的主題化和多元化,提高了查準率和查全率。針對Nutch搜索引擎按字分詞和排序效果差的問題,本文主要完成了以下兩方面的工作:第一,參考各種資料以及相關中文分詞插件文檔,通過實驗對Paoding,IKAnalyzer等中文分詞器進行了時效性以及準確率等方面的對比,選取在大量文字分詞時,時間和準確度等方面性能更優(yōu)且有豐富的本地詞庫的ICTCLAS2015分詞器,進行了Nutch中文分詞模塊的改進。第二,本文提出了結合使用Page Rank算法并加入本地瀏覽器書簽作為參考因子的方法,對Nutch的評分機制進行了改進,提高了搜索結果的確切度。對改進后的算法進行了驗證,通過對實驗數(shù)據(jù)的分析說明了改進后的算法不僅可以提高PR值較高的頁面的排序結果,而且對本地書簽有相關性的搜索結果的排名有所提高。本文通過結合ICTCLAS2015中文分詞插件和改良中文分詞算法對Nutch搜索引擎系統(tǒng)進行了二次開發(fā),在此基礎上,結合網(wǎng)站PR值和本地書簽影響因子對Nutch排序算法進行改進,經(jīng)試驗測試表明,改進后的算法在搜索結果更確切,更符合用戶的需求。
【學位授予單位】:華北電力大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.3
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 黃賢英;陳紅陽;;基于用戶興趣度的PageRank改進算法[J];重慶理工大學學報(自然科學);2014年05期
2 周世龍;陳興蜀;羅永剛;;Hadoop視角下的Nutch爬行性能優(yōu)化[J];計算機應用;2013年10期
3 賀志明;王麗宏;張剛;程學旗;;一種抵抗鏈接作弊的PageRank改進算法[J];中文信息學報;2012年05期
4 縣小平;;主題搜索引擎的PageRank算法研究[J];甘肅高師學報;2011年05期
5 陸安江;董旭暉;;個性化元搜索引擎模型的研究與設計[J];計算機與現(xiàn)代化;2011年01期
6 王德廣;周志剛;梁旭;;PageRank算法的分析及其改進[J];計算機工程;2010年22期
7 鄭小波;鄭誠;封軍;;基于Nutch專題搜索引擎的研究[J];微計算機信息;2010年30期
8 王春花;朱俊平;;改進的非平均傳遞權值PageRank算法[J];計算機工程與設計;2010年10期
9 王忠;程磊;;基于元搜索引擎的個性化Web信息采集[J];計算機工程與設計;2009年13期
10 牟帥;黃映輝;李冠宇;;基于中文分詞的OWL-S/UDDI語義Web服務檢索模型[J];計算機工程與設計;2009年03期
中國碩士學位論文全文數(shù)據(jù)庫 前1條
1 余靜;基于Nutch的面向特定主題的爬蟲研究[D];遼寧工程技術大學;2008年
,本文編號:1203974
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1203974.html