基于Nutch的頁面排序算法研究
本文選題:搜索引擎 + 向量空間模型 ; 參考:《杭州電子科技大學(xué)學(xué)報》2013年06期
【摘要】:針對某一主題或?qū)W科的垂直搜索引擎是搜索引擎的延伸和細(xì)分,面向特定用戶提供垂直搜索。網(wǎng)頁排序算法是搜索引擎好壞的關(guān)鍵,搜索引擎網(wǎng)頁排序算法的目的是從海量搜索結(jié)果中將主題相關(guān)和權(quán)威的網(wǎng)頁排在前列,幫助用戶查找所需的資源。Nutch搜索引擎只實現(xiàn)了一個基本的綜合排序模型,為了使Nutch更好地滿足專業(yè)用戶的需求,該文設(shè)計一個綜合考慮主題相關(guān)性和網(wǎng)頁權(quán)威性的綜合排序模型,將主題相關(guān)度因子和改進(jìn)后的PageRank算法因子融入到Nutch網(wǎng)頁評分計算公式中。實驗表明,改進(jìn)的排序算法可以提高信息的查準(zhǔn)率,具有明顯的主題傾向性,在實際應(yīng)用中發(fā)揮作用。
[Abstract]:Vertical search engine for a subject or subject is the extension and subdivision of search engine and provides vertical search for specific users. Page sorting algorithm is the key of search engine. The purpose of search engine is to rank the relevant and authoritative web pages in the forefront from the massive search results. To help users find the required resources. Nutch search engine has only implemented a basic comprehensive sorting model, in order to make Nutch better meet the needs of professional users, In this paper, we design a comprehensive ranking model which considers the topic correlation and the authority of the web page, and integrates the theme correlation factor and the improved PageRank algorithm factor into the Nutch web page scoring formula. The experimental results show that the improved sorting algorithm can improve the precision of information, and has obvious tendency of topic, and plays an important role in practical application.
【作者單位】: 杭州電子科技大學(xué)計算機(jī)學(xué)院;
【分類號】:TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前4條
1 陶林;諶超;強(qiáng)保華;王勇;;基于Hadoop的Nutch網(wǎng)頁排序算法研究與實現(xiàn)[J];桂林電子科技大學(xué)學(xué)報;2013年02期
2 潘濤;梁正友;;Nutch中網(wǎng)頁排序效果的改進(jìn)方法[J];計算機(jī)工程;2010年13期
3 張文龍;劉一偉;孫杰;;基于Nutch的垂直搜索引擎的研究[J];南開大學(xué)學(xué)報(自然科學(xué)版);2012年02期
4 李永春;丁華福;;Lucene的全文檢索的研究與應(yīng)用[J];計算機(jī)技術(shù)與發(fā)展;2010年02期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王軍;張興忠;;XML與全文檢索在CMS數(shù)據(jù)歸檔中的應(yīng)用[J];電腦開發(fā)與應(yīng)用;2012年01期
2 黃睿;;基于“垂直搜索”技術(shù)的重慶市流動黨員管理系統(tǒng)研究[J];中國管理信息化;2013年10期
3 陶林;諶超;強(qiáng)保華;王勇;;基于Hadoop的Nutch網(wǎng)頁排序算法研究與實現(xiàn)[J];桂林電子科技大學(xué)學(xué)報;2013年02期
4 陳曉麗;楊欣蓉;王作釗;周航;趙益;沈玲玲;;面向制造業(yè)的知識搜索引擎設(shè)計[J];電腦知識與技術(shù);2013年16期
5 嚴(yán)良達(dá);;一種基于Lucene的面向主題爬行搜索引擎的研究[J];福建電腦;2013年05期
6 裴志松;;基于Lucene的畢業(yè)論文相似性檢測[J];長春工程學(xué)院學(xué)報(自然科學(xué)版);2013年04期
7 孫海東;張力;;基于Lucennee.t的醫(yī)學(xué)教育視頻垂直檢索的設(shè)計與實現(xiàn)[J];開放教育研究;2011年02期
8 姜鑫;余平;;基于Lucene的音視頻資源檢索系統(tǒng)的研究與實現(xiàn)[J];計算機(jī)應(yīng)用與軟件;2011年11期
9 李浩;;通用格式的Lucene文檔解析器框架的構(gòu)建[J];計算機(jī)與現(xiàn)代化;2011年03期
10 畢洪宇;;利用NoSQL構(gòu)建高性能全文檢索系統(tǒng)[J];計算機(jī)與現(xiàn)代化;2012年03期
相關(guān)碩士學(xué)位論文 前10條
1 孫海東;面向醫(yī)學(xué)教育視頻的垂直檢索的研究[D];第二軍醫(yī)大學(xué);2011年
2 路衛(wèi)杰;基于知識庫的禮品推薦系統(tǒng)的設(shè)計與實現(xiàn)[D];北京郵電大學(xué);2011年
3 文軍艦;基于Nutch的Web結(jié)構(gòu)挖掘算法研究[D];天津財經(jīng)大學(xué);2011年
4 張立;文本搜索引擎的探究與設(shè)計[D];華南理工大學(xué);2011年
5 李海波;基于MapReduce框架的分布式網(wǎng)絡(luò)爬行器研究[D];哈爾濱工程大學(xué);2011年
6 張薇;基于OAI-PMH協(xié)議及全文檢索技術(shù)的圖書館聯(lián)合目錄系統(tǒng)[D];蘇州大學(xué);2011年
7 陳爽;數(shù)據(jù)空間下的索引策略研究[D];南京郵電大學(xué);2012年
8 蘇希樂;面向手機(jī)信息的垂直搜索引擎[D];西安工業(yè)大學(xué);2012年
9 黃玉明;內(nèi)容管理在政府門戶網(wǎng)站中的應(yīng)用研究[D];大連海事大學(xué);2010年
10 孫利芳;基于DSpace的文獻(xiàn)倉儲庫的研究與實現(xiàn)[D];內(nèi)蒙古大學(xué);2010年
【二級參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 諶超;強(qiáng)保華;石龍;;基于Hadoop MapReduce的大規(guī)模數(shù)據(jù)索引構(gòu)建與集群性能分析[J];桂林電子科技大學(xué)學(xué)報;2012年04期
2 李稚楹;楊武;謝治軍;;PageRank算法研究綜述[J];計算機(jī)科學(xué);2011年S1期
3 郎小偉;王申康;;基于Lucene的全文檢索系統(tǒng)研究與開發(fā)[J];計算機(jī)工程;2006年04期
4 姚文琳;劉文;;一種基于本體的PageRank算法的改進(jìn)策略[J];計算機(jī)工程;2009年06期
5 潘濤;梁正友;;Nutch中網(wǎng)頁排序效果的改進(jìn)方法[J];計算機(jī)工程;2010年13期
6 朱學(xué)昊;王儒敬;余鋒林;唐昱;;基于Lucene的站內(nèi)搜索設(shè)計與實現(xiàn)[J];計算機(jī)應(yīng)用與軟件;2008年10期
7 鄭志高;劉慶圣;陳立彬;;基于主題網(wǎng)絡(luò)爬蟲的網(wǎng)絡(luò)學(xué)習(xí)資源收集平臺的設(shè)計[J];中國教育信息化;2010年01期
8 孫西全;馬瑞芳;李燕靈;;基于Lucene的信息檢索的研究與應(yīng)用[J];情報理論與實踐;2006年01期
9 索紅光;孫鑫;;基于Lucene的中文全文檢索系統(tǒng)的研究與設(shè)計[J];計算機(jī)工程與設(shè)計;2008年19期
10 林碧英;趙銳;陳良臣;;基于Lucene的全文檢索引擎研究與應(yīng)用[J];計算機(jī)技術(shù)與發(fā)展;2007年05期
相關(guān)碩士學(xué)位論文 前1條
1 李世明;專業(yè)搜索引擎中信息過濾的研究與實現(xiàn)[D];北京化工大學(xué);2005年
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 周必水,酈泓;用Java實現(xiàn)基于向量空間的搜索引擎優(yōu)化[J];計算機(jī)應(yīng)用研究;2003年02期
2 李玉擰;操衛(wèi)平;周蘭珍;;結(jié)構(gòu)化向量空間模型及其在Web信息檢索中的應(yīng)用[J];北京工業(yè)大學(xué)學(xué)報;2008年04期
3 李世明;趙恒永;李世友;;專題搜索引擎中信息過濾的研究與實現(xiàn)[J];計算機(jī)工程與設(shè)計;2006年08期
4 程躍;;面向主題的搜索引擎的設(shè)計[J];硅谷;2009年23期
5 殷亞玲;張蕾;;搜索引擎中語義相關(guān)反饋技術(shù)的研究[J];計算機(jī)技術(shù)與發(fā)展;2006年02期
6 熊才權(quán);田浩;;基于PageRank值的文本相似度改進(jìn)模型[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2010年06期
7 祝偉華;楊永毅;;汽車交易信息搜索引擎的設(shè)計與實現(xiàn)[J];計算機(jī)系統(tǒng)應(yīng)用;2010年06期
8 謝紅薇;顏小林;余雪麗;;基于本體的Web頁面聚類研究[J];計算機(jī)科學(xué);2008年09期
9 魏晶晶;楊定達(dá);廖祥文;;基于網(wǎng)頁內(nèi)容相似度改進(jìn)算法的主題網(wǎng)絡(luò)爬蟲[J];計算機(jī)與現(xiàn)代化;2011年09期
10 欒超;郭建勝;;基于分層序列法的搜索引擎系統(tǒng)設(shè)計[J];微電子學(xué)與計算機(jī);2007年11期
相關(guān)會議論文 前10條
1 張健沛;徐潑;楊靜;;一種輕量級個性化搜索引擎系統(tǒng)[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
2 程新榮;楊仁剛;;網(wǎng)頁自動分類在搜索引擎上的應(yīng)用研究[A];2007'中國儀器儀表與測控技術(shù)交流大會論文集(二)[C];2007年
3 彭軻;廖聞劍;;淺析搜索引擎[A];中國通信學(xué)會第五屆學(xué)術(shù)年會論文集[C];2008年
4 鄧長壽;郭景峰;楊焱林;鄧安遠(yuǎn);;下一代Web搜索引擎初探[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2001年
5 張健沛;李連江;楊靜;;個性化搜索引擎排序算法的研究與改進(jìn)[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
6 郭鴻志;陳清才;康永燕;王曉龍;;一種基于網(wǎng)站特征識別的搜索引擎排序算法[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年
7 倪俊峰;;基于黃頁搜索引擎的關(guān)鍵字排名廣告系統(tǒng)的設(shè)計與實現(xiàn)[A];2005年中國索引學(xué)會年會暨學(xué)術(shù)研討會論文集[C];2005年
8 張怡;查貴庭;;SEO在信息服務(wù)中的應(yīng)用研究[A];2010年中國索引學(xué)會年會暨學(xué)術(shù)研討會論文集[C];2010年
9 陳援非;何哲;朱珍民;;基于普適計算的個性化搜索技術(shù)[A];第二屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2006)——第2屆中國普適計算學(xué)術(shù)會議(PCC'06)論文集[C];2006年
10 楊萌;李春麗;朱明;;網(wǎng)絡(luò)搜索技術(shù)下的編輯工作[A];學(xué)報編輯論叢(第十一集)[C];2003年
相關(guān)重要報紙文章 前10條
1 博文邋譯;你的隱私 搜索引擎知道[N];計算機(jī)世界;2007年
2 楊潔;搜索引擎營銷市場生變[N];中國計算機(jī)報;2007年
3 劉文君;搜索引擎也在尋求創(chuàng)新[N];大眾科技報;2007年
4 ;法國挑戰(zhàn)谷歌推出衛(wèi)星地圖搜索引擎[N];人民日報;2006年
5 MirrorCity.net技術(shù)總監(jiān) 姚浩;讓搜索引擎回歸最初夢想[N];中國文化報;2008年
6 本報記者 操秀英;國雙科技以技術(shù)加服務(wù)贏得市場[N];科技日報;2009年
7 趙敏;“魚群理論”破解搜索營銷謎局[N];中國企業(yè)報;2007年
8 本報記者 樊哲高;搜索引擎三國紛爭 中文市場兩軍對壘[N];中國電子報;2009年
9 EndTo;優(yōu)化Meta討好搜索引擎[N];電腦報;2009年
10 本報記者 馬文方;Yebol:從思維科學(xué)導(dǎo)出搜索引擎[N];中國計算機(jī)報;2010年
相關(guān)博士學(xué)位論文 前10條
1 鄭文良;基于簡單本體的農(nóng)業(yè)P2P搜索引擎關(guān)鍵技術(shù)研究[D];沈陽農(nóng)業(yè)大學(xué);2013年
2 岑榮偉;基于用戶行為分析的搜索引擎評價研究[D];清華大學(xué);2010年
3 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年
4 蘇君華;面向搜索引擎的技術(shù)接受模型研究[D];南京大學(xué);2011年
5 劉佐達(dá);分布協(xié)作式搜索引擎模型及算法研究[D];清華大學(xué);2011年
6 陳旭毅;基于索引云的企業(yè)搜索引擎實現(xiàn)研究[D];武漢大學(xué);2011年
7 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學(xué);2012年
8 李莎莎;面向搜索引擎的自然語言處理關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年
9 白玉琪;空間信息搜索引擎研究[D];中國科學(xué)院研究生院(遙感應(yīng)用研究所);2003年
10 周,
本文編號:1953534
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1953534.html