天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于興趣推送的主題爬蟲研究

發(fā)布時(shí)間:2018-02-09 08:58

  本文關(guān)鍵詞: 數(shù)碼產(chǎn)品 主題相關(guān)度預(yù)測(cè) 興趣推送 主題爬蟲 主題漂移 出處:《昆明理工大學(xué)》2012年碩士論文 論文類型:學(xué)位論文


【摘要】:Internet發(fā)展速度迅猛,互聯(lián)網(wǎng)上的信息量越來越大,通用網(wǎng)絡(luò)爬蟲的局限性隨之顯現(xiàn)出來,用戶對(duì)其查全率和查準(zhǔn)率的需求已得不到滿足,特別是對(duì)某一領(lǐng)域內(nèi)的搜索結(jié)果不能令用戶滿意。針對(duì)此問題,研究人員在通用爬蟲的基礎(chǔ)上發(fā)明了主題網(wǎng)絡(luò)爬蟲,它在一定程度上改善了通用網(wǎng)絡(luò)爬蟲查準(zhǔn)率不足的缺點(diǎn)。 本文對(duì)Google的PageRank算法進(jìn)行了詳細(xì)地分析,并對(duì)其作了基于鏈接結(jié)構(gòu)和網(wǎng)頁(yè)內(nèi)容的主題相關(guān)性改進(jìn),提出了結(jié)合網(wǎng)頁(yè)鏈接和文本內(nèi)容的主題爬蟲算法,對(duì)搜索結(jié)果進(jìn)行主題相關(guān)度排序,提高了通用網(wǎng)絡(luò)爬蟲的查準(zhǔn)率。且針對(duì)目前的主題爬蟲還存在每次需要點(diǎn)擊許多相關(guān)網(wǎng)頁(yè)才能找到感興趣的內(nèi)容的問題,本文提出一種基于興趣推送的主題網(wǎng)絡(luò)爬蟲,通過用戶點(diǎn)擊行為來發(fā)現(xiàn)用戶興趣的興趣推送算法,并將其與前面的主題相關(guān)性結(jié)合,使用戶使用搜索引擎時(shí)不僅能在互聯(lián)網(wǎng)巨大的信息量中快速找到行業(yè)相關(guān)網(wǎng)頁(yè),而且通過分析和記錄用戶興趣,將用戶最感興趣的網(wǎng)頁(yè)推送到搜索結(jié)果前面。 本文以Eclipse為開發(fā)環(huán)境,開發(fā)了一套數(shù)碼產(chǎn)品搜索引擎系統(tǒng)來驗(yàn)證改進(jìn)后的算法的優(yōu)越性,作者將改進(jìn)后的算法應(yīng)用于此系統(tǒng)中。通過對(duì)系統(tǒng)的分析和測(cè)試,本文設(shè)計(jì)和實(shí)現(xiàn)的基于興趣推送的數(shù)碼產(chǎn)品主題爬蟲的方案是切實(shí)可行的,提高了搜索引擎查詢的效率和準(zhǔn)確度,且在較大程度上為用戶提供了更加便利的搜索服務(wù)。
[Abstract]:With the rapid development of Internet and the increasing amount of information on the Internet, the limitations of common web crawlers appear, and users' demand for recall and precision has not been met. In particular, the search results in a certain field can not satisfy the users. In order to solve this problem, the researchers have invented the topic web crawler based on the general crawler, which to some extent improves the shortcomings of the common web crawler precision rate. In this paper, the PageRank algorithm of Google is analyzed in detail, and the topic correlation improvement based on link structure and web content is made, and a topic crawler algorithm combining web link and text content is proposed. The search results are ranked by the correlation degree of the topic, which improves the accuracy of the common web crawler, and the problem of the current topic crawler still needs to click on many relevant pages each time to find the content of interest. In this paper, a topic crawler based on interest push is proposed, which can discover the interest push algorithm of user interest by user click behavior, and combine it with the previous topic correlation. When users use search engines, they can not only quickly find relevant pages in the huge amount of information on the Internet, but also push the most interesting web pages to the front of search results by analyzing and recording users' interests. In this paper, a set of digital product search engine system is developed to verify the superiority of the improved algorithm based on Eclipse. The author applies the improved algorithm to the system. The scheme designed and implemented in this paper is feasible, improves the efficiency and accuracy of search engine query, and provides a more convenient search service for users.
【學(xué)位授予單位】:昆明理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類號(hào)】:TP391.3

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 楊超;李杰;李浩宇;;基于PageRank的頁(yè)面排序算法研究[J];電腦編程技巧與維護(hù);2011年16期

2 吳濤;;PAGERANK算法下的網(wǎng)站鏈接優(yōu)化策略研究[J];電子商務(wù);2009年07期

3 林彤,江志軍;Internet的搜索引擎[J];計(jì)算機(jī)工程與應(yīng)用;2000年05期

4 張義忠,趙明生,朱精南;基于內(nèi)容的網(wǎng)頁(yè)特征提取[J];計(jì)算機(jī)工程與應(yīng)用;2001年10期

5 李盛韜,趙章界,余智華;基于主題的Web信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2003年17期

6 潘昊;譚龍遠(yuǎn);;領(lǐng)域相關(guān)自適應(yīng)的PageRank算法搜索策略[J];計(jì)算機(jī)應(yīng)用;2008年09期

7 王鐘斐;;一種改進(jìn)的PageRank算法[J];計(jì)算機(jī)與數(shù)字工程;2011年06期

8 馬亮,陳群秀,王俊,徐國(guó)偉;智能Web中文主題信息收集系統(tǒng)IRobot的設(shè)計(jì)[J];中文信息學(xué)報(bào);2002年05期

9 王繼明;楊國(guó)林;;基于Lucene的中文文本分詞[J];內(nèi)蒙古工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年03期

10 張啟宇;朱玲;張雅萍;;中文分詞算法研究綜述[J];情報(bào)探索;2008年11期

相關(guān)博士學(xué)位論文 前1條

1 李廣建;個(gè)性化網(wǎng)絡(luò)信息檢索系統(tǒng)的研究與實(shí)現(xiàn)[D];中國(guó)科學(xué)院研究生院(文獻(xiàn)情報(bào)中心);2002年

相關(guān)碩士學(xué)位論文 前10條

1 賈自艷;中文智能搜索引擎關(guān)鍵技術(shù)研究[D];北京工業(yè)大學(xué);2001年

2 壽周翔;專業(yè)搜索引擎的研究與設(shè)計(jì)[D];浙江大學(xué);2005年

3 劉瑋瑋;搜索引擎中主題爬蟲的研究與實(shí)現(xiàn)[D];南京理工大學(xué);2006年

4 王曉偉;垂直搜索引擎若干關(guān)鍵技術(shù)的研究[D];浙江大學(xué);2007年

5 邱正國(guó);主題蜘蛛的研究及實(shí)現(xiàn)[D];南京師范大學(xué);2007年

6 李京京;主題爬蟲的關(guān)鍵技術(shù)研究[D];吉林大學(xué);2008年

7 姚琪;垂直搜索引擎系統(tǒng)的研究與設(shè)計(jì)[D];上海交通大學(xué);2008年

8 李晗;面向石油的主題搜索引擎研究[D];中國(guó)石油大學(xué);2008年

9 蔡建超;基于PageRank算法的搜索引擎優(yōu)化研究[D];江南大學(xué);2008年

10 王小君;法院內(nèi)網(wǎng)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];內(nèi)蒙古大學(xué);2010年

,

本文編號(hào):1497560

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1497560.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1d7e1***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com