基于改進(jìn)PageRank算法和用戶興趣的個(gè)性化搜索研究

發(fā)布時(shí)間：2017-05-29 13:02

本文關(guān)鍵詞：基于改進(jìn)PageRank算法和用戶興趣的個(gè)性化搜索研究，由筆耕文化傳播整理發(fā)布。

【摘要】：隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展、互聯(lián)網(wǎng)上信息量急劇增加，網(wǎng)絡(luò)已成為人們獲取信息的重要途徑。用戶渴望在膨脹的資源中快速檢索出自己想要的信息的愿望，迫使傳統(tǒng)搜索引擎向智能化、個(gè)性化的方向進(jìn)行改革。能夠感知用戶意愿、滿足用戶個(gè)性化需求的個(gè)性化搜索引擎將成為未來(lái)發(fā)展的趨勢(shì)。因此，本文設(shè)計(jì)了基于PageRank算法和用戶興趣模型的個(gè)性化搜索系統(tǒng)。首先，針對(duì)PageRank排序算法存在的四個(gè)問(wèn)題，從網(wǎng)頁(yè)相似度、點(diǎn)擊量、權(quán)威性、時(shí)間因子入手對(duì)PageRank進(jìn)行改進(jìn)。首先，在網(wǎng)頁(yè)分塊的基礎(chǔ)上，分析位置標(biāo)簽、錨文本、向量空間模型，綜合估計(jì)網(wǎng)頁(yè)間相似度，改善主題漂移；其次，分析點(diǎn)擊量和點(diǎn)擊量增長(zhǎng)速度，評(píng)估網(wǎng)頁(yè)重要性發(fā)展趨勢(shì)；再次，利用站內(nèi)評(píng)價(jià)和站內(nèi)外鏈接計(jì)算網(wǎng)頁(yè)權(quán)威性，影響PR值的傳遞，并防止網(wǎng)頁(yè)作弊；最后，借助時(shí)間補(bǔ)償因子，消除對(duì)新網(wǎng)頁(yè)的歧視，使新舊網(wǎng)頁(yè)獲得與其實(shí)際價(jià)值相符的權(quán)值。其次，基于改進(jìn)的向量空間模型和顯隱式結(jié)合的建模方式，分析用戶的注冊(cè)信息、用戶收藏夾、歷史瀏覽記錄，，構(gòu)建用戶興趣模型。模型更新采用不定時(shí)更新和定時(shí)更新兩種機(jī)制，不定時(shí)更新模型是當(dāng)用戶向收藏夾中添加網(wǎng)頁(yè)時(shí)采用的方法，定時(shí)更新模型是基于艾賓浩斯遺忘曲線,每隔一段時(shí)間就對(duì)用戶模型內(nèi)的特征項(xiàng)進(jìn)行一次更新操作。最后，分析開(kāi)源搜索引擎nutch的工作流程，以nutch為基礎(chǔ)進(jìn)行二次開(kāi)發(fā)，在nutch中添加用戶興趣模塊，并用改進(jìn)的PageRank算法替換nutch中原有的排序算法，實(shí)現(xiàn)個(gè)性化搜索。并利用nutch抓取大量網(wǎng)頁(yè)，以此作為實(shí)驗(yàn)數(shù)據(jù)，進(jìn)行相關(guān)對(duì)比試驗(yàn)。實(shí)驗(yàn)結(jié)果證明，相較于傳統(tǒng)的PageRank，改進(jìn)后算法的排序結(jié)果準(zhǔn)確率更高。基于改進(jìn)PageRank算法和興趣模型的個(gè)性化搜索系統(tǒng)，能更好的滿足用戶的個(gè)性化需求。
【關(guān)鍵詞】：PageRank 個(gè)性化搜索 相似度 點(diǎn)擊量趨勢(shì) 權(quán)威性 時(shí)間維 用戶興趣
【學(xué)位授予單位】：河北工業(yè)大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2014
【分類(lèi)號(hào)】：TP391.3
【目錄】：

摘要5-6
ABSTRACT6-10
第一章緒論10-16
1.1 課題研究背景及意義10-11
1.2 國(guó)內(nèi)外研究現(xiàn)狀11-13
1.2.1 個(gè)性化搜索技術(shù)的國(guó)內(nèi)外研究現(xiàn)狀11-12
1.2.2 排序算法的國(guó)內(nèi)外研究現(xiàn)狀12-13
1.3 研究?jī)?nèi)容及組織結(jié)構(gòu)13-16
1.3.1 論文研究?jī)?nèi)容13
1.3.2 論文創(chuàng)新點(diǎn)13-14
1.3.3 論文組織結(jié)構(gòu)14-16
第二章相關(guān)理論與技術(shù)研究16-28
2.1 搜索引擎16-18
2.1.1 搜索引擎工作原理16
2.1.2 搜索引擎技術(shù)框架16-18
2.1.3 個(gè)性化搜索18
2.2 鏈接分析算法18-21
2.2.1 PAGERANK 算法18-20
2.2.2 HITS 算法20-21
2.2.3 PAGERANK 算法和 HITS 算法的比較21
2.3 檢索模型21-24
2.3.1 布爾模型22-23
2.3.2 向量空間模型 VSM23-24
2.3.3 概率檢索模型24
2.4 分詞技術(shù)24-25
2.5 網(wǎng)頁(yè)分塊技術(shù)25-26
2.6 本章小結(jié)26-28
第三章改進(jìn)的 PAGERANK 算法28-40
3.1 引言28-30
3.2 網(wǎng)頁(yè)分塊預(yù)處理30-32
3.3 相似度32-35
3.3.1 相關(guān)研究32
3.3.2 相似度計(jì)算32-35
3.4 點(diǎn)擊量35-36
3.5 權(quán)威性36-37
3.5.1 站內(nèi)評(píng)價(jià)36-37
3.5.2 站內(nèi)外鏈接37
3.6 時(shí)間維37-38
3.7 整體改進(jìn) PAGERANK 算法38
3.8 本章小結(jié)38-40
第四章用戶興趣模型40-52
4.1 引言40
4.2 用戶興趣信息的獲取40-42
4.2.1 顯式獲取40-41
4.2.2 隱式獲取41-42
4.3 用戶建模的方法42
4.3.1 顯式建模方法42
4.3.2 隱式建模方法42
4.4 用戶興趣模型框架42-43
4.5 用戶興趣模型的建立43-46
4.5.1 信息收集43-44
4.5.2 網(wǎng)頁(yè)信息預(yù)處理44-45
4.5.3 特征詞權(quán)重計(jì)算45
4.5.4 生成用戶興趣模型45-46
4.6 用戶興趣模型的更新46-49
4.6.1 不定時(shí)更新模型46-47
4.6.2 定時(shí)更新模型47-49
4.7 用戶興趣模型的使用49-50
4.8 本章小結(jié)50-52
第五章個(gè)性化搜索的設(shè)計(jì)與實(shí)現(xiàn)52-68
5.1 實(shí)驗(yàn)準(zhǔn)備52-55
5.1.1 軟硬件實(shí)驗(yàn)環(huán)境52
5.1.2 環(huán)境部署52-55
5.2 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)55-63
5.2.1 個(gè)性化搜索引擎功能需求分析55-57
5.2.2 個(gè)性化搜索引擎整體設(shè)計(jì)57-58
5.2.3 服務(wù)器端設(shè)計(jì)與實(shí)現(xiàn)58-61
5.2.4 客戶端前端的實(shí)現(xiàn)61-63
5.3 實(shí)驗(yàn)結(jié)果及分析63-66
5.3.1 測(cè)試過(guò)程63
5.3.2 實(shí)驗(yàn)評(píng)測(cè)標(biāo)準(zhǔn)及搜索效果分析63-66
5.4 本章小結(jié)66-68
第六章結(jié)論68-70
6.1 論文總結(jié)68-69
6.2 論文展望69-70
參考文獻(xiàn)70-74
攻讀碩士期間發(fā)表的學(xué)術(shù)論文情況74-76
致謝76-77

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 戚華春,黃德才,鄭月鋒;具有時(shí)間反饋的PageRank改進(jìn)算法[J];浙江工業(yè)大學(xué)學(xué)報(bào);2005年03期

2 黃德才;戚華春;;PageRank算法研究[J];計(jì)算機(jī)工程;2006年04期

3 楊彬;康慕寧;;基于概念的權(quán)重PageRank改進(jìn)算法[J];情報(bào)雜志;2006年11期

4 張麗;;PageRank算法的改進(jìn)[J];科學(xué)技術(shù)與工程;2007年05期

5 孔娟;馬亨冰;;PageRank算法的原理與解析[J];福建電腦;2007年01期

6 姜鑫維;趙岳松;;Topic PageRank——一種基于主題的搜索引擎[J];計(jì)算機(jī)技術(shù)與發(fā)展;2007年05期

7 劉松彬;都云程;施水才;;基于分解轉(zhuǎn)移矩陣的PageRank迭代計(jì)算方法[J];中文信息學(xué)報(bào);2007年05期

8 田甜;倪林;;基于PageRank算法的權(quán)威值不均衡分配問(wèn)題[J];計(jì)算機(jī)工程;2007年18期

9 劉彤彤;伍小芹;;融入權(quán)威性與相關(guān)性的PageRank算法[J];信息技術(shù);2008年11期

10 李吉平;吳陳;曾慶軍;;基于轉(zhuǎn)移概率的PageRank算法研究[J];科學(xué)技術(shù)與工程;2008年08期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條

1 ;Key Nodes Mining in Transport Networks Based on PageRank Algorithm[A];2009中國(guó)控制與決策會(huì)議論文集（3）[C];2009年

2 劉松彬;都云程;施水才;;基于分解轉(zhuǎn)移矩陣的PageRank迭代計(jì)算方法[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年

3 藺繼國(guó);徐錫山;;一種基于用戶點(diǎn)擊數(shù)據(jù)的個(gè)性化PageRank算法[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年

4 李文;李淼;張建;朱海;陳雷;;基于混淆網(wǎng)絡(luò)和PageRank的Nbest重排序[A];少數(shù)民族青年自然語(yǔ)言處理技術(shù)研究與進(jìn)展——第三屆全國(guó)少數(shù)民族青年自然語(yǔ)言信息處理、第二屆全國(guó)多語(yǔ)言知識(shí)庫(kù)建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年

5 陳小飛;王軼彤;馮小軍;;一種基于網(wǎng)頁(yè)質(zhì)量的PageRank算法改進(jìn)[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集（B輯）[C];2009年

6 劉菁菁;林鴻飛;楊志豪;;基于PageRank和錨文本的網(wǎng)頁(yè)排序研究[A];第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2006年

7 李洋濤;李川;許超;雷曉;徐洪宇;唐常杰;楊寧;;空間評(píng)分:基于PageRank的信息網(wǎng)絡(luò)可視化中節(jié)點(diǎn)重要性度量[A];第29屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集（B輯）（NDBC2012）[C];2012年

8 Jonathan J.H.Zhu;;PPS Sampling of Web Graph Using Preferential Jumping Strategy[A];Proceedings 2010 IEEE 2nd Symposium on Web Society[C];2010年

9 劉建毅;王菁華;王樅;;基于語(yǔ)言網(wǎng)絡(luò)的關(guān)鍵詞抽取[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

10 ;Thinking with simple computer models:Modeling of social-economic systems[A];全國(guó)復(fù)雜系統(tǒng)研究論壇論文集（一）[C];2005年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 蔡建超;基于PageRank算法的搜索引擎優(yōu)化研究[D];江南大學(xué);2008年

2 邵晶晶;基于PageRank排序算法改進(jìn)的若干研究[D];華中師范大學(xué);2009年

3 王磊;PageRank的算法改進(jìn)[D];上海交通大學(xué);2009年

4 張巍;基于PageRank算法的搜索引擎優(yōu)化策略研究[D];四川大學(xué);2005年

5 姜sバ

本文編號(hào)：404901

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/404901.html

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于改進(jìn)PageRank算法和用戶興趣的個(gè)性化搜索研究