基于改進(jìn)PageRank算法和用戶興趣的個性化搜索研究
本文關(guān)鍵詞:基于改進(jìn)PageRank算法和用戶興趣的個性化搜索研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展、互聯(lián)網(wǎng)上信息量急劇增加,網(wǎng)絡(luò)已成為人們獲取信息的重要途徑。用戶渴望在膨脹的資源中快速檢索出自己想要的信息的愿望,迫使傳統(tǒng)搜索引擎向智能化、個性化的方向進(jìn)行改革。能夠感知用戶意愿、滿足用戶個性化需求的個性化搜索引擎將成為未來發(fā)展的趨勢。因此,本文設(shè)計了基于PageRank算法和用戶興趣模型的個性化搜索系統(tǒng)。 首先,針對PageRank排序算法存在的四個問題,從網(wǎng)頁相似度、點(diǎn)擊量、權(quán)威性、時間因子入手對PageRank進(jìn)行改進(jìn)。首先,在網(wǎng)頁分塊的基礎(chǔ)上,分析位置標(biāo)簽、錨文本、向量空間模型,綜合估計網(wǎng)頁間相似度,改善主題漂移;其次,分析點(diǎn)擊量和點(diǎn)擊量增長速度,評估網(wǎng)頁重要性發(fā)展趨勢;再次,利用站內(nèi)評價和站內(nèi)外鏈接計算網(wǎng)頁權(quán)威性,影響PR值的傳遞,并防止網(wǎng)頁作弊;最后,借助時間補(bǔ)償因子,消除對新網(wǎng)頁的歧視,使新舊網(wǎng)頁獲得與其實(shí)際價值相符的權(quán)值。 其次,基于改進(jìn)的向量空間模型和顯隱式結(jié)合的建模方式,分析用戶的注冊信息、用戶收藏夾、歷史瀏覽記錄,,構(gòu)建用戶興趣模型。模型更新采用不定時更新和定時更新兩種機(jī)制,不定時更新模型是當(dāng)用戶向收藏夾中添加網(wǎng)頁時采用的方法,定時更新模型是基于艾賓浩斯遺忘曲線,每隔一段時間就對用戶模型內(nèi)的特征項(xiàng)進(jìn)行一次更新操作。 最后,分析開源搜索引擎nutch的工作流程,以nutch為基礎(chǔ)進(jìn)行二次開發(fā),在nutch中添加用戶興趣模塊,并用改進(jìn)的PageRank算法替換nutch中原有的排序算法,實(shí)現(xiàn)個性化搜索。并利用nutch抓取大量網(wǎng)頁,以此作為實(shí)驗(yàn)數(shù)據(jù),進(jìn)行相關(guān)對比試驗(yàn)。實(shí)驗(yàn)結(jié)果證明,相較于傳統(tǒng)的PageRank,改進(jìn)后算法的排序結(jié)果準(zhǔn)確率更高;诟倪M(jìn)PageRank算法和興趣模型的個性化搜索系統(tǒng),能更好的滿足用戶的個性化需求。
【關(guān)鍵詞】:PageRank 個性化搜索 相似度 點(diǎn)擊量趨勢 權(quán)威性 時間維 用戶興趣
【學(xué)位授予單位】:河北工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.3
【目錄】:
- 摘要5-6
- ABSTRACT6-10
- 第一章 緒論10-16
- 1.1 課題研究背景及意義10-11
- 1.2 國內(nèi)外研究現(xiàn)狀11-13
- 1.2.1 個性化搜索技術(shù)的國內(nèi)外研究現(xiàn)狀11-12
- 1.2.2 排序算法的國內(nèi)外研究現(xiàn)狀12-13
- 1.3 研究內(nèi)容及組織結(jié)構(gòu)13-16
- 1.3.1 論文研究內(nèi)容13
- 1.3.2 論文創(chuàng)新點(diǎn)13-14
- 1.3.3 論文組織結(jié)構(gòu)14-16
- 第二章 相關(guān)理論與技術(shù)研究16-28
- 2.1 搜索引擎16-18
- 2.1.1 搜索引擎工作原理16
- 2.1.2 搜索引擎技術(shù)框架16-18
- 2.1.3 個性化搜索18
- 2.2 鏈接分析算法18-21
- 2.2.1 PAGERANK 算法18-20
- 2.2.2 HITS 算法20-21
- 2.2.3 PAGERANK 算法和 HITS 算法的比較21
- 2.3 檢索模型21-24
- 2.3.1 布爾模型22-23
- 2.3.2 向量空間模型 VSM23-24
- 2.3.3 概率檢索模型24
- 2.4 分詞技術(shù)24-25
- 2.5 網(wǎng)頁分塊技術(shù)25-26
- 2.6 本章小結(jié)26-28
- 第三章 改進(jìn)的 PAGERANK 算法28-40
- 3.1 引言28-30
- 3.2 網(wǎng)頁分塊預(yù)處理30-32
- 3.3 相似度32-35
- 3.3.1 相關(guān)研究32
- 3.3.2 相似度計算32-35
- 3.4 點(diǎn)擊量35-36
- 3.5 權(quán)威性36-37
- 3.5.1 站內(nèi)評價36-37
- 3.5.2 站內(nèi)外鏈接37
- 3.6 時間維37-38
- 3.7 整體改進(jìn) PAGERANK 算法38
- 3.8 本章小結(jié)38-40
- 第四章 用戶興趣模型40-52
- 4.1 引言40
- 4.2 用戶興趣信息的獲取40-42
- 4.2.1 顯式獲取40-41
- 4.2.2 隱式獲取41-42
- 4.3 用戶建模的方法42
- 4.3.1 顯式建模方法42
- 4.3.2 隱式建模方法42
- 4.4 用戶興趣模型框架42-43
- 4.5 用戶興趣模型的建立43-46
- 4.5.1 信息收集43-44
- 4.5.2 網(wǎng)頁信息預(yù)處理44-45
- 4.5.3 特征詞權(quán)重計算45
- 4.5.4 生成用戶興趣模型45-46
- 4.6 用戶興趣模型的更新46-49
- 4.6.1 不定時更新模型46-47
- 4.6.2 定時更新模型47-49
- 4.7 用戶興趣模型的使用49-50
- 4.8 本章小結(jié)50-52
- 第五章 個性化搜索的設(shè)計與實(shí)現(xiàn)52-68
- 5.1 實(shí)驗(yàn)準(zhǔn)備52-55
- 5.1.1 軟硬件實(shí)驗(yàn)環(huán)境52
- 5.1.2 環(huán)境部署52-55
- 5.2 系統(tǒng)設(shè)計與實(shí)現(xiàn)55-63
- 5.2.1 個性化搜索引擎功能需求分析55-57
- 5.2.2 個性化搜索引擎整體設(shè)計57-58
- 5.2.3 服務(wù)器端設(shè)計與實(shí)現(xiàn)58-61
- 5.2.4 客戶端前端的實(shí)現(xiàn)61-63
- 5.3 實(shí)驗(yàn)結(jié)果及分析63-66
- 5.3.1 測試過程63
- 5.3.2 實(shí)驗(yàn)評測標(biāo)準(zhǔn)及搜索效果分析63-66
- 5.4 本章小結(jié)66-68
- 第六章 結(jié)論68-70
- 6.1 論文總結(jié)68-69
- 6.2 論文展望69-70
- 參考文獻(xiàn)70-74
- 攻讀碩士期間發(fā)表的學(xué)術(shù)論文情況74-76
- 致謝76-77
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 戚華春,黃德才,鄭月鋒;具有時間反饋的PageRank改進(jìn)算法[J];浙江工業(yè)大學(xué)學(xué)報;2005年03期
2 黃德才;戚華春;;PageRank算法研究[J];計算機(jī)工程;2006年04期
3 楊彬;康慕寧;;基于概念的權(quán)重PageRank改進(jìn)算法[J];情報雜志;2006年11期
4 張麗;;PageRank算法的改進(jìn)[J];科學(xué)技術(shù)與工程;2007年05期
5 孔娟;馬亨冰;;PageRank算法的原理與解析[J];福建電腦;2007年01期
6 姜鑫維;趙岳松;;Topic PageRank——一種基于主題的搜索引擎[J];計算機(jī)技術(shù)與發(fā)展;2007年05期
7 劉松彬;都云程;施水才;;基于分解轉(zhuǎn)移矩陣的PageRank迭代計算方法[J];中文信息學(xué)報;2007年05期
8 田甜;倪林;;基于PageRank算法的權(quán)威值不均衡分配問題[J];計算機(jī)工程;2007年18期
9 劉彤彤;伍小芹;;融入權(quán)威性與相關(guān)性的PageRank算法[J];信息技術(shù);2008年11期
10 李吉平;吳陳;曾慶軍;;基于轉(zhuǎn)移概率的PageRank算法研究[J];科學(xué)技術(shù)與工程;2008年08期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 ;Key Nodes Mining in Transport Networks Based on PageRank Algorithm[A];2009中國控制與決策會議論文集(3)[C];2009年
2 劉松彬;都云程;施水才;;基于分解轉(zhuǎn)移矩陣的PageRank迭代計算方法[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年
3 藺繼國;徐錫山;;一種基于用戶點(diǎn)擊數(shù)據(jù)的個性化PageRank算法[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年
4 李文;李淼;張建;朱海;陳雷;;基于混淆網(wǎng)絡(luò)和PageRank的Nbest重排序[A];少數(shù)民族青年自然語言處理技術(shù)研究與進(jìn)展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設(shè)聯(lián)合學(xué)術(shù)研討會論文集[C];2010年
5 陳小飛;王軼彤;馮小軍;;一種基于網(wǎng)頁質(zhì)量的PageRank算法改進(jìn)[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2009年
6 劉菁菁;林鴻飛;楊志豪;;基于PageRank和錨文本的網(wǎng)頁排序研究[A];第三屆學(xué)生計算語言學(xué)研討會論文集[C];2006年
7 李洋濤;李川;許超;雷曉;徐洪宇;唐常杰;楊寧;;空間評分:基于PageRank的信息網(wǎng)絡(luò)可視化中節(jié)點(diǎn)重要性度量[A];第29屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)(NDBC2012)[C];2012年
8 Jonathan J.H.Zhu;;PPS Sampling of Web Graph Using Preferential Jumping Strategy[A];Proceedings 2010 IEEE 2nd Symposium on Web Society[C];2010年
9 劉建毅;王菁華;王樅;;基于語言網(wǎng)絡(luò)的關(guān)鍵詞抽取[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
10 ;Thinking with simple computer models:Modeling of social-economic systems[A];全國復(fù)雜系統(tǒng)研究論壇論文集(一)[C];2005年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 蔡建超;基于PageRank算法的搜索引擎優(yōu)化研究[D];江南大學(xué);2008年
2 邵晶晶;基于PageRank排序算法改進(jìn)的若干研究[D];華中師范大學(xué);2009年
3 王磊;PageRank的算法改進(jìn)[D];上海交通大學(xué);2009年
4 張巍;基于PageRank算法的搜索引擎優(yōu)化策略研究[D];四川大學(xué);2005年
5 姜sバ
本文編號:404901
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/404901.html