天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于改進(jìn)PageRank算法和用戶興趣的個性化搜索研究

發(fā)布時間:2017-05-29 13:02

  本文關(guān)鍵詞:基于改進(jìn)PageRank算法和用戶興趣的個性化搜索研究,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展、互聯(lián)網(wǎng)上信息量急劇增加,網(wǎng)絡(luò)已成為人們獲取信息的重要途徑。用戶渴望在膨脹的資源中快速檢索出自己想要的信息的愿望,迫使傳統(tǒng)搜索引擎向智能化、個性化的方向進(jìn)行改革。能夠感知用戶意愿、滿足用戶個性化需求的個性化搜索引擎將成為未來發(fā)展的趨勢。因此,本文設(shè)計了基于PageRank算法和用戶興趣模型的個性化搜索系統(tǒng)。 首先,針對PageRank排序算法存在的四個問題,從網(wǎng)頁相似度、點(diǎn)擊量、權(quán)威性、時間因子入手對PageRank進(jìn)行改進(jìn)。首先,在網(wǎng)頁分塊的基礎(chǔ)上,分析位置標(biāo)簽、錨文本、向量空間模型,綜合估計網(wǎng)頁間相似度,改善主題漂移;其次,分析點(diǎn)擊量和點(diǎn)擊量增長速度,評估網(wǎng)頁重要性發(fā)展趨勢;再次,利用站內(nèi)評價和站內(nèi)外鏈接計算網(wǎng)頁權(quán)威性,影響PR值的傳遞,并防止網(wǎng)頁作弊;最后,借助時間補(bǔ)償因子,消除對新網(wǎng)頁的歧視,使新舊網(wǎng)頁獲得與其實(shí)際價值相符的權(quán)值。 其次,基于改進(jìn)的向量空間模型和顯隱式結(jié)合的建模方式,分析用戶的注冊信息、用戶收藏夾、歷史瀏覽記錄,,構(gòu)建用戶興趣模型。模型更新采用不定時更新和定時更新兩種機(jī)制,不定時更新模型是當(dāng)用戶向收藏夾中添加網(wǎng)頁時采用的方法,定時更新模型是基于艾賓浩斯遺忘曲線,每隔一段時間就對用戶模型內(nèi)的特征項(xiàng)進(jìn)行一次更新操作。 最后,分析開源搜索引擎nutch的工作流程,以nutch為基礎(chǔ)進(jìn)行二次開發(fā),在nutch中添加用戶興趣模塊,并用改進(jìn)的PageRank算法替換nutch中原有的排序算法,實(shí)現(xiàn)個性化搜索。并利用nutch抓取大量網(wǎng)頁,以此作為實(shí)驗(yàn)數(shù)據(jù),進(jìn)行相關(guān)對比試驗(yàn)。實(shí)驗(yàn)結(jié)果證明,相較于傳統(tǒng)的PageRank,改進(jìn)后算法的排序結(jié)果準(zhǔn)確率更高;诟倪M(jìn)PageRank算法和興趣模型的個性化搜索系統(tǒng),能更好的滿足用戶的個性化需求。
【關(guān)鍵詞】:PageRank 個性化搜索 相似度 點(diǎn)擊量趨勢 權(quán)威性 時間維 用戶興趣
【學(xué)位授予單位】:河北工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.3
【目錄】:
  • 摘要5-6
  • ABSTRACT6-10
  • 第一章 緒論10-16
  • 1.1 課題研究背景及意義10-11
  • 1.2 國內(nèi)外研究現(xiàn)狀11-13
  • 1.2.1 個性化搜索技術(shù)的國內(nèi)外研究現(xiàn)狀11-12
  • 1.2.2 排序算法的國內(nèi)外研究現(xiàn)狀12-13
  • 1.3 研究內(nèi)容及組織結(jié)構(gòu)13-16
  • 1.3.1 論文研究內(nèi)容13
  • 1.3.2 論文創(chuàng)新點(diǎn)13-14
  • 1.3.3 論文組織結(jié)構(gòu)14-16
  • 第二章 相關(guān)理論與技術(shù)研究16-28
  • 2.1 搜索引擎16-18
  • 2.1.1 搜索引擎工作原理16
  • 2.1.2 搜索引擎技術(shù)框架16-18
  • 2.1.3 個性化搜索18
  • 2.2 鏈接分析算法18-21
  • 2.2.1 PAGERANK 算法18-20
  • 2.2.2 HITS 算法20-21
  • 2.2.3 PAGERANK 算法和 HITS 算法的比較21
  • 2.3 檢索模型21-24
  • 2.3.1 布爾模型22-23
  • 2.3.2 向量空間模型 VSM23-24
  • 2.3.3 概率檢索模型24
  • 2.4 分詞技術(shù)24-25
  • 2.5 網(wǎng)頁分塊技術(shù)25-26
  • 2.6 本章小結(jié)26-28
  • 第三章 改進(jìn)的 PAGERANK 算法28-40
  • 3.1 引言28-30
  • 3.2 網(wǎng)頁分塊預(yù)處理30-32
  • 3.3 相似度32-35
  • 3.3.1 相關(guān)研究32
  • 3.3.2 相似度計算32-35
  • 3.4 點(diǎn)擊量35-36
  • 3.5 權(quán)威性36-37
  • 3.5.1 站內(nèi)評價36-37
  • 3.5.2 站內(nèi)外鏈接37
  • 3.6 時間維37-38
  • 3.7 整體改進(jìn) PAGERANK 算法38
  • 3.8 本章小結(jié)38-40
  • 第四章 用戶興趣模型40-52
  • 4.1 引言40
  • 4.2 用戶興趣信息的獲取40-42
  • 4.2.1 顯式獲取40-41
  • 4.2.2 隱式獲取41-42
  • 4.3 用戶建模的方法42
  • 4.3.1 顯式建模方法42
  • 4.3.2 隱式建模方法42
  • 4.4 用戶興趣模型框架42-43
  • 4.5 用戶興趣模型的建立43-46
  • 4.5.1 信息收集43-44
  • 4.5.2 網(wǎng)頁信息預(yù)處理44-45
  • 4.5.3 特征詞權(quán)重計算45
  • 4.5.4 生成用戶興趣模型45-46
  • 4.6 用戶興趣模型的更新46-49
  • 4.6.1 不定時更新模型46-47
  • 4.6.2 定時更新模型47-49
  • 4.7 用戶興趣模型的使用49-50
  • 4.8 本章小結(jié)50-52
  • 第五章 個性化搜索的設(shè)計與實(shí)現(xiàn)52-68
  • 5.1 實(shí)驗(yàn)準(zhǔn)備52-55
  • 5.1.1 軟硬件實(shí)驗(yàn)環(huán)境52
  • 5.1.2 環(huán)境部署52-55
  • 5.2 系統(tǒng)設(shè)計與實(shí)現(xiàn)55-63
  • 5.2.1 個性化搜索引擎功能需求分析55-57
  • 5.2.2 個性化搜索引擎整體設(shè)計57-58
  • 5.2.3 服務(wù)器端設(shè)計與實(shí)現(xiàn)58-61
  • 5.2.4 客戶端前端的實(shí)現(xiàn)61-63
  • 5.3 實(shí)驗(yàn)結(jié)果及分析63-66
  • 5.3.1 測試過程63
  • 5.3.2 實(shí)驗(yàn)評測標(biāo)準(zhǔn)及搜索效果分析63-66
  • 5.4 本章小結(jié)66-68
  • 第六章 結(jié)論68-70
  • 6.1 論文總結(jié)68-69
  • 6.2 論文展望69-70
  • 參考文獻(xiàn)70-74
  • 攻讀碩士期間發(fā)表的學(xué)術(shù)論文情況74-76
  • 致謝76-77

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 戚華春,黃德才,鄭月鋒;具有時間反饋的PageRank改進(jìn)算法[J];浙江工業(yè)大學(xué)學(xué)報;2005年03期

2 黃德才;戚華春;;PageRank算法研究[J];計算機(jī)工程;2006年04期

3 楊彬;康慕寧;;基于概念的權(quán)重PageRank改進(jìn)算法[J];情報雜志;2006年11期

4 張麗;;PageRank算法的改進(jìn)[J];科學(xué)技術(shù)與工程;2007年05期

5 孔娟;馬亨冰;;PageRank算法的原理與解析[J];福建電腦;2007年01期

6 姜鑫維;趙岳松;;Topic PageRank——一種基于主題的搜索引擎[J];計算機(jī)技術(shù)與發(fā)展;2007年05期

7 劉松彬;都云程;施水才;;基于分解轉(zhuǎn)移矩陣的PageRank迭代計算方法[J];中文信息學(xué)報;2007年05期

8 田甜;倪林;;基于PageRank算法的權(quán)威值不均衡分配問題[J];計算機(jī)工程;2007年18期

9 劉彤彤;伍小芹;;融入權(quán)威性與相關(guān)性的PageRank算法[J];信息技術(shù);2008年11期

10 李吉平;吳陳;曾慶軍;;基于轉(zhuǎn)移概率的PageRank算法研究[J];科學(xué)技術(shù)與工程;2008年08期

中國重要會議論文全文數(shù)據(jù)庫 前10條

1 ;Key Nodes Mining in Transport Networks Based on PageRank Algorithm[A];2009中國控制與決策會議論文集(3)[C];2009年

2 劉松彬;都云程;施水才;;基于分解轉(zhuǎn)移矩陣的PageRank迭代計算方法[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年

3 藺繼國;徐錫山;;一種基于用戶點(diǎn)擊數(shù)據(jù)的個性化PageRank算法[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年

4 李文;李淼;張建;朱海;陳雷;;基于混淆網(wǎng)絡(luò)和PageRank的Nbest重排序[A];少數(shù)民族青年自然語言處理技術(shù)研究與進(jìn)展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設(shè)聯(lián)合學(xué)術(shù)研討會論文集[C];2010年

5 陳小飛;王軼彤;馮小軍;;一種基于網(wǎng)頁質(zhì)量的PageRank算法改進(jìn)[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2009年

6 劉菁菁;林鴻飛;楊志豪;;基于PageRank和錨文本的網(wǎng)頁排序研究[A];第三屆學(xué)生計算語言學(xué)研討會論文集[C];2006年

7 李洋濤;李川;許超;雷曉;徐洪宇;唐常杰;楊寧;;空間評分:基于PageRank的信息網(wǎng)絡(luò)可視化中節(jié)點(diǎn)重要性度量[A];第29屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)(NDBC2012)[C];2012年

8 Jonathan J.H.Zhu;;PPS Sampling of Web Graph Using Preferential Jumping Strategy[A];Proceedings 2010 IEEE 2nd Symposium on Web Society[C];2010年

9 劉建毅;王菁華;王樅;;基于語言網(wǎng)絡(luò)的關(guān)鍵詞抽取[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年

10 ;Thinking with simple computer models:Modeling of social-economic systems[A];全國復(fù)雜系統(tǒng)研究論壇論文集(一)[C];2005年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 蔡建超;基于PageRank算法的搜索引擎優(yōu)化研究[D];江南大學(xué);2008年

2 邵晶晶;基于PageRank排序算法改進(jìn)的若干研究[D];華中師范大學(xué);2009年

3 王磊;PageRank的算法改進(jìn)[D];上海交通大學(xué);2009年

4 張巍;基于PageRank算法的搜索引擎優(yōu)化策略研究[D];四川大學(xué);2005年

5 姜sバ

本文編號:404901


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/404901.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e774e***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com