基于改進PageRank算法的個性化搜索的研究
發(fā)布時間:2021-04-12 08:22
隨著互聯(lián)網(wǎng)技術的發(fā)展和網(wǎng)絡信息的與日俱增,網(wǎng)絡信息面臨信息量大、信息形式混亂、難以管理的狀況。目前互聯(lián)網(wǎng)搜索引擎技術是針對關鍵詞匹配進行搜索,對于搜索返回結果并不進行過濾處理,給搜索用戶查找所需信息造成了很大的不便,降低了搜索的效率。而且隨著互聯(lián)網(wǎng)用戶體驗和交互需求的增加,個性化搜索成為搜索引擎研究的主要方向和趨勢。對于個性化搜索技術來說,用戶興趣模型是個性化搜索的核心,用戶興趣模型建立的好壞直接影響了個性化搜索的質量。 本文是基于Google著名的PageRank排名算法建立用戶興趣模型從而對個性化搜索進行研究。第一章主要介紹了課題的背景意義、國內外研究現(xiàn)狀和本文研究所用到的理論基礎;第二章主要針對建立用戶興趣模型所用到的技術進行分析,得到用戶興趣模型的最初框架;第三章主要根據(jù)對PageRank算法的改進推導出用戶興趣數(shù)學模型;第四章主要是設計實驗,通過相關數(shù)據(jù)分析和計算來驗證用戶興趣模型的正確性;第五章是對全文的總結和展望。本文的重點是對PageRank算法原理的分析和改進,分析個性化搜索引擎和用戶瀏覽行為,研究用戶興趣獲取方式,建立基于網(wǎng)頁收藏夾和瀏覽記錄的用戶興趣模型,難點是進行實驗設計驗證用戶興趣模型的正確性。
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TP391.3
本文編號:2187006
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TP391.3
文章目錄
摘要
ABSTRACT
第一章 緒論
1.1 研究背景和意義
1.1.1 研究背景
1.1.2 研究意義
1.2 相關技術國內外研究現(xiàn)狀
1.2.1 個性化搜索技術的國內外研究現(xiàn)狀
1.2.2 搜索引擎排名算法的國內外研究現(xiàn)狀
1.3 PageRank排名算法介紹
1.3.1 PageRank基本概念
1.3.2 PageRank算法
1.3.3 PageRank算法的優(yōu)缺點和改進
1.4 論文研究內容和結構安排
1.4.1 研究內容
1.4.2 論文組織結構
第二章 用戶行為分析和用戶興趣模型框架的建立
2.1 個性化搜索
2.1.1 個性化搜索引擎技術
2.1.2 用戶行為分析
2.1.3 用戶興趣獲取方式分類
2.1.4 關鍵詞提取技術
2.2 幾種用戶興趣模型分析
2.2.1 基于向量空間模型
2.2.2 基于Tag用戶興趣模型
2.2.3 基于分類的用戶興趣模型
2.3 用戶興趣模型框架的建立
2.4 本章小結
第三章 基于網(wǎng)頁收藏夾和瀏覽記錄的用戶模型
3.1 基于網(wǎng)頁收藏夾的網(wǎng)頁權值分析
3.1.1 用戶瀏覽行為概述
3.1.2 TF-IDF關鍵詞權重計算
3.1.3 PR值加權計算
3.2 基于瀏覽記錄的網(wǎng)頁權值分析
3.2.1 用戶瀏覽行為概述
3.2.2 時間遺忘曲線和遺忘因子
3.2.3 PR值加權計算
3.3 個性化搜索模型的搭建
3.3.1 模型結構
3.3.2 數(shù)據(jù)分析處理
3.3.3 模型搭建
3.4 本章小結
第四章 基于改進算法的用戶興趣模型實驗驗證
4.1 實驗設計
4.1.1 實驗條件
4.1.2 實驗用戶行為分析
4.1.3 實驗模型設計
4.1.4 實驗假設
4.2 基于改進的PageRank算法進行數(shù)據(jù)分析和計算
4.2.1 實驗數(shù)據(jù)表建立
4.2.2 數(shù)據(jù)計算
4.3 對比分析實驗結果和驗證
4.3.1 實驗結果分析
4.3.2 實驗驗證結論
4.4 本章小結
第五章 結論與展望
5.1 全文總結
5.2 研究展望
參考文獻
致謝
【引證文獻】
相關碩士學位論文 前1條
1 王欽為;面向用戶的個性化搜索引擎算法研究與系統(tǒng)設計[D];華南理工大學;2012年
本文編號:2187006
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2187006.html
最近更新
教材專著