基于用戶個(gè)性化的圖書搜索引擎的研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2022-08-02 19:35
近些年來,互聯(lián)網(wǎng)的圖書資源迅速增加,予以讀者豐富多樣的選擇。與此同時(shí),如何在海量資源中快速準(zhǔn)確地找到自己所需的圖書,成為用戶面臨的主要問題。圖書領(lǐng)域的垂直搜索引擎應(yīng)運(yùn)而生,現(xiàn)已得到廣泛應(yīng)用。然而,傳統(tǒng)的圖書搜索引擎存在著諸多問題,例如商業(yè)氣息濃重、查詢范圍狹窄等,除此之外,更是沒有充分考慮用戶的個(gè)性需求,對于同一查詢關(guān)鍵詞,一律返回相同的搜索結(jié)果列表。因此,本文提出了基于用戶個(gè)性化的圖書搜索引擎的研究方案。首先,本文設(shè)定豆瓣讀書為唯一數(shù)據(jù)來源,調(diào)用應(yīng)用開發(fā)接口,設(shè)計(jì)主題網(wǎng)絡(luò)爬蟲,獲取了足量的圖書數(shù)據(jù)和用戶數(shù)據(jù)。經(jīng)過預(yù)先處理的真實(shí)數(shù)據(jù),一方面用于建立詞條豐富的索引庫,另一方面用于個(gè)性化搜索算法的研究。協(xié)同標(biāo)注系統(tǒng)中,用戶可以自行定義標(biāo)簽管理資源。標(biāo)簽的靈活性和易用性,使其成為圖書資源與用戶興趣產(chǎn)生聯(lián)系的重要媒介,卻也帶來了一定的處理成本。為了降低噪聲和簡化計(jì)算,本文采用層次聚類算法,進(jìn)行了標(biāo)簽聚類,使得用戶的偏好更加集中,并且引用聚類結(jié)果,構(gòu)建了相應(yīng)的用戶興趣模型和文檔主題模型。針對用戶標(biāo)簽數(shù)據(jù)稀疏等問題,本文著重分析了用戶共有的圖書評分,改進(jìn)了用戶相似度計(jì)算模型,獲取了相似用戶推薦的圖...
【文章頁數(shù)】:81 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
符號對照表
縮略語對照表
第一章 緒論
1.1 課題研究背景
1.2 課題研究現(xiàn)狀
1.2.1 圖書搜索引擎的研究現(xiàn)狀
1.2.2 個(gè)性化搜索引擎的研究現(xiàn)狀
1.3 主要研究內(nèi)容
1.4 論文組織結(jié)構(gòu)
1.5 本章小結(jié)
第二章 相關(guān)理論研究
2.1 搜索引擎概述
2.2 網(wǎng)頁爬蟲的相關(guān)研究
2.2.1 網(wǎng)絡(luò)爬蟲分類
2.2.2 鏈接遍歷算法
2.2.3 網(wǎng)絡(luò)爬蟲工作原理
2.2.4 開源網(wǎng)絡(luò)爬蟲框架
2.3 中文分詞的相關(guān)研究
2.3.1 中文分詞方案
2.3.2 中文分詞工具
2.4 開源搜索引擎簡介
2.4.1 Xapian簡介
2.4.2 Xapian特點(diǎn)
2.4.3 Xapian核心要素
2.4.4 Xapian工作原理
2.4.5 Xapian檢索模型
2.5 用戶模型的理論研究
2.5.1 用戶模型概述
2.5.2 用戶數(shù)據(jù)的獲取方式
2.5.3 用戶模型的表示方法
2.6 本章小結(jié)
第三章 個(gè)性化搜索算法的設(shè)計(jì)
3.1 算法基本思想
3.2 標(biāo)簽聚類
3.2.1 圖書標(biāo)簽的向量表示
3.2.2 聚類算法的選擇與應(yīng)用
3.3 建立模型
3.3.1 相似用戶度量的改進(jìn)
3.3.2 用戶興趣模型的表示
3.3.3 用戶興趣模型的更新
3.3.4 文檔主題模型的表示
3.4 個(gè)性化搜索排序及評分機(jī)制
3.4.1 個(gè)性化搜索排序機(jī)制
3.4.2 個(gè)性化搜索評分機(jī)制
3.5 本章小結(jié)
第四章 個(gè)性化搜索算法的驗(yàn)證
4.1 實(shí)驗(yàn)環(huán)境
4.2 相似用戶度量驗(yàn)證實(shí)驗(yàn)
4.2.1 實(shí)驗(yàn)過程
4.2.2 結(jié)果分析
4.3 用戶興趣模型驗(yàn)證實(shí)驗(yàn)
4.3.1 實(shí)驗(yàn)過程
4.3.2 結(jié)果分析
4.4 本章小結(jié)
第五章 系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
5.1 需求分析
5.1.1 功能需求
5.1.2 性能需求
5.2 概要設(shè)計(jì)
5.2.1 架構(gòu)設(shè)計(jì)
5.2.2 功能模塊
5.3 詳細(xì)設(shè)計(jì)
5.3.1 數(shù)據(jù)獲取模塊
5.3.2 數(shù)據(jù)預(yù)處理模塊
5.3.3 聚類模塊
5.3.4 索引模塊
5.3.5 檢索模塊
5.3.6 用戶建模模塊
5.3.7 個(gè)性化排序模塊
5.3.8 用戶交互模塊
5.4 系統(tǒng)測試
5.5 本章小結(jié)
第六章 總結(jié)與展望
6.1 工作總結(jié)
6.2 未來展望
參考文獻(xiàn)
致謝
作者簡介
本文編號:3669117
【文章頁數(shù)】:81 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
符號對照表
縮略語對照表
第一章 緒論
1.1 課題研究背景
1.2 課題研究現(xiàn)狀
1.2.1 圖書搜索引擎的研究現(xiàn)狀
1.2.2 個(gè)性化搜索引擎的研究現(xiàn)狀
1.3 主要研究內(nèi)容
1.4 論文組織結(jié)構(gòu)
1.5 本章小結(jié)
第二章 相關(guān)理論研究
2.1 搜索引擎概述
2.2 網(wǎng)頁爬蟲的相關(guān)研究
2.2.1 網(wǎng)絡(luò)爬蟲分類
2.2.2 鏈接遍歷算法
2.2.3 網(wǎng)絡(luò)爬蟲工作原理
2.2.4 開源網(wǎng)絡(luò)爬蟲框架
2.3 中文分詞的相關(guān)研究
2.3.1 中文分詞方案
2.3.2 中文分詞工具
2.4 開源搜索引擎簡介
2.4.1 Xapian簡介
2.4.2 Xapian特點(diǎn)
2.4.3 Xapian核心要素
2.4.4 Xapian工作原理
2.4.5 Xapian檢索模型
2.5 用戶模型的理論研究
2.5.1 用戶模型概述
2.5.2 用戶數(shù)據(jù)的獲取方式
2.5.3 用戶模型的表示方法
2.6 本章小結(jié)
第三章 個(gè)性化搜索算法的設(shè)計(jì)
3.1 算法基本思想
3.2 標(biāo)簽聚類
3.2.1 圖書標(biāo)簽的向量表示
3.2.2 聚類算法的選擇與應(yīng)用
3.3 建立模型
3.3.1 相似用戶度量的改進(jìn)
3.3.2 用戶興趣模型的表示
3.3.3 用戶興趣模型的更新
3.3.4 文檔主題模型的表示
3.4 個(gè)性化搜索排序及評分機(jī)制
3.4.1 個(gè)性化搜索排序機(jī)制
3.4.2 個(gè)性化搜索評分機(jī)制
3.5 本章小結(jié)
第四章 個(gè)性化搜索算法的驗(yàn)證
4.1 實(shí)驗(yàn)環(huán)境
4.2 相似用戶度量驗(yàn)證實(shí)驗(yàn)
4.2.1 實(shí)驗(yàn)過程
4.2.2 結(jié)果分析
4.3 用戶興趣模型驗(yàn)證實(shí)驗(yàn)
4.3.1 實(shí)驗(yàn)過程
4.3.2 結(jié)果分析
4.4 本章小結(jié)
第五章 系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
5.1 需求分析
5.1.1 功能需求
5.1.2 性能需求
5.2 概要設(shè)計(jì)
5.2.1 架構(gòu)設(shè)計(jì)
5.2.2 功能模塊
5.3 詳細(xì)設(shè)計(jì)
5.3.1 數(shù)據(jù)獲取模塊
5.3.2 數(shù)據(jù)預(yù)處理模塊
5.3.3 聚類模塊
5.3.4 索引模塊
5.3.5 檢索模塊
5.3.6 用戶建模模塊
5.3.7 個(gè)性化排序模塊
5.3.8 用戶交互模塊
5.4 系統(tǒng)測試
5.5 本章小結(jié)
第六章 總結(jié)與展望
6.1 工作總結(jié)
6.2 未來展望
參考文獻(xiàn)
致謝
作者簡介
本文編號:3669117
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3669117.html
最近更新
教材專著