用戶搜索日志分析及其在檢索中的應(yīng)用
發(fā)布時間:2023-03-05 03:51
隨著互聯(lián)網(wǎng)的興起以及云計算技術(shù)的快速迭代,每個行業(yè)生成和處理的數(shù)據(jù)量正進行著指數(shù)級別的增長。大數(shù)據(jù)作為當(dāng)前時代發(fā)展的產(chǎn)物,正在多元化的影響著社會生產(chǎn)生活,在檢索領(lǐng)域,搜索引擎成為現(xiàn)代網(wǎng)絡(luò)發(fā)展史上的一個轉(zhuǎn)折點,大型搜索引擎每天可以產(chǎn)生和獲取上萬計甚至上億計的點擊日志數(shù)據(jù),這些點擊日志中蘊含著大量的用戶相關(guān)信息,所以各大搜索引擎公司開始逐漸重視自己的搜索日志,通過對這些日志進行相應(yīng)的過濾分析,挖掘出與用戶相關(guān)的信息,以此來提升檢索系統(tǒng)的效果。本文針對海量的用戶搜索日志主要進行如下工作:(1)分析日志清理相關(guān)技術(shù),分析原始瀏覽日志數(shù)據(jù)形態(tài),根據(jù)瀏覽器記錄跳轉(zhuǎn)關(guān)系將用戶搜索與點擊對應(yīng),采取滑動窗口的方式生成每天用戶的點擊數(shù)據(jù)流,基于Spark通過相關(guān)數(shù)據(jù)挖掘的方法對用戶點擊鏈接進行清洗、過濾以及參數(shù)的歸一化,并生成用于后續(xù)相關(guān)算法使用的數(shù)據(jù)。(2)根據(jù)向量傳播算法挖掘出檢索詞與鏈接的關(guān)聯(lián)關(guān)系,首先構(gòu)建了檢索詞-鏈接的點擊二部圖,然后基于隨機游走模型對該點擊二部圖進行建模,挖掘出用戶檢索詞與沒有點擊到的鏈接的隱含關(guān)系,同時也可以利用該算法迭代到奇數(shù)步時獲得檢索詞與檢索詞、鏈接與鏈接的內(nèi)在關(guān)系。(...
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題研究背景
1.1.1 檢索系統(tǒng)發(fā)展歷程
1.1.2 用戶點擊行為研究及其在檢索中的應(yīng)用
1.2 相關(guān)研究現(xiàn)狀
1.3 本文主要工作內(nèi)容
1.4 文章結(jié)構(gòu)
第2章 搜索日志及相關(guān)技術(shù)的介紹
2.1 搜索日志
2.1.1 搜索日志的內(nèi)容
2.1.2 搜索日志的作用
2.2 用戶點擊流數(shù)據(jù)
2.2.1 點擊流數(shù)據(jù)的定義
2.2.2 點擊流數(shù)據(jù)的作用
2.3 搜索日志和點擊流數(shù)據(jù)處理相關(guān)技術(shù)
2.3.1 分布式系統(tǒng)之Hadoop
2.3.2 分布式計算之Spark
2.3.3 彈性分布式數(shù)據(jù)集RDD
2.4 用戶查詢和網(wǎng)頁處理及相似度計算相關(guān)技術(shù)
2.4.1 中文分詞
2.4.2 向量傳播算法
2.4.3 自注意力機制
2.5 本章小結(jié)
第3章 用戶歷史點擊數(shù)據(jù)流的構(gòu)建
3.1 原始日志的分析
3.1.1 搜索日志處理流程
3.1.2 重要信息字段構(gòu)成
3.2 點擊數(shù)據(jù)流的構(gòu)建
3.3 點擊數(shù)據(jù)的清理
3.3.1 基于規(guī)則過濾
3.3.2 基于海量網(wǎng)頁挖掘參數(shù)過濾信息
3.4 本章小結(jié)
第4章 海量用戶點擊對的分布式向量傳播算法實現(xiàn)
4.1 馬爾可夫隨機游走
4.2 點擊圖上隨機游走過程
4.3 向量傳播算法分布式實現(xiàn)
4.4 本章小結(jié)
第5章 基于用戶點擊的泛化模型構(gòu)建與評測
5.1 點擊數(shù)據(jù)泛化模型構(gòu)建理論
5.1.1 相關(guān)問題
5.1.2 自注意力模型
5.2 對用戶點擊進行泛化神經(jīng)網(wǎng)絡(luò)模型構(gòu)建過程
5.2.1 泛化模型訓(xùn)練數(shù)據(jù)生成
5.2.2 模型框架
5.3 實驗評測
5.4 本章小結(jié)
第6章 總結(jié)和展望
6.1 本文工作總結(jié)
6.2 展望
參考文獻
致謝
攻讀學(xué)位期間參與科研項目
學(xué)位論文評閱及答辯情況表
本文編號:3755646
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題研究背景
1.1.1 檢索系統(tǒng)發(fā)展歷程
1.1.2 用戶點擊行為研究及其在檢索中的應(yīng)用
1.2 相關(guān)研究現(xiàn)狀
1.3 本文主要工作內(nèi)容
1.4 文章結(jié)構(gòu)
第2章 搜索日志及相關(guān)技術(shù)的介紹
2.1 搜索日志
2.1.1 搜索日志的內(nèi)容
2.1.2 搜索日志的作用
2.2 用戶點擊流數(shù)據(jù)
2.2.1 點擊流數(shù)據(jù)的定義
2.2.2 點擊流數(shù)據(jù)的作用
2.3 搜索日志和點擊流數(shù)據(jù)處理相關(guān)技術(shù)
2.3.1 分布式系統(tǒng)之Hadoop
2.3.2 分布式計算之Spark
2.3.3 彈性分布式數(shù)據(jù)集RDD
2.4 用戶查詢和網(wǎng)頁處理及相似度計算相關(guān)技術(shù)
2.4.1 中文分詞
2.4.2 向量傳播算法
2.4.3 自注意力機制
2.5 本章小結(jié)
第3章 用戶歷史點擊數(shù)據(jù)流的構(gòu)建
3.1 原始日志的分析
3.1.1 搜索日志處理流程
3.1.2 重要信息字段構(gòu)成
3.2 點擊數(shù)據(jù)流的構(gòu)建
3.3 點擊數(shù)據(jù)的清理
3.3.1 基于規(guī)則過濾
3.3.2 基于海量網(wǎng)頁挖掘參數(shù)過濾信息
3.4 本章小結(jié)
第4章 海量用戶點擊對的分布式向量傳播算法實現(xiàn)
4.1 馬爾可夫隨機游走
4.2 點擊圖上隨機游走過程
4.3 向量傳播算法分布式實現(xiàn)
4.4 本章小結(jié)
第5章 基于用戶點擊的泛化模型構(gòu)建與評測
5.1 點擊數(shù)據(jù)泛化模型構(gòu)建理論
5.1.1 相關(guān)問題
5.1.2 自注意力模型
5.2 對用戶點擊進行泛化神經(jīng)網(wǎng)絡(luò)模型構(gòu)建過程
5.2.1 泛化模型訓(xùn)練數(shù)據(jù)生成
5.2.2 模型框架
5.3 實驗評測
5.4 本章小結(jié)
第6章 總結(jié)和展望
6.1 本文工作總結(jié)
6.2 展望
參考文獻
致謝
攻讀學(xué)位期間參與科研項目
學(xué)位論文評閱及答辯情況表
本文編號:3755646
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3755646.html
最近更新
教材專著