用戶搜索日志分析及其在檢索中的應(yīng)用
發(fā)布時(shí)間:2023-03-05 03:51
隨著互聯(lián)網(wǎng)的興起以及云計(jì)算技術(shù)的快速迭代,每個(gè)行業(yè)生成和處理的數(shù)據(jù)量正進(jìn)行著指數(shù)級(jí)別的增長(zhǎng)。大數(shù)據(jù)作為當(dāng)前時(shí)代發(fā)展的產(chǎn)物,正在多元化的影響著社會(huì)生產(chǎn)生活,在檢索領(lǐng)域,搜索引擎成為現(xiàn)代網(wǎng)絡(luò)發(fā)展史上的一個(gè)轉(zhuǎn)折點(diǎn),大型搜索引擎每天可以產(chǎn)生和獲取上萬(wàn)計(jì)甚至上億計(jì)的點(diǎn)擊日志數(shù)據(jù),這些點(diǎn)擊日志中蘊(yùn)含著大量的用戶相關(guān)信息,所以各大搜索引擎公司開始逐漸重視自己的搜索日志,通過(guò)對(duì)這些日志進(jìn)行相應(yīng)的過(guò)濾分析,挖掘出與用戶相關(guān)的信息,以此來(lái)提升檢索系統(tǒng)的效果。本文針對(duì)海量的用戶搜索日志主要進(jìn)行如下工作:(1)分析日志清理相關(guān)技術(shù),分析原始瀏覽日志數(shù)據(jù)形態(tài),根據(jù)瀏覽器記錄跳轉(zhuǎn)關(guān)系將用戶搜索與點(diǎn)擊對(duì)應(yīng),采取滑動(dòng)窗口的方式生成每天用戶的點(diǎn)擊數(shù)據(jù)流,基于Spark通過(guò)相關(guān)數(shù)據(jù)挖掘的方法對(duì)用戶點(diǎn)擊鏈接進(jìn)行清洗、過(guò)濾以及參數(shù)的歸一化,并生成用于后續(xù)相關(guān)算法使用的數(shù)據(jù)。(2)根據(jù)向量傳播算法挖掘出檢索詞與鏈接的關(guān)聯(lián)關(guān)系,首先構(gòu)建了檢索詞-鏈接的點(diǎn)擊二部圖,然后基于隨機(jī)游走模型對(duì)該點(diǎn)擊二部圖進(jìn)行建模,挖掘出用戶檢索詞與沒(méi)有點(diǎn)擊到的鏈接的隱含關(guān)系,同時(shí)也可以利用該算法迭代到奇數(shù)步時(shí)獲得檢索詞與檢索詞、鏈接與鏈接的內(nèi)在關(guān)系。(...
【文章頁(yè)數(shù)】:63 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題研究背景
1.1.1 檢索系統(tǒng)發(fā)展歷程
1.1.2 用戶點(diǎn)擊行為研究及其在檢索中的應(yīng)用
1.2 相關(guān)研究現(xiàn)狀
1.3 本文主要工作內(nèi)容
1.4 文章結(jié)構(gòu)
第2章 搜索日志及相關(guān)技術(shù)的介紹
2.1 搜索日志
2.1.1 搜索日志的內(nèi)容
2.1.2 搜索日志的作用
2.2 用戶點(diǎn)擊流數(shù)據(jù)
2.2.1 點(diǎn)擊流數(shù)據(jù)的定義
2.2.2 點(diǎn)擊流數(shù)據(jù)的作用
2.3 搜索日志和點(diǎn)擊流數(shù)據(jù)處理相關(guān)技術(shù)
2.3.1 分布式系統(tǒng)之Hadoop
2.3.2 分布式計(jì)算之Spark
2.3.3 彈性分布式數(shù)據(jù)集RDD
2.4 用戶查詢和網(wǎng)頁(yè)處理及相似度計(jì)算相關(guān)技術(shù)
2.4.1 中文分詞
2.4.2 向量傳播算法
2.4.3 自注意力機(jī)制
2.5 本章小結(jié)
第3章 用戶歷史點(diǎn)擊數(shù)據(jù)流的構(gòu)建
3.1 原始日志的分析
3.1.1 搜索日志處理流程
3.1.2 重要信息字段構(gòu)成
3.2 點(diǎn)擊數(shù)據(jù)流的構(gòu)建
3.3 點(diǎn)擊數(shù)據(jù)的清理
3.3.1 基于規(guī)則過(guò)濾
3.3.2 基于海量網(wǎng)頁(yè)挖掘參數(shù)過(guò)濾信息
3.4 本章小結(jié)
第4章 海量用戶點(diǎn)擊對(duì)的分布式向量傳播算法實(shí)現(xiàn)
4.1 馬爾可夫隨機(jī)游走
4.2 點(diǎn)擊圖上隨機(jī)游走過(guò)程
4.3 向量傳播算法分布式實(shí)現(xiàn)
4.4 本章小結(jié)
第5章 基于用戶點(diǎn)擊的泛化模型構(gòu)建與評(píng)測(cè)
5.1 點(diǎn)擊數(shù)據(jù)泛化模型構(gòu)建理論
5.1.1 相關(guān)問(wèn)題
5.1.2 自注意力模型
5.2 對(duì)用戶點(diǎn)擊進(jìn)行泛化神經(jīng)網(wǎng)絡(luò)模型構(gòu)建過(guò)程
5.2.1 泛化模型訓(xùn)練數(shù)據(jù)生成
5.2.2 模型框架
5.3 實(shí)驗(yàn)評(píng)測(cè)
5.4 本章小結(jié)
第6章 總結(jié)和展望
6.1 本文工作總結(jié)
6.2 展望
參考文獻(xiàn)
致謝
攻讀學(xué)位期間參與科研項(xiàng)目
學(xué)位論文評(píng)閱及答辯情況表
本文編號(hào):3755646
【文章頁(yè)數(shù)】:63 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題研究背景
1.1.1 檢索系統(tǒng)發(fā)展歷程
1.1.2 用戶點(diǎn)擊行為研究及其在檢索中的應(yīng)用
1.2 相關(guān)研究現(xiàn)狀
1.3 本文主要工作內(nèi)容
1.4 文章結(jié)構(gòu)
第2章 搜索日志及相關(guān)技術(shù)的介紹
2.1 搜索日志
2.1.1 搜索日志的內(nèi)容
2.1.2 搜索日志的作用
2.2 用戶點(diǎn)擊流數(shù)據(jù)
2.2.1 點(diǎn)擊流數(shù)據(jù)的定義
2.2.2 點(diǎn)擊流數(shù)據(jù)的作用
2.3 搜索日志和點(diǎn)擊流數(shù)據(jù)處理相關(guān)技術(shù)
2.3.1 分布式系統(tǒng)之Hadoop
2.3.2 分布式計(jì)算之Spark
2.3.3 彈性分布式數(shù)據(jù)集RDD
2.4 用戶查詢和網(wǎng)頁(yè)處理及相似度計(jì)算相關(guān)技術(shù)
2.4.1 中文分詞
2.4.2 向量傳播算法
2.4.3 自注意力機(jī)制
2.5 本章小結(jié)
第3章 用戶歷史點(diǎn)擊數(shù)據(jù)流的構(gòu)建
3.1 原始日志的分析
3.1.1 搜索日志處理流程
3.1.2 重要信息字段構(gòu)成
3.2 點(diǎn)擊數(shù)據(jù)流的構(gòu)建
3.3 點(diǎn)擊數(shù)據(jù)的清理
3.3.1 基于規(guī)則過(guò)濾
3.3.2 基于海量網(wǎng)頁(yè)挖掘參數(shù)過(guò)濾信息
3.4 本章小結(jié)
第4章 海量用戶點(diǎn)擊對(duì)的分布式向量傳播算法實(shí)現(xiàn)
4.1 馬爾可夫隨機(jī)游走
4.2 點(diǎn)擊圖上隨機(jī)游走過(guò)程
4.3 向量傳播算法分布式實(shí)現(xiàn)
4.4 本章小結(jié)
第5章 基于用戶點(diǎn)擊的泛化模型構(gòu)建與評(píng)測(cè)
5.1 點(diǎn)擊數(shù)據(jù)泛化模型構(gòu)建理論
5.1.1 相關(guān)問(wèn)題
5.1.2 自注意力模型
5.2 對(duì)用戶點(diǎn)擊進(jìn)行泛化神經(jīng)網(wǎng)絡(luò)模型構(gòu)建過(guò)程
5.2.1 泛化模型訓(xùn)練數(shù)據(jù)生成
5.2.2 模型框架
5.3 實(shí)驗(yàn)評(píng)測(cè)
5.4 本章小結(jié)
第6章 總結(jié)和展望
6.1 本文工作總結(jié)
6.2 展望
參考文獻(xiàn)
致謝
攻讀學(xué)位期間參與科研項(xiàng)目
學(xué)位論文評(píng)閱及答辯情況表
本文編號(hào):3755646
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3755646.html
最近更新
教材專著