基于網(wǎng)絡查詢?nèi)罩镜膫人搜索主題分析與探索
發(fā)布時間:2020-04-19 01:32
【摘要】:隨著互聯(lián)網(wǎng)的不斷發(fā)展,搜索引擎使用率越來越高,由此產(chǎn)生的網(wǎng)絡查詢?nèi)罩疽渤尸F(xiàn)出爆炸性增長的趨勢。網(wǎng)絡查詢?nèi)罩咎N含著很多有價值的信息,其中搜索主題就是一種非常有價值的信息。搜索主題在優(yōu)化搜索引擎和分析用戶行為等方面有著重要作用。目前關于搜索主題方面的研究主要是基于整個網(wǎng)絡查詢?nèi)罩緦λ械挠脩糇鲋黝}分析,沒有對個人搜索主題情況進行研究。另外,通過現(xiàn)有的網(wǎng)絡查詢?nèi)罩緎ession劃分的方法得到的劃分結果不夠精確,無法滿足像搜索主題模型這樣對session的劃分精度要求很高的模型。針對以上問題,本文在前人研究的基礎上進行了進一步研究與探索。針對session劃分結果不精確問題,本文抽取查詢時間間隔、查詢項語義相似度和查詢項之間的加減詞作為特征屬性,并采用樸素貝葉斯法對網(wǎng)絡查詢?nèi)罩具M行高精度session劃分。為了對個人搜索主題進行分析,本文結合網(wǎng)絡查詢?nèi)罩镜奶攸c和詞突發(fā)現(xiàn)象,構建了兩個模型:查詢詞與URL主題無關的搜索主題模型(TIM)和查詢詞與URL主題相關的搜索主題模型(TDM),并通過Beta分布描述主題的時間變化趨勢。本文工作的創(chuàng)新點如下:第一,本文提出了的可以高精確度劃分網(wǎng)絡查詢?nèi)罩緎ession的方法——樸素貝葉斯法。該方法通過將session劃分問題轉化為判斷查詢項是否為session邊界的問題,然后采用樸素貝葉斯算法進行分類。查詢項的特征屬性有以下三個:session劃分的時間間隔、查詢項的語義相似度和查詢項之間的加減詞。為了提高查詢項特征屬性的可靠性,在計算查詢項語義相似度的時候,采用了深度學習中詞向量的表示方法,提出了Query2Vector模型,將查詢項用向量表示,然后計算余弦相似度。并通過實驗證明,本文中提出的session劃分方法與目前常用的方法相比更有優(yōu)勢。第二,本文通過研究自然語言處理中的詞突發(fā)現(xiàn)象,并結合搜索主題模型方面的研究成果,創(chuàng)造了利用網(wǎng)絡查詢?nèi)罩局胁樵冊~和URL的突發(fā)現(xiàn)象獲取個人搜索主題的差異的新方法。本文中將網(wǎng)絡查詢數(shù)據(jù)按用戶id分為不同的文檔,這樣不同文檔中詞的突發(fā)性就會在主題中顯現(xiàn)出來,從而體現(xiàn)不同用戶的主題差異性。本文結合網(wǎng)絡查詢?nèi)罩镜慕Y構特點構建了兩個搜索主題模型,查詢詞與URL主題無關的搜索主題模型(TIM)和查詢詞與URL主題相關的搜索主題模型(TDM),并通過Beta分布描述主題的時間變化趨勢。然后給出了模型的生成過程、推導方法和模型的參數(shù)估計方法。最后的實驗結果也表明,本文提出的搜索主題模型能夠有效地發(fā)現(xiàn)個人用戶搜索主題的差異,并且與其他搜索主題模型相比具有明顯的泛化性能優(yōu)勢。
【圖文】:
LDA的概率圖模型
DCMLDA的概率圖模型
【學位授予單位】:山東財經(jīng)大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:TP391.1
本文編號:2632775
【圖文】:
LDA的概率圖模型
DCMLDA的概率圖模型
【學位授予單位】:山東財經(jīng)大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:TP391.1
【參考文獻】
相關期刊論文 前10條
1 高明;金澈清;錢衛(wèi)寧;王曉玲;周傲英;;面向微博系統(tǒng)的實時個性化推薦[J];計算機學報;2014年04期
2 萬飛;趙溪;梁循;潘登;倪志豪;;基于移動互聯(lián)網(wǎng)日志的搜索引擎用戶行為研究[J];中文信息學報;2014年02期
3 劉健;劉奕群;馬少平;張敏;茹立云;張闊;;搜索引擎用戶行為與用戶滿意度的關聯(lián)研究[J];中文信息學報;2014年01期
4 譚文堂;王楨文;殷風景;葛斌;肖衛(wèi)東;;一種面向涌現(xiàn)的比較性話題模型[J];國防科技大學學報;2013年04期
5 董志安;呂學強;;基于百度搜索日志的用戶行為分析[J];計算機應用與軟件;2013年07期
6 姚婷;張敏;劉奕群;馬少平;茹立云;;低頻查詢的用戶行為分析和類別研究[J];計算機研究與發(fā)展;2012年11期
7 張宇;宋巍;劉挺;李生;;基于URL主題的查詢分類方法[J];計算機研究與發(fā)展;2012年06期
8 朱玲;聶華;;通過日志挖掘研究圖書館資源發(fā)現(xiàn)服務用戶的搜索行為[J];現(xiàn)代圖書情報技術;2011年12期
9 張晨逸;孫建伶;丁軼群;;基于MB-LDA模型的微博主題挖掘[J];計算機研究與發(fā)展;2011年10期
10 徐戈;王厚峰;;自然語言處理中主題模型的發(fā)展[J];計算機學報;2011年08期
,本文編號:2632775
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2632775.html
最近更新
教材專著