【摘要】:隨著互聯(lián)網(wǎng)的不斷發(fā)展,搜索引擎使用率越來(lái)越高,由此產(chǎn)生的網(wǎng)絡(luò)查詢?nèi)罩疽渤尸F(xiàn)出爆炸性增長(zhǎng)的趨勢(shì)。網(wǎng)絡(luò)查詢?nèi)罩咎N(yùn)含著很多有價(jià)值的信息,其中搜索主題就是一種非常有價(jià)值的信息。搜索主題在優(yōu)化搜索引擎和分析用戶行為等方面有著重要作用。目前關(guān)于搜索主題方面的研究主要是基于整個(gè)網(wǎng)絡(luò)查詢?nèi)罩緦?duì)所有的用戶做主題分析,沒(méi)有對(duì)個(gè)人搜索主題情況進(jìn)行研究。另外,通過(guò)現(xiàn)有的網(wǎng)絡(luò)查詢?nèi)罩緎ession劃分的方法得到的劃分結(jié)果不夠精確,無(wú)法滿足像搜索主題模型這樣對(duì)session的劃分精度要求很高的模型。針對(duì)以上問(wèn)題,本文在前人研究的基礎(chǔ)上進(jìn)行了進(jìn)一步研究與探索。針對(duì)session劃分結(jié)果不精確問(wèn)題,本文抽取查詢時(shí)間間隔、查詢項(xiàng)語(yǔ)義相似度和查詢項(xiàng)之間的加減詞作為特征屬性,并采用樸素貝葉斯法對(duì)網(wǎng)絡(luò)查詢?nèi)罩具M(jìn)行高精度session劃分。為了對(duì)個(gè)人搜索主題進(jìn)行分析,本文結(jié)合網(wǎng)絡(luò)查詢?nèi)罩镜奶攸c(diǎn)和詞突發(fā)現(xiàn)象,構(gòu)建了兩個(gè)模型:查詢?cè)~與URL主題無(wú)關(guān)的搜索主題模型(TIM)和查詢?cè)~與URL主題相關(guān)的搜索主題模型(TDM),并通過(guò)Beta分布描述主題的時(shí)間變化趨勢(shì)。本文工作的創(chuàng)新點(diǎn)如下:第一,本文提出了的可以高精確度劃分網(wǎng)絡(luò)查詢?nèi)罩緎ession的方法——樸素貝葉斯法。該方法通過(guò)將session劃分問(wèn)題轉(zhuǎn)化為判斷查詢項(xiàng)是否為session邊界的問(wèn)題,然后采用樸素貝葉斯算法進(jìn)行分類。查詢項(xiàng)的特征屬性有以下三個(gè):session劃分的時(shí)間間隔、查詢項(xiàng)的語(yǔ)義相似度和查詢項(xiàng)之間的加減詞。為了提高查詢項(xiàng)特征屬性的可靠性,在計(jì)算查詢項(xiàng)語(yǔ)義相似度的時(shí)候,采用了深度學(xué)習(xí)中詞向量的表示方法,提出了Query2Vector模型,將查詢項(xiàng)用向量表示,然后計(jì)算余弦相似度。并通過(guò)實(shí)驗(yàn)證明,本文中提出的session劃分方法與目前常用的方法相比更有優(yōu)勢(shì)。第二,本文通過(guò)研究自然語(yǔ)言處理中的詞突發(fā)現(xiàn)象,并結(jié)合搜索主題模型方面的研究成果,創(chuàng)造了利用網(wǎng)絡(luò)查詢?nèi)罩局胁樵冊(cè)~和URL的突發(fā)現(xiàn)象獲取個(gè)人搜索主題的差異的新方法。本文中將網(wǎng)絡(luò)查詢數(shù)據(jù)按用戶id分為不同的文檔,這樣不同文檔中詞的突發(fā)性就會(huì)在主題中顯現(xiàn)出來(lái),從而體現(xiàn)不同用戶的主題差異性。本文結(jié)合網(wǎng)絡(luò)查詢?nèi)罩镜慕Y(jié)構(gòu)特點(diǎn)構(gòu)建了兩個(gè)搜索主題模型,查詢?cè)~與URL主題無(wú)關(guān)的搜索主題模型(TIM)和查詢?cè)~與URL主題相關(guān)的搜索主題模型(TDM),并通過(guò)Beta分布描述主題的時(shí)間變化趨勢(shì)。然后給出了模型的生成過(guò)程、推導(dǎo)方法和模型的參數(shù)估計(jì)方法。最后的實(shí)驗(yàn)結(jié)果也表明,本文提出的搜索主題模型能夠有效地發(fā)現(xiàn)個(gè)人用戶搜索主題的差異,并且與其他搜索主題模型相比具有明顯的泛化性能優(yōu)勢(shì)。
【圖文】:
LDA的概率圖模型

DCMLDA的概率圖模型
【學(xué)位授予單位】:山東財(cái)經(jīng)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 高明;金澈清;錢(qián)衛(wèi)寧;王曉玲;周傲英;;面向微博系統(tǒng)的實(shí)時(shí)個(gè)性化推薦[J];計(jì)算機(jī)學(xué)報(bào);2014年04期
2 萬(wàn)飛;趙溪;梁循;潘登;倪志豪;;基于移動(dòng)互聯(lián)網(wǎng)日志的搜索引擎用戶行為研究[J];中文信息學(xué)報(bào);2014年02期
3 劉健;劉奕群;馬少平;張敏;茹立云;張闊;;搜索引擎用戶行為與用戶滿意度的關(guān)聯(lián)研究[J];中文信息學(xué)報(bào);2014年01期
4 譚文堂;王楨文;殷風(fēng)景;葛斌;肖衛(wèi)東;;一種面向涌現(xiàn)的比較性話題模型[J];國(guó)防科技大學(xué)學(xué)報(bào);2013年04期
5 董志安;呂學(xué)強(qiáng);;基于百度搜索日志的用戶行為分析[J];計(jì)算機(jī)應(yīng)用與軟件;2013年07期
6 姚婷;張敏;劉奕群;馬少平;茹立云;;低頻查詢的用戶行為分析和類別研究[J];計(jì)算機(jī)研究與發(fā)展;2012年11期
7 張宇;宋巍;劉挺;李生;;基于URL主題的查詢分類方法[J];計(jì)算機(jī)研究與發(fā)展;2012年06期
8 朱玲;聶華;;通過(guò)日志挖掘研究圖書(shū)館資源發(fā)現(xiàn)服務(wù)用戶的搜索行為[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2011年12期
9 張晨逸;孫建伶;丁軼群;;基于MB-LDA模型的微博主題挖掘[J];計(jì)算機(jī)研究與發(fā)展;2011年10期
10 徐戈;王厚峰;;自然語(yǔ)言處理中主題模型的發(fā)展[J];計(jì)算機(jī)學(xué)報(bào);2011年08期
,
本文編號(hào):
2632775
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2632775.html