基于查詢點(diǎn)擊核心圖的查詢推薦問題研究
發(fā)布時(shí)間:2018-02-15 10:52
本文關(guān)鍵詞: 查詢推薦 搜索日志挖掘 查詢點(diǎn)擊核心圖 搜索上下文建模 搜索 任務(wù)建模 出處:《南開大學(xué)》2013年博士論文 論文類型:學(xué)位論文
【摘要】:信息檢索技術(shù)發(fā)展至今,搜索引擎已成為人們找尋信息的重要手段。為了更加快捷地從搜索引擎找到相關(guān)信息,用戶需要提交準(zhǔn)確的查詢。然而,由于認(rèn)知水平以及個(gè)人習(xí)慣等諸多因素影響,用戶提交的查詢通常較短且不規(guī)則,使得搜索引擎很難準(zhǔn)確地理解用戶真正的搜索意圖。為解決此問題,查詢推薦應(yīng)運(yùn)而生,其核心目標(biāo)是理解用戶的輸入查詢,通過分析用戶的搜索意圖,推薦給用戶相關(guān)的、能恰當(dāng)描述其信息需求的查詢。 搜索引擎的日志包含了真實(shí)的用戶搜索行為,能夠更好地發(fā)現(xiàn)與用戶輸入查詢相關(guān)的查詢,為查詢推薦提供了切實(shí)可行的數(shù)據(jù)基礎(chǔ)。然而,超大規(guī)模且高速增長的搜索日志給傳統(tǒng)的查詢推薦方法帶來了兩個(gè)方面的挑戰(zhàn)。首先,在大規(guī)模搜索日志中如何獲取信息需求的準(zhǔn)確描述;其次,在大規(guī)模日志數(shù)據(jù)中如何準(zhǔn)確理解用戶的搜索意圖。傳統(tǒng)查詢推薦方法在應(yīng)對上述挑戰(zhàn)時(shí),忽略了候選推薦的描述準(zhǔn)確度,且在用戶意圖理解方面未能系統(tǒng)建模用戶搜索過程,因而其推薦性能受到制約。 針對上述問題,本文創(chuàng)新性地提出了查詢點(diǎn)擊核心圖,以此挖掘搜索日志中的核心成分,捕獲搜索過程中主要的查詢與網(wǎng)頁的關(guān)系,并得到用戶信息需求的代表性描述方式;诓樵凕c(diǎn)擊核心圖,進(jìn)一步結(jié)合用戶搜索過程中的搜索上下文與搜索任務(wù)信息,系統(tǒng)地捕獲用戶搜索語境,以此準(zhǔn)確理解用戶的搜索意圖。具體地,本文開展了如下研究: 第一,為了在大規(guī)模搜索日志下獲取用戶信息需求的準(zhǔn)確描述,設(shè)計(jì)了查詢點(diǎn)擊核心圖的數(shù)學(xué)模型,以此挖掘搜索日志的核心成分。具體地,在查詢點(diǎn)擊二分圖中,構(gòu)建核心圖的優(yōu)化目標(biāo),保留查詢點(diǎn)擊二分圖中具有最大點(diǎn)擊次數(shù)的查詢網(wǎng)頁對,以此得到搜索引擎中最具代表性的查詢及其點(diǎn)擊最多的網(wǎng)頁。在大規(guī)模查詢點(diǎn)擊二分圖中,為克服單機(jī)內(nèi)存與磁盤存儲的限制,提出基于Map-Reduce計(jì)算模型的分布式查詢點(diǎn)擊核心圖抽取算法;诔槿〉玫降牟樵凕c(diǎn)擊核心圖,提出了基于查詢點(diǎn)擊核心圖的隨機(jī)游走推薦算法,過濾描述不準(zhǔn)確或不具代表性的候選推薦,以提升查詢推薦的準(zhǔn)確度。 第二,為理解用戶意圖,提出變長隱馬爾可夫模型以建模搜索上下文。其中搜索上下文為一段時(shí)間內(nèi)的用戶搜索行為。基于變長隱馬爾可夫模型,可以捕獲上下文中用戶的搜索語境,建模查詢之間的高階依賴關(guān)系,并通過隱式狀態(tài)描述用戶搜索意圖。針對大規(guī)模日志中變長隱馬爾可夫模型的構(gòu)建挑戰(zhàn),提出模型參數(shù)初始化方法以及分布式期望最大化參數(shù)學(xué)習(xí)算法;趯W(xué)習(xí)得到的變長隱馬爾可夫模型,動(dòng)態(tài)地捕獲用戶搜索上下文,并利用模型中隱式狀態(tài)的查詢分布進(jìn)行上下文敏感的查詢推薦。 第三,為了捕獲用戶搜索上下文中的原子信息需求,以此建模用戶搜索需求的變化,提出將搜索上下文切分為多個(gè)搜索任務(wù)。為了挖掘搜索上下文中的搜索任務(wù),提出基于查詢聚類的搜索任務(wù)劃分算法。具體地,利用監(jiān)督學(xué)習(xí)方法獲取查詢之間的相似度,并基于近鄰聚類方法將搜索上下文中的查詢聚集成搜索任務(wù)。進(jìn)一步,針對傳統(tǒng)查詢推薦算法忽略搜索任務(wù)的問題,設(shè)計(jì)基于搜索任務(wù)的隨機(jī)游走推薦算法,以此提供搜索任務(wù)相關(guān)的推薦查詢,以此提升推薦性能。 本文采用商業(yè)搜索引擎Bing的大規(guī)模搜索日志進(jìn)行了大量的實(shí)驗(yàn)與分析。實(shí)驗(yàn)結(jié)果表明,查詢點(diǎn)擊核心圖能得到用戶的信息需求的準(zhǔn)確描述,以此提升查詢推薦準(zhǔn)確度。在查詢點(diǎn)擊核心圖的基礎(chǔ)上,建模搜索上下文與搜索任務(wù)能更好地幫助描述用戶搜索過程,進(jìn)而提升查詢推薦的相關(guān)度。
[Abstract]:......
【學(xué)位授予單位】:南開大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2013
【分類號】:TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 李亞楠;王斌;李錦濤;;搜索引擎查詢推薦技術(shù)綜述[J];中文信息學(xué)報(bào);2010年06期
,本文編號:1513098
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1513098.html
最近更新
教材專著