面向?qū)W術(shù)檢索的用戶點擊特征重構(gòu)方法研究與實現(xiàn)
發(fā)布時間:2020-06-02 23:16
【摘要】:如何提升搜索引擎性能,特別是針對特定領(lǐng)域如學(xué)術(shù)搜索領(lǐng)域的信息檢索質(zhì)量,是一個有廣泛應(yīng)用前景且充滿極大挑戰(zhàn)的難題。通常認(rèn)為用戶使用搜索引擎的反饋,例如用戶的點擊行為,與其搜索意圖密切相關(guān)。特別是在學(xué)術(shù)搜索中,用戶希望得到準(zhǔn)確的搜索結(jié)果,會更多地參與信息檢索過程,隨之產(chǎn)生大量的信息反饋行為;诖,可以利用用戶的點擊行為推斷文檔與查詢之間的相關(guān)性,提升搜索性能。但遺憾的是,實際應(yīng)用中大量的用戶反饋集中在少數(shù)查詢中,而大多數(shù)查詢?nèi)狈τ脩舴答。用戶反饋往往富含噪聲、?shù)據(jù)稀疏,或完全缺失。因此如何重建用戶反饋信息,使其更真實、更有效、更稠密,變成目前工作的一個瓶頸。目前對用戶的點擊特征進行分析,存在著如下的問題待解決:1.如何在提升點擊特征的稠密度的同時保持?jǐn)?shù)據(jù)的有效性?如果把查詢和文檔看成一個矩陣,行對應(yīng)著查詢,列對應(yīng)著文檔,里面的元素值對應(yīng)著文檔在查詢下的點擊值,那么這個點擊矩陣就是一個稀疏矩陣,F(xiàn)有的方法中,矩陣重構(gòu)方法為我們提供了新思路。因此,如何利用矩陣重構(gòu)的方法來提升點擊矩陣的稠密度是需要解決的。由于點擊矩陣中的信息是很有限的,因此如何充分挖掘出查詢之間或是文檔之間的關(guān)系,并且利用它們的關(guān)系進行點擊矩陣的重構(gòu)是一個挑戰(zhàn)。2.對于一個高維的點擊矩陣,如何建立高效的重構(gòu)算法?矩陣重構(gòu)方法中需要對矩陣進行大量的運算,因此對于大規(guī)模的點擊矩陣如何在可接受的時間空間中完成矩陣重構(gòu)是我們需要考慮的。為了解決這些問題,我們提出了一個面向?qū)W術(shù)檢索的用戶點擊特征重構(gòu)排序的框架:1.結(jié)合低秩矩陣分解模型與同質(zhì)化模型。低秩矩陣分解模型在矩陣重構(gòu)中被廣泛應(yīng)用,能夠保持原有矩陣特征的情況下,提升矩陣的稠密度,解決矩陣的稀疏問題。而同質(zhì)性模型中,利用同質(zhì)性正則項來約束各查詢之間與各文檔之間的關(guān)系,使得相似文檔在相似查詢下的點擊次數(shù)保持一致性,解決數(shù)據(jù)的噪音和漂移問題。2.結(jié)合查詢分組法與基于塊耦合非負(fù)矩陣分解方法求解。一般的非負(fù)矩陣分解的方法來重構(gòu)矩陣的性能有限,我們采用特殊的基于塊耦合非負(fù)矩陣分解來進行迭代求解。在迭代求解之前,我們對高維的點擊矩陣按照查詢進行分組成小的矩陣,提高矩陣的重構(gòu)效率。3.基于機器學(xué)習(xí)排序的學(xué)術(shù)檢索結(jié)果排序。利用機器學(xué)習(xí)排序模型對待排序的數(shù)據(jù)進行模型訓(xùn)練,比較多種不同的排序模型下用戶點擊特征重構(gòu)后的文檔檢索性能。本文通過在微軟學(xué)術(shù)搜索數(shù)據(jù)集進行試驗,對比了利用原點擊特征和重構(gòu)后的點擊特征的文檔排序性能,證明了我們提出的方法可以有效地重建點擊特征以提高學(xué)術(shù)搜索引擎的檢索性能。
【學(xué)位授予單位】:北京工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP391.3
本文編號:2693905
【學(xué)位授予單位】:北京工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP391.3
【參考文獻】
相關(guān)期刊論文 前1條
1 金祖旭;李敏波;;基于用戶反饋的搜索引擎排名算法[J];計算機系統(tǒng)應(yīng)用;2010年11期
,本文編號:2693905
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2693905.html
最近更新
教材專著