融合主題模型和詞嵌入的查詢優(yōu)化方法研究
發(fā)布時間:2021-02-14 01:25
搜索引擎技術(shù)的發(fā)展與應(yīng)用改變了人們獲取信息的方式。但是在信息檢索中,由于用戶的查詢簡短、查詢意圖不明確等原因,常使系統(tǒng)返回的文檔不符合用戶的搜索意圖。為了提升檢索性能,搜索引擎普遍采用查詢優(yōu)化技術(shù),包括查詢擴(kuò)展和查詢推薦兩方面。傳統(tǒng)的優(yōu)化方法中,偽相關(guān)反饋方法是一種有效的方案,但其中的主題偏移問題會給優(yōu)化效果帶來負(fù)面的影響,降低檢索性能。對于查詢擴(kuò)展,在由偽相關(guān)反饋文檔獲取擴(kuò)展詞后,常將其簡單地拼接到原始查詢中,這種方式?jīng)]有對查詢詞和擴(kuò)展詞之間的相關(guān)度進(jìn)行度量,會對返回文檔的排序造成影響。對于查詢推薦,由于搜索日趨專業(yè)化,如何從偽相關(guān)反饋文檔中挖掘術(shù)語詞進(jìn)行推薦以及如何獲取查詢詞和推薦詞之間的語義關(guān)系成為重要的研究問題。本文針對以上問題進(jìn)行了以下三個方面的研究:1.提出主題推斷策略去解決偽相關(guān)反饋方法中的主題偏移問題。首先使用基于語言模型的打分策略獲取反饋文檔,并用LDA主題模型對其進(jìn)行建模;然后用基于吉布斯采樣和詞嵌入的方法對查詢語句的主題進(jìn)行推斷,由此確定相關(guān)主題進(jìn)而改進(jìn)了基于主題模型的候選詞獲取方法。實(shí)驗(yàn)表明,詞嵌入方法從語義的角度出發(fā),在多個方面對查詢進(jìn)行了描述,體現(xiàn)了更多的語...
【文章來源】:北方工業(yè)大學(xué)北京市
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 引言
1.1 研究背景和意義
1.2 研究內(nèi)容
1.3 主要工作及組織結(jié)構(gòu)
第二章 相關(guān)研究與技術(shù)概述
2.1 查詢擴(kuò)展
2.1.1 查詢擴(kuò)展概述
2.1.2 查詢擴(kuò)展技術(shù)方法
2.1.3 查詢擴(kuò)展研究現(xiàn)狀
2.2 查詢推薦
2.2.1 查詢推薦概述
2.2.2 查詢推薦技術(shù)方法
2.2.3 查詢推薦研究現(xiàn)狀
2.3 本章總結(jié)
第三章 偽相關(guān)反饋方法研究
3.1 交互式相關(guān)反饋與偽相關(guān)反饋
3.2 基于主題模型的相關(guān)反饋
3.3 主題推斷策略
3.3.1 吉布斯采樣
3.3.2 GBS主題推斷策略
3.3.3 TopK主題推斷策略
3.3.4 語言模型
3.4 實(shí)驗(yàn)
3.4.1 實(shí)驗(yàn)數(shù)據(jù)
3.4.2 實(shí)驗(yàn)設(shè)置和結(jié)果
3.5 本章總結(jié)
第四章 融合主題模型和詞嵌入的查詢擴(kuò)展研究
4.1 查詢擴(kuò)展流程框架
4.2 候選擴(kuò)展詞的獲取
4.2.1 查詢主題的選擇
4.2.2 擴(kuò)展詞的選取
4.3 候選擴(kuò)展詞的特征
4.3.1 語義特征
4.3.2 統(tǒng)計特征
4.3.3 特征排序
4.4 實(shí)驗(yàn)
4.4.1 實(shí)驗(yàn)數(shù)據(jù)
4.4.2 實(shí)驗(yàn)設(shè)置
4.4.3 對比實(shí)驗(yàn)結(jié)果
4.4.4 文檔數(shù)和主題數(shù)對結(jié)果的影響實(shí)驗(yàn)
4.5 本章總結(jié)
第五章 融合主題模型和詞嵌入的查詢推薦研究
5.1 查詢推薦流程框架
5.2 候選推薦詞的獲取
5.3 語義關(guān)系識別
5.3.1 有監(jiān)督關(guān)系識別
5.3.2 無監(jiān)督關(guān)系識別
5.4 實(shí)驗(yàn)
5.4.1 實(shí)驗(yàn)數(shù)據(jù)和評價指標(biāo)
5.4.2 實(shí)驗(yàn)設(shè)置
5.4.3 實(shí)驗(yàn)結(jié)果和分析
5.5 本章總結(jié)
第六章 演示系統(tǒng)的設(shè)計和展示
6.1 實(shí)驗(yàn)過程
6.1.1 文檔預(yù)處理
6.1.2 主題推斷實(shí)現(xiàn)
6.1.3 擴(kuò)展詞權(quán)重的計算
6.1.4 推薦詞關(guān)系的獲取
6.2 本章總結(jié)
第七章 總結(jié)和展望
7.1 主要結(jié)論
7.2 研究展望
參考文獻(xiàn)
附錄A
在學(xué)期間的研究成果
致謝
【參考文獻(xiàn)】:
期刊論文
[1]Web數(shù)據(jù)庫top-k多樣性關(guān)鍵字查詢推薦方法[J]. 孟祥福,畢崇春,張霄雁,唐曉亮,唐延歡. 計算機(jī)研究與發(fā)展. 2017(07)
[2]基于事件元素?zé)o向圖的查詢擴(kuò)展方法[J]. 葉雷,高盛祥,余正濤,秦廣順,洪旭東. 中文信息學(xué)報. 2017(01)
[3]基于詞匯時間分布的微博查詢擴(kuò)展[J]. 韓中元,楊沐昀,孔蕾蕾,齊浩亮,李生. 計算機(jī)學(xué)報. 2016(10)
[4]一種基于排序?qū)W習(xí)方法的查詢擴(kuò)展技術(shù)[J]. 徐博,林鴻飛,林原,王健. 中文信息學(xué)報. 2015(03)
[5]基于用戶意圖識別的查詢推薦研究[J]. 羅成,劉奕群,張敏,馬少平,茹立云,張闊. 中文信息學(xué)報. 2014(01)
[6]基于吸收態(tài)隨機(jī)行走的兩階段效用性查詢推薦方法[J]. 朱小飛,郭嘉豐,程學(xué)旗,蘭艷艷. 計算機(jī)研究與發(fā)展. 2013(12)
[7]基于迭代方法的多層Markov網(wǎng)絡(luò)信息檢索模型[J]. 洪歡,王明文,萬劍怡,廖亞男. 中文信息學(xué)報. 2013(05)
[8]基于整數(shù)線性規(guī)劃的查詢擴(kuò)展[J]. 吳龑,張奇,黃萱菁. 計算機(jī)研究與發(fā)展. 2013(08)
[9]基于查詢意圖的長尾查詢推薦[J]. 白露,郭嘉豐,曹雷,程學(xué)旗. 計算機(jī)學(xué)報. 2013(03)
[10]給互聯(lián)網(wǎng)建立索引:基于詞關(guān)系網(wǎng)絡(luò)的智能查詢推薦[J]. 李亞楠,王斌,李錦濤,李鵬. 軟件學(xué)報. 2011(08)
本文編號:3032893
【文章來源】:北方工業(yè)大學(xué)北京市
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 引言
1.1 研究背景和意義
1.2 研究內(nèi)容
1.3 主要工作及組織結(jié)構(gòu)
第二章 相關(guān)研究與技術(shù)概述
2.1 查詢擴(kuò)展
2.1.1 查詢擴(kuò)展概述
2.1.2 查詢擴(kuò)展技術(shù)方法
2.1.3 查詢擴(kuò)展研究現(xiàn)狀
2.2 查詢推薦
2.2.1 查詢推薦概述
2.2.2 查詢推薦技術(shù)方法
2.2.3 查詢推薦研究現(xiàn)狀
2.3 本章總結(jié)
第三章 偽相關(guān)反饋方法研究
3.1 交互式相關(guān)反饋與偽相關(guān)反饋
3.2 基于主題模型的相關(guān)反饋
3.3 主題推斷策略
3.3.1 吉布斯采樣
3.3.2 GBS主題推斷策略
3.3.3 TopK主題推斷策略
3.3.4 語言模型
3.4 實(shí)驗(yàn)
3.4.1 實(shí)驗(yàn)數(shù)據(jù)
3.4.2 實(shí)驗(yàn)設(shè)置和結(jié)果
3.5 本章總結(jié)
第四章 融合主題模型和詞嵌入的查詢擴(kuò)展研究
4.1 查詢擴(kuò)展流程框架
4.2 候選擴(kuò)展詞的獲取
4.2.1 查詢主題的選擇
4.2.2 擴(kuò)展詞的選取
4.3 候選擴(kuò)展詞的特征
4.3.1 語義特征
4.3.2 統(tǒng)計特征
4.3.3 特征排序
4.4 實(shí)驗(yàn)
4.4.1 實(shí)驗(yàn)數(shù)據(jù)
4.4.2 實(shí)驗(yàn)設(shè)置
4.4.3 對比實(shí)驗(yàn)結(jié)果
4.4.4 文檔數(shù)和主題數(shù)對結(jié)果的影響實(shí)驗(yàn)
4.5 本章總結(jié)
第五章 融合主題模型和詞嵌入的查詢推薦研究
5.1 查詢推薦流程框架
5.2 候選推薦詞的獲取
5.3 語義關(guān)系識別
5.3.1 有監(jiān)督關(guān)系識別
5.3.2 無監(jiān)督關(guān)系識別
5.4 實(shí)驗(yàn)
5.4.1 實(shí)驗(yàn)數(shù)據(jù)和評價指標(biāo)
5.4.2 實(shí)驗(yàn)設(shè)置
5.4.3 實(shí)驗(yàn)結(jié)果和分析
5.5 本章總結(jié)
第六章 演示系統(tǒng)的設(shè)計和展示
6.1 實(shí)驗(yàn)過程
6.1.1 文檔預(yù)處理
6.1.2 主題推斷實(shí)現(xiàn)
6.1.3 擴(kuò)展詞權(quán)重的計算
6.1.4 推薦詞關(guān)系的獲取
6.2 本章總結(jié)
第七章 總結(jié)和展望
7.1 主要結(jié)論
7.2 研究展望
參考文獻(xiàn)
附錄A
在學(xué)期間的研究成果
致謝
【參考文獻(xiàn)】:
期刊論文
[1]Web數(shù)據(jù)庫top-k多樣性關(guān)鍵字查詢推薦方法[J]. 孟祥福,畢崇春,張霄雁,唐曉亮,唐延歡. 計算機(jī)研究與發(fā)展. 2017(07)
[2]基于事件元素?zé)o向圖的查詢擴(kuò)展方法[J]. 葉雷,高盛祥,余正濤,秦廣順,洪旭東. 中文信息學(xué)報. 2017(01)
[3]基于詞匯時間分布的微博查詢擴(kuò)展[J]. 韓中元,楊沐昀,孔蕾蕾,齊浩亮,李生. 計算機(jī)學(xué)報. 2016(10)
[4]一種基于排序?qū)W習(xí)方法的查詢擴(kuò)展技術(shù)[J]. 徐博,林鴻飛,林原,王健. 中文信息學(xué)報. 2015(03)
[5]基于用戶意圖識別的查詢推薦研究[J]. 羅成,劉奕群,張敏,馬少平,茹立云,張闊. 中文信息學(xué)報. 2014(01)
[6]基于吸收態(tài)隨機(jī)行走的兩階段效用性查詢推薦方法[J]. 朱小飛,郭嘉豐,程學(xué)旗,蘭艷艷. 計算機(jī)研究與發(fā)展. 2013(12)
[7]基于迭代方法的多層Markov網(wǎng)絡(luò)信息檢索模型[J]. 洪歡,王明文,萬劍怡,廖亞男. 中文信息學(xué)報. 2013(05)
[8]基于整數(shù)線性規(guī)劃的查詢擴(kuò)展[J]. 吳龑,張奇,黃萱菁. 計算機(jī)研究與發(fā)展. 2013(08)
[9]基于查詢意圖的長尾查詢推薦[J]. 白露,郭嘉豐,曹雷,程學(xué)旗. 計算機(jī)學(xué)報. 2013(03)
[10]給互聯(lián)網(wǎng)建立索引:基于詞關(guān)系網(wǎng)絡(luò)的智能查詢推薦[J]. 李亞楠,王斌,李錦濤,李鵬. 軟件學(xué)報. 2011(08)
本文編號:3032893
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3032893.html
最近更新
教材專著