融合主題語義的信息檢索模型研究
發(fā)布時(shí)間:2021-11-26 12:22
處在信息時(shí)代,信息搜索成了人們生活不可缺少的部分,背后支撐的信息檢索技術(shù)尤為重要。傳統(tǒng)的信息檢索模型通過匹配文檔和查詢中詞項(xiàng)返回相關(guān)文本,其中關(guān)鍵之一在于統(tǒng)計(jì)顯式的詞頻特征,但詞頻規(guī)范化通常含有超參數(shù)需要優(yōu)化;趥鹘y(tǒng)檢索模型的詞項(xiàng)關(guān)聯(lián)(或依賴)模型以及傳統(tǒng)的偽相關(guān)反饋模型絕大部也是在統(tǒng)計(jì)顯式的詞項(xiàng)特征,這樣容易導(dǎo)致匹配失敗。為了解決這個(gè)問題,研究者們開始在信息檢索中使用主題模型來挖掘文檔和詞項(xiàng)的隱式語義特征。主題模型生成一種概率分布,很自然地將主題模型引入語言模型框架并取得了一定的成功。但如何將文檔和詞項(xiàng)的主題語義簡單有效地融入到著名的傳統(tǒng)檢索模型(如概率模型)和偽相關(guān)反饋模型尚不明確。針對(duì)這些不足,本文分別研究了概率模型BM25中的詞頻規(guī)范化方法、融合詞項(xiàng)主題語義的檢索模型、融合文檔主題語義的重排序檢索方法和偽相關(guān)反饋技術(shù),主要的研究工作如下:(1)提出了一種基于查詢長度詞頻規(guī)范化的概率信息檢索模型BM25QL。在概率模型BM25中,規(guī)范化詞頻是一個(gè)重要組成部分,由兩個(gè)參數(shù)k1和b控制,通常需要在給定的數(shù)據(jù)集上優(yōu)化它們。經(jīng)驗(yàn)地發(fā)現(xiàn)查詢長度對(duì)詞頻規(guī)范化的影響可以優(yōu)化檢索性能,通過數(shù)學(xué)...
【文章來源】:華中師范大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:108 頁
【學(xué)位級(jí)別】:博士
【部分圖文】:
圖3.1知2仏/)函數(shù)圖像??3.3.3新詞頻規(guī)范化模型:BM25ql??
Xexp?\\?.??似挪先咖?、\?LQA-BMaS^^00?\\??n?1?nee?A?D-〇6?__?〇■??-*-LDA-SM25qlr£c?\??-?r-?LDA-LM?i>?0.04?LDA-LM??-4--LDA-MA7F?-?-LDA-K?ATF??〇〇5〇?Q.1?Q2.?0.3?QA?05?0.6?0.7?0.8?0.9?1.0?〇〇2〇?0_1?02?0.3?0A?0_5?0.6?0.7?0.8?0.9?1.0??X?X??圖4.2參數(shù)/l的敏感性??4.5.3與當(dāng)前水平模型的比較??此外,還對(duì)比了兩種代表當(dāng)前水平的方法。在基于BM25模型框架下,Zhao等人[2(),21]提出??的基于BM25的二元交叉詞項(xiàng)模型CRTER2與當(dāng)前主流的概率鄰近度模型PPM[18WP?BM25TP[19]??不相上下。在基于主題模型的語言模型框架中,與提出的LDA-LM最為接近的LBDM模型[26]??在以往取得了最好的結(jié)果[28】。因此,將所提出的模型分別與CRTER2和LBDM進(jìn)行直接的對(duì)??比,實(shí)驗(yàn)對(duì)比結(jié)果見表4.6。??表4.6比較ToplR模型與當(dāng)前水平模型CRTER2和LBDM的MAP值??CRTERi?LDA-BM25?LDA-BN^qi^?LDA-BNUSgi^00?LDA-BN^ql1^?LBDM?LDA-LM??AP90?0.2774?0.2982T?0.2999T?0.3005T?0.3009T?0.2944?0.2871??AP88-89?0.2923?0.3105T?0.3112T?0.3108T?0.3109T?0.3094?0.3
?.Zt:,?.、、1?2?、、.??H24、,??:,?(L24?,一??——??*?^?11-?^?r?-■〇-**-*???c-?^??022-?022-?-??02???-?0.2-??、??-??V??0.18-?、,,?0.18-??〇16〇?0.1?0.2?0.3?0.4?0.5?0.6?0.7?0.8?0.9?1.0?°?16〇?0.1?02?0.3?0.4?0.5?0.6?0.7?0.8?0.9?1.0??a?a??圖5.2反饋系數(shù)的敏感性??6.5.4與基于主題的偽相關(guān)反饋模型比較??表6.3與TopPRF模型對(duì)比提升百分比??\f]?TopPRF1371?TopRoc-TS?TopRoc-TD?TopRM3-TS?TopRM3-TD??DISKI?&2??10?+1.92%?+3.05%?fT?+2.11%?ft?+1.91%?+0.71%??20?-0.71%?+1.33%?ft?+3.88%?ft?+2.38%??+1.47%?ft??30?+4.24%?+4.64%?ft?+4.88%?ft?+2.93*/.?+1.55%??50?+3.42%?+6.19%?ft?+6.02%?ft?+3.1?IV.?+1.24%??Average?+2.18%?+3.77%?fT?+4.22%?ft?+2.61%?H?+1.27%??DISK4&5??10?+5.53%?+0.76%?+2.92%?+3.31%?+0.04%??20?+4.63%?+3.07%?+4.88%?ft?+3.88%?+0.29%??30?+4
【參考文獻(xiàn)】:
期刊論文
[1]基于圖的特征詞權(quán)重算法及其在文檔排序中的應(yīng)用[J]. 黃云,洪佳明,顏一鳴. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2012(06)
[2]自然語言處理中主題模型的發(fā)展[J]. 徐戈,王厚峰. 計(jì)算機(jī)學(xué)報(bào). 2011(08)
碩士論文
[1]LDA在信息檢索中的應(yīng)用研究[D]. 何錦群.天津理工大學(xué) 2014
本文編號(hào):3520136
【文章來源】:華中師范大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:108 頁
【學(xué)位級(jí)別】:博士
【部分圖文】:
圖3.1知2仏/)函數(shù)圖像??3.3.3新詞頻規(guī)范化模型:BM25ql??
Xexp?\\?.??似挪先咖?、\?LQA-BMaS^^00?\\??n?1?nee?A?D-〇6?__?〇■??-*-LDA-SM25qlr£c?\??-?r-?LDA-LM?i>?0.04?LDA-LM??-4--LDA-MA7F?-?-LDA-K?ATF??〇〇5〇?Q.1?Q2.?0.3?QA?05?0.6?0.7?0.8?0.9?1.0?〇〇2〇?0_1?02?0.3?0A?0_5?0.6?0.7?0.8?0.9?1.0??X?X??圖4.2參數(shù)/l的敏感性??4.5.3與當(dāng)前水平模型的比較??此外,還對(duì)比了兩種代表當(dāng)前水平的方法。在基于BM25模型框架下,Zhao等人[2(),21]提出??的基于BM25的二元交叉詞項(xiàng)模型CRTER2與當(dāng)前主流的概率鄰近度模型PPM[18WP?BM25TP[19]??不相上下。在基于主題模型的語言模型框架中,與提出的LDA-LM最為接近的LBDM模型[26]??在以往取得了最好的結(jié)果[28】。因此,將所提出的模型分別與CRTER2和LBDM進(jìn)行直接的對(duì)??比,實(shí)驗(yàn)對(duì)比結(jié)果見表4.6。??表4.6比較ToplR模型與當(dāng)前水平模型CRTER2和LBDM的MAP值??CRTERi?LDA-BM25?LDA-BN^qi^?LDA-BNUSgi^00?LDA-BN^ql1^?LBDM?LDA-LM??AP90?0.2774?0.2982T?0.2999T?0.3005T?0.3009T?0.2944?0.2871??AP88-89?0.2923?0.3105T?0.3112T?0.3108T?0.3109T?0.3094?0.3
?.Zt:,?.、、1?2?、、.??H24、,??:,?(L24?,一??——??*?^?11-?^?r?-■〇-**-*???c-?^??022-?022-?-??02???-?0.2-??、??-??V??0.18-?、,,?0.18-??〇16〇?0.1?0.2?0.3?0.4?0.5?0.6?0.7?0.8?0.9?1.0?°?16〇?0.1?02?0.3?0.4?0.5?0.6?0.7?0.8?0.9?1.0??a?a??圖5.2反饋系數(shù)的敏感性??6.5.4與基于主題的偽相關(guān)反饋模型比較??表6.3與TopPRF模型對(duì)比提升百分比??\f]?TopPRF1371?TopRoc-TS?TopRoc-TD?TopRM3-TS?TopRM3-TD??DISKI?&2??10?+1.92%?+3.05%?fT?+2.11%?ft?+1.91%?+0.71%??20?-0.71%?+1.33%?ft?+3.88%?ft?+2.38%??+1.47%?ft??30?+4.24%?+4.64%?ft?+4.88%?ft?+2.93*/.?+1.55%??50?+3.42%?+6.19%?ft?+6.02%?ft?+3.1?IV.?+1.24%??Average?+2.18%?+3.77%?fT?+4.22%?ft?+2.61%?H?+1.27%??DISK4&5??10?+5.53%?+0.76%?+2.92%?+3.31%?+0.04%??20?+4.63%?+3.07%?+4.88%?ft?+3.88%?+0.29%??30?+4
【參考文獻(xiàn)】:
期刊論文
[1]基于圖的特征詞權(quán)重算法及其在文檔排序中的應(yīng)用[J]. 黃云,洪佳明,顏一鳴. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2012(06)
[2]自然語言處理中主題模型的發(fā)展[J]. 徐戈,王厚峰. 計(jì)算機(jī)學(xué)報(bào). 2011(08)
碩士論文
[1]LDA在信息檢索中的應(yīng)用研究[D]. 何錦群.天津理工大學(xué) 2014
本文編號(hào):3520136
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3520136.html
最近更新
教材專著