信息檢索中虛擬域重排技術(shù)的研究與實現(xiàn)
發(fā)布時間:2017-05-14 08:01
本文關(guān)鍵詞:信息檢索中虛擬域重排技術(shù)的研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:隨著Web技術(shù)的發(fā)展,人們對于信息的需求也與日俱增。用戶希望獲得信息的渠道和方式更加便捷和高效,尤其是在搜索信息時,期望所需求的信息盡量排在前邊,這便是SEO (Search Engine Optimization,搜索引擎優(yōu)化)問題。 檢索結(jié)果重排序技術(shù)的研究是SEO課題一個重要的分支,且該技術(shù)的研究也趨于多樣化。近幾年在查詢擴展中提出了虛擬域概念,取得了很好的效果,構(gòu)成虛擬域的方法有許多種,但由于計算虛擬域的工作量巨大,一般只能使用一種方法進行查詢擴展,不能同時綜合使用幾種方法,有一定的局限性。本文提出一種新的重排序模型,將虛擬域概念應用于重排方法,重排只針對初次檢索結(jié)果若干文檔進行,綜合運用多種虛擬域提高了重排性能。 基于虛擬域的重排模型,是用多種查詢詞運算構(gòu)成多個虛擬域,通過線性插入法綜合多個虛擬域計算待排序文檔(初次檢索結(jié)果前k個文檔)與查詢的新的相關(guān)度,依據(jù)相關(guān)度給出新的排序。根據(jù)查詢詞運算符or、and、gram和phrasal設(shè)計和實現(xiàn)了查詢詞映射和構(gòu)建虛擬域的算法。相關(guān)度的計算是基于傳統(tǒng)的BM25,在其基礎(chǔ)上實現(xiàn)了虛擬域重排模型。研究分析了or、or-and、or-gram、 or-and-gram、or-and-gram-phrasal等5種組合的虛擬域計算方法對重排序的影響,結(jié)合已有的經(jīng)驗,通過大量的實驗優(yōu)化了模型中各個參數(shù)。本文創(chuàng)新之處在于結(jié)合多種運算來計算虛擬域,突破了原來單一運算符的局限,這種方法得到的文檔與查詢的相關(guān)度更為準確。在多個TREC集上進行了實驗,實驗結(jié)果表明本文所提出的模型能夠有效地提高重排性能。
【關(guān)鍵詞】:信息檢索 語言模型 虛擬域 BM25 重排序
【學位授予單位】:內(nèi)蒙古大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP391.3
【目錄】:
- 摘要4-6
- ABSTRACT6-11
- 第一章 緒論11-15
- 1.1 研究背景11-12
- 1.2 國內(nèi)外對虛擬域和重排序技術(shù)的發(fā)展及研究現(xiàn)狀12-13
- 1.3 主要研究內(nèi)容13-14
- 1.4 論文組織結(jié)構(gòu)14-15
- 第二章 相關(guān)理論與技術(shù)介紹15-23
- 2.1 信息檢索框架的Source-Channel Framework表示15
- 2.2 信息檢索模型介紹15-19
- 2.2.1 布爾模型16
- 2.2.2 向量空間模型16-17
- 2.2.3 概率模型17-18
- 2.2.4 語言模型18-19
- 2.3 語言模型的平滑技術(shù)19-21
- 2.4 信息檢索的評價指標21-22
- 2.4.1 查準率與查全率21
- 2.4.2 平均查準率21-22
- 2.4.3 P@N22
- 2.5 本章小結(jié)22-23
- 第三章 檢索結(jié)果的虛擬域重排序技術(shù)研究23-35
- 3.1 重排序相關(guān)理論和技術(shù)23-25
- 3.1.1 檢索結(jié)果重排問題23-24
- 3.1.2 檢索結(jié)果重排方法和融合技術(shù)24-25
- 3.2 BM25排序模型25-27
- 3.3 虛擬域27-32
- 3.3.1 引導例子27-29
- 3.3.2 域和虛擬域的概念29-31
- 3.3.3 相關(guān)性得分的計算31-32
- 3.4 基于虛擬域重排序的模型32-34
- 3.5 本章小結(jié)34-35
- 第四章 系統(tǒng)實現(xiàn)與功能模塊設(shè)計35-42
- 4.1 基于虛擬域重排技術(shù)的系統(tǒng)實現(xiàn)35-37
- 4.2 相關(guān)算法設(shè)計37
- 4.3 功能模塊設(shè)計37-41
- 4.3.1 查詢、文檔分析及索引建立模塊38-40
- 4.3.2 文檔檢索模塊40
- 4.3.3 檢索結(jié)果的重排序模塊40-41
- 4.4 本章小結(jié)41-42
- 第五章 實驗與結(jié)果分析42-56
- 5.1 實驗設(shè)置42-45
- 5.1.1 實驗環(huán)境42
- 5.1.2 實驗工具42
- 5.1.3 實驗語料庫及其預處理42-45
- 5.2 實驗的流程描述45-46
- 5.3 實驗結(jié)果46-54
- 5.3.1 實驗參數(shù)估計46-48
- 5.3.2 實驗結(jié)果48-54
- 5.4 實驗結(jié)果的性能分析54-55
- 5.5 本章小結(jié)55-56
- 第六章 總結(jié)展望56-58
- 6.1 總結(jié)工作56
- 6.2 展望未來56-58
- 參考文獻58-61
- 致謝61
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前2條
1 樓爐群;牛軍鈺;;信息檢索中語言模型的研究[J];計算機工程;2007年04期
2 周博;岑榮偉;劉奕群;張敏;金奕江;馬少平;;一種基于文檔相似度的檢索結(jié)果重排序方法[J];中文信息學報;2010年03期
中國博士學位論文全文數(shù)據(jù)庫 前1條
1 王俊義;正負相關(guān)反饋與查詢擴展技術(shù)的研究[D];內(nèi)蒙古大學;2012年
本文關(guān)鍵詞:信息檢索中虛擬域重排技術(shù)的研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。
,本文編號:364580
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/364580.html
最近更新
教材專著