天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于文檔內(nèi)位置關(guān)系的檢索方法研究

發(fā)布時(shí)間:2021-06-03 22:03
  互聯(lián)網(wǎng)的高速發(fā)展帶來了信息的爆炸式增長。如何從縟繁雜亂的信息中篩選出所需信息,是一個(gè)迫切需要解決的問題。在現(xiàn)有的信息檢索模型中,對(duì)文檔和候選擴(kuò)展詞的評(píng)估主要依賴于詞項(xiàng)在文檔內(nèi)的詞頻、逆文檔頻率以及文檔長度等信息,卻忽略了詞項(xiàng)在文檔內(nèi)的位置信息對(duì)于檢索性能的影響。近年來的研究表明利用詞項(xiàng)的位置關(guān)系是提高檢索性能的有效方法,雖然這些模型已取得了良好的效果,但如何捕獲詞項(xiàng)的位置信息以及對(duì)位置影響力的度量仍有提升的空間。因此,本文就基于文檔內(nèi)位置關(guān)系的信息檢索方法進(jìn)行研究,主要內(nèi)容包括以下三個(gè)方面:第一,本文提出一種基于文檔內(nèi)位置關(guān)系的概率檢索方法,BM25-LR。該研究背后的客觀事實(shí)為,在大多數(shù)文章中,作者通常會(huì)在文檔內(nèi)的特定位置,例如文檔的開頭或結(jié)尾,總結(jié)觀點(diǎn)并概括文章的中心內(nèi)容,因此這些位置的詞項(xiàng)與文檔主題的相關(guān)度更高、更加重要。本文采用核函數(shù)的方法對(duì)詞項(xiàng)在文檔內(nèi)的不同位置進(jìn)行建模,對(duì)位于文檔開頭和結(jié)尾部分的詞項(xiàng)賦予更高的位置權(quán)重。進(jìn)而,將該位置特征融入到經(jīng)典的BM25概率模型中,對(duì)查詢詞進(jìn)行權(quán)重優(yōu)化,幫助獲取更有可能與查詢相關(guān)的文檔。在五種TREC數(shù)據(jù)集上,對(duì)本文提出的BM25-LR概... 

【文章來源】:華中師范大學(xué)湖北省 211工程院校 教育部直屬院校

【文章頁數(shù)】:65 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于文檔內(nèi)位置關(guān)系的檢索方法研究


圖1.2本文的組織結(jié)構(gòu)??如上圖所示,本文主要研宄了基于文檔內(nèi)位置信息的檢索方法,共分為六章

流程圖,偽相關(guān),相關(guān)文檔,專家


自動(dòng)局部分析的方法,實(shí)現(xiàn)相關(guān)反饋的人工標(biāo)注過程自??動(dòng)化,獲得檢索性能的提升⑴-151。通常,偽相關(guān)反饋方法的過程如下:??1.用戶輸入原始查詢;??1系統(tǒng)進(jìn)行首輪檢索并返回查詢結(jié)果;??3.假設(shè)首輪檢索返回的前N篇文檔是相關(guān)文檔,系統(tǒng)自動(dòng)將該N篇文檔標(biāo)記??為相關(guān)文檔,其余文檔標(biāo)記為不相關(guān)文檔:??4.在此假設(shè)基礎(chǔ)上,系統(tǒng)根據(jù)反饋文檔,通過一定的策略加入一些相關(guān)的擴(kuò)??展詞,與原始查詢結(jié)合構(gòu)造出新查詢;??5.利用優(yōu)化后的新查詢進(jìn)行第二輪檢索,返回最終查詢結(jié)果。??上述過程如圖2.1所示。??開始???r??原始查詢???工??首輪檢索??工??檢索結(jié)果?組合丄新查詢一?二輪檢索一?最終檢索結(jié)果??i????1?1? ̄ ̄ ̄p??查詢擴(kuò)展?結(jié)束??丁??新擴(kuò)展詞???圖2.1偽相關(guān)反饋流程圖??早在20世紀(jì)60年代初,國內(nèi)外專家學(xué)者就展開了偽相關(guān)反饋技術(shù)相關(guān)的工作??8??

曲線,核函數(shù),圖形,趨勢


?碩士學(xué)位論文??MASTER’S?THESIS.??的方法對(duì)詞項(xiàng)位置信息進(jìn)行建模[32,39,4()1,核函數(shù)也由于其非負(fù)性、對(duì)稱性、連續(xù)性??和關(guān)于對(duì)稱軸的單調(diào)遞減性,使其能夠較好地模擬詞的位置影響力的分布情況。本??節(jié)將首先介紹幾種位置檢索模型中較常見的核函數(shù),然后重點(diǎn)介紹核函數(shù)的方法在??以往基于位置信息的檢索模型中的應(yīng)用。??2.4.1核函數(shù)??以下本節(jié)將列出三種在位置檢索模型中較為常見的核函數(shù):??(1)高斯核函數(shù)(Gaussiankernel)??-u2??Gaussian(u)?=?e2°'?公式(2.1)??(2)圓核函數(shù)(Circle?kernel)??Circle(u)?-?jl-?一?公式(2.2)??V??(3)余弦核函數(shù)(Cosine?kernel)??,?f?U?X?丌\??1?+?cos????Cosirje(u)=??———?公式(2.3)??其中,W為給定詞之間的距離,o■為控制核函數(shù)分布規(guī)模的調(diào)整參數(shù),圖2.2??中展示了幾種不同核函數(shù)的圖像。??Circle?kernel??Gaussian?kernel??——Epanechnikov?kernel??0.8??Ouartic?kernel??Cosine?kernel??0.6??0?4??0.2??-??-1?〇?1?’?a??圖2.2幾種不同核函數(shù)的圖形??從圖中可以看出,幾種核函數(shù)的變化趨勢十分相似,均為中間高兩端低的凸型??曲線。圖中除了高斯核函數(shù)以外,其余核函數(shù)的定義域均在[_2,2]之間,值域?yàn)椋郓,]??之間。??11??


本文編號(hào):3211334

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3211334.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶34a6a***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com