基于詞重要性的信息檢索圖模型
本文關(guān)鍵詞:基于詞重要性的信息檢索圖模型
更多相關(guān)文章: 詞項權(quán)重計算 檢索模型 詞項圖 詞項重要性 TI-IDF
【摘要】:隨著移動互聯(lián)網(wǎng)技術(shù)的發(fā)展,無處不在的搜索已經(jīng)成為人類日常生活的重要組成部分;ヂ(lián)網(wǎng)上的信息量在過去十幾年中呈現(xiàn)出爆炸式的增長,如何從海量信息資源中找出與用戶給定需求(查詢)最為相關(guān)的信息成為當前搜索引擎面臨的主要難題,這就需要搜索引擎提供有效的信息檢索模型。因此,找出更加有效的檢索模型是信息檢索研究工作中一項長期的挑戰(zhàn)。在信息檢索建模中,確定索引詞項在文檔中的重要性是一項重要內(nèi)容。以詞袋(bag-of-word)的形式表示文檔以建立檢索模型的方法中大多基于詞項獨立性假設(shè),僅使用詞項頻率(Term Frequency,TF)和詞項逆文檔頻率(Inverse Document Frequency,IDF)的函數(shù)來計算詞項在文檔中的權(quán)重,并未考慮詞項之間的依賴關(guān)系。本文采用基于詞項圖(Graph-of-word)的文檔表示形式以捕獲詞項間的依賴關(guān)系,采用馬爾科夫鏈計算方法度量詞項在文檔中的重要性,提出了一種新的基于詞重要性(Term Importance,TI)的信息檢索圖模型TI-IDF。本文的主要創(chuàng)新工作包括:(1)新的文檔詞項圖表示形式;通過對文檔進行分句,以句子為單位構(gòu)建每篇文檔的詞項圖(無向有權(quán)圖)。在文檔詞項圖中,以頂點表示文檔中出現(xiàn)的索引詞項,任意兩個詞項之間的無向邊表示這兩個詞項在文檔的某一句子中共現(xiàn),無向邊的權(quán)重則表示兩個詞項在該文檔中共現(xiàn)的句子個數(shù)。(2)詞項重要性(TI)度量;根據(jù)構(gòu)建的文檔詞項圖,得到該文檔內(nèi)詞項間的共現(xiàn)矩陣,進而計算詞項間的概率轉(zhuǎn)移矩陣,并通過采用馬爾科夫鏈計算方法確定詞項在文檔中的重要性。(3)基于詞重要性的信息檢索圖模型TI-IDF。將詞項在文檔中的重要性(TI)替代傳統(tǒng)基于詞袋形式表示文檔的檢索模型中的詞項頻率(TF),并結(jié)合TF?IDF詞項權(quán)重計算框架以及已有的TF歸一化方法,通過對比實驗確定了本文提出的檢索圖模型TI-IDF的詞項權(quán)重計算方案。我們在標準數(shù)據(jù)集上進行了實驗,結(jié)果表明,與傳統(tǒng)的檢索模型相比,本文提出的檢索圖模型TI-IDF具有更好的魯棒性,它的檢索結(jié)果均優(yōu)于BM25模型,且在大多數(shù)情況下優(yōu)于BM25的擴展模型、TW-IDF等模型。
【關(guān)鍵詞】:詞項權(quán)重計算 檢索模型 詞項圖 詞項重要性 TI-IDF
【學(xué)位授予單位】:江西師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.3
【目錄】:
- 摘要3-4
- Abstract4-8
- 1 引言8-14
- 1.1 研究背景及研究意義8-9
- 1.2 相關(guān)工作9-12
- 1.3 本文主要工作12
- 1.4 本文內(nèi)容組織12-14
- 2 信息檢索概述14-22
- 2.1 信息檢索基本流程14
- 2.2 信息檢索系統(tǒng)14-16
- 2.3 信息檢索經(jīng)典模型16-20
- 2.3.1 布爾模型16
- 2.3.2 向量空間模型16-17
- 2.3.3 概率模型17-19
- 2.3.4 語言模型19-20
- 2.4 檢索系統(tǒng)評測20-21
- 2.4.1 檢索系統(tǒng)評價指標20-21
- 2.4.2 信息檢索評測活動21
- 2.5 本章小節(jié)21-22
- 3 詞項權(quán)重計算方法及文檔的圖形表示22-30
- 3.1 詞項權(quán)重計算方法22-24
- 3.1.1 Piv和BM2522-23
- 3.1.2 TF歸一化方法23-24
- 3.2 文檔的圖形表示24-29
- 3.2.1 TextRank與TextLink25-26
- 3.2.2 PosRank與PosLink26-28
- 3.2.3 TW-IDF28-29
- 3.3 本章小節(jié)29-30
- 4 基于詞重要性的信息檢索圖模型30-34
- 4.1 詞項圖構(gòu)建30-31
- 4.1.1 文檔詞項圖30-31
- 4.1.2 詞項圖構(gòu)建過程31
- 4.2 詞項重要性度量31-33
- 4.3 TI-IDF檢索圖模型構(gòu)建33
- 4.4 本章小節(jié)33-34
- 5 實驗34-42
- 5.1 實驗準備34-36
- 5.1.1 實驗數(shù)據(jù)集34-35
- 5.1.2 數(shù)據(jù)集預(yù)處理35-36
- 5.2 對比實驗36-37
- 5.3 對比實驗結(jié)果及分析37-41
- 5.3.1 TF與TI,,TF-IDF與TI-IDF37
- 5.3.2 已有檢索模型實驗結(jié)果37-38
- 5.3.3 TI-IDF模型的詞項權(quán)重計算方法對比38-40
- 5.3.4 TI-IDF對比實驗結(jié)果40-41
- 5.4 本章小結(jié)41-42
- 6 總結(jié)與展望42-44
- 6.1 總結(jié)42
- 6.2 研究展望42-44
- 參考文獻44-50
- 致謝50-51
- 在讀研期間公開發(fā)表論文(著)及科研情況51
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前2條
1 吳直雄;“’”運用混亂亟待規(guī)范[J];中國出版;1996年12期
2 ;[J];;年期
中國重要會議論文全文數(shù)據(jù)庫 前2條
1 許錦云;;普通邏輯中的概念應(yīng)改為詞項[A];邏輯今探——中國邏輯學(xué)會第五次代表大會暨學(xué)術(shù)討論會論文集[C];1996年
2 李永銘;;普通邏輯三問[A];1997年邏輯研究專輯[C];1997年
中國重要報紙全文數(shù)據(jù)庫 前1條
1 楊錫彭;漢語中的韻律詞[N];語言文字周報;2013年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 成軍;論詞項的概念指向性[D];西南大學(xué);2010年
2 吳麗英;詞項裝配與合并的最簡研究[D];上海外國語大學(xué);2008年
3 李翠英;搭配的動態(tài)觀及其應(yīng)用研究[D];蘇州大學(xué);2011年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前4條
1 陳博影;從詞項邏輯的角度判斷“張之江命題”的真?zhèn)蝃D];福建師范大學(xué);2015年
2 洪歡;基于詞重要性的信息檢索圖模型[D];江西師范大學(xué);2015年
3 尹浩傳;基于詞項依賴信息的中文信息檢索方法研究[D];華中師范大學(xué);2014年
4 羅楊;英漢身體部位詞項語義引申的認知實證研究[D];四川外語學(xué)院;2010年
本文編號:715022
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/715022.html