天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于主題分析的文本檢索方法研究

發(fā)布時間:2017-05-02 22:15

  本文關(guān)鍵詞:基于主題分析的文本檢索方法研究,由筆耕文化傳播整理發(fā)布。


【摘要】:得益于搜索引擎的推廣,我們可以隨時隨地從互聯(lián)網(wǎng)上獲取自己所需的信息。但是基于信息呈指數(shù)級的增長速度和人們對搜索結(jié)果的更高要求,使得搜索引擎的智能化和個性化成為目前迫切需要解決的問題。那么如何在浩瀚的知識海洋中快速、準(zhǔn)確地查找自己想要的那部分信息已成為新時代檢索技術(shù)所面臨的挑戰(zhàn)。在傳統(tǒng)的信息檢索系統(tǒng)中,搜索引擎在描述用戶查詢與候選文檔之間的關(guān)系時,往往僅考慮了詞與詞之間的字面匹配,并沒有充分利用詞語之間語義表達上的關(guān)聯(lián)信息,這使得搜索結(jié)果與用戶所需差距較大。本文從相關(guān)度出發(fā),先利用主題模型對文檔建模以抽取文檔的主題信息,然后利用主題信息計算查詢語句與候選文檔之間的相關(guān)度并根據(jù)相關(guān)度對文檔進行排序,最后將排序結(jié)果呈現(xiàn)給用戶。然而,在上述過程中,主題模型表現(xiàn)出了自身的不足,一是主題模型中主題k值的選擇過于隨機化,這有可能因為不恰當(dāng)?shù)膋值選擇而使得主題與主題之間的區(qū)分度不夠明顯,造成主題之間的高重疊性;二是基于語料層的主題分布在某種程度上并不能完全代表單篇文章的主題分布,這可能會造成文檔主題概率分布的高稀疏性,甚至?xí)袚p單篇文章的主題特征表示精度。基于以上兩點,本文第三章和第四章分別對模型進行改進,使其能夠最大程度地在信息檢索任務(wù)上發(fā)揮作用。本文第三章提出了一種基于詞向量主題模型的文本檢索方法,該方法的主題建模部分充分考慮了主題之間的重疊關(guān)系和Gibbs抽樣的初始過程。首先,利用詞向量優(yōu)秀的詞語語義表達能力對主題之間的關(guān)系進行刻畫,進而對主題模型中的k值進行再確定,使主題之間保持相對獨立。另外,利用詞向量對詞進行聚合以改進Gibbs抽樣過程中的詞語的初始主題分配。然后,利用確定的k值,我們對語料進行主題建模,得出“文檔—主題”、“主題—詞”兩個多項式分布矩陣,進而對矩陣進行運算得到“詞”對“文檔”的表征關(guān)系,這種“表征關(guān)系”在本文中被稱為“貢獻度”。在詞語貢獻度的基礎(chǔ)上,我們可以把查詢語句和候選文檔集之間語義關(guān)系的緊密程度用“數(shù)值”描述出來。最后,通過這種“數(shù)值”關(guān)系對候選文檔進行排序,進而將排序結(jié)果顯示在用戶查詢界面上。本文第四章提出了一種基于聚類主題模型的文本檢索方法,該方法是在第三章的基礎(chǔ)上對主題建模方法和排序方法做出更進一步的改進。對于主題建模方法,基于傳統(tǒng)主題模型在信息檢索任務(wù)上的不理想表現(xiàn),我們通過分析得出,對語料層上的主題建模在一定程度上造成了單篇文章主題分布的稀疏性并損失了主題在單篇文檔中的特征表達精度,這就影響了單篇文檔主題的真實概率分布;谝陨戏治,我們在文本建模前先對文檔集聚類,使主題相同或相近的文檔集合盡可能聚集在一起,然后依次對聚類簇進行主題建模,充分發(fā)揮主題模型在信息檢索任務(wù)上的建模能力。對于排序方法,在詞語相關(guān)度計算方面,我們采用互動百科知識庫對詞語之間的相關(guān)度計算進行改進,使它們之間的語義關(guān)系變得更準(zhǔn)確。本文實驗所采用的語料庫是NTCIR-5 (NACSIS Test Collections for IR),實驗后利用TREC信息檢索評測工具進行相關(guān)指標(biāo)的測評。從實驗結(jié)果可以看出,文中提出的基于詞向量主題模型的文檔檢索方法和基于聚類主題模型的文檔檢索方法在MAP、R-precision和P@N指標(biāo)上有良好的表現(xiàn),提高了檢索系統(tǒng)的準(zhǔn)確率和召回率。這也間接表明本文方法的可行性。
【關(guān)鍵詞】:搜索引擎 信息檢索 詞向量主題模型 聚類主題模型 貢獻度 主題建模
【學(xué)位授予單位】:華中師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.3
【目錄】:
  • 摘要5-7
  • Abstract7-11
  • 第一章 緒論11-17
  • 1.1 研究背景及意義11-12
  • 1.2 國內(nèi)外研究現(xiàn)狀12-16
  • 1.3 本文主要研究內(nèi)容16
  • 1.4 文章結(jié)構(gòu)安排16-17
  • 第二章 相關(guān)理論與技術(shù)研究17-30
  • 2.1 信息檢索17-18
  • 2.2 詞向量18-23
  • 2.2.1 詞向量概述18
  • 2.2.2 幾種語言模型18-20
  • 2.2.3 詞向量的訓(xùn)練20-22
  • 2.2.4 詞向量的應(yīng)用22-23
  • 2.3 主題模型23-26
  • 2.3.1 潛在狄利克雷主題模型23-24
  • 2.3.2 詞向量主題模型24-26
  • 2.4 語義相關(guān)度26-29
  • 2.4.1 基于語義詞典的計算方法26-27
  • 2.4.2 基于語料庫的計算方法27
  • 2.4.3 基于在線百科的計算方法27-29
  • 2.5 本章小結(jié)29-30
  • 第三章 基于詞向量主題模型的文本檢索方法30-45
  • 3.1 問題引入30-32
  • 3.2 基于詞向量主題模型的文本檢索方法32-39
  • 3.2.1 主題聚類算法描述32-33
  • 3.2.2 詞語貢獻度計算33-34
  • 3.2.3 查詢語句與候選文檔相關(guān)度計算34-37
  • 3.2.4 文本排序算法描述37-38
  • 3.2.5 文本檢索方法描述38-39
  • 3.3 實驗結(jié)果分析39-44
  • 3.3.1 主題聚類實驗結(jié)果分析39-40
  • 3.3.2 文本檢索實驗結(jié)果對比與分析40-44
  • 3.4 本章小結(jié)44-45
  • 第四章 基于聚類主題模型的文本檢索方法45-58
  • 4.1 問題引入45-47
  • 4.2 基于二次特征選擇的文本聚類方法47-49
  • 4.2.1 文本特征選擇47-49
  • 4.2.2 初始聚類中心確定49
  • 4.3 基于聚類主題模型的文本檢索方法49-52
  • 4.3.1 詞語貢獻度計算49-50
  • 4.3.2 查詢語句與候選文檔相關(guān)度計算50-51
  • 4.3.3 文本排序方法描述51
  • 4.3.4 文本檢索方法描述51-52
  • 4.4 實驗結(jié)果對比與分析52-56
  • 4.4.1 文本聚類實驗對比與分析53-54
  • 4.4.2 語義相關(guān)度實驗對比與分析54
  • 4.4.3 文本檢索實驗結(jié)果對比與分析54-56
  • 4.5 本章小結(jié)56-58
  • 第五章 工作總結(jié)與展望58-60
  • 5.1 工作總結(jié)58
  • 5.2 工作展望58-60
  • 參考文獻60-64
  • 攻讀碩士學(xué)位期間參加的科研項目64-65
  • 致謝65-66

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前2條

1 楊鑫華;于寬;;基于密度半徑自適應(yīng)選擇的K-均值聚類算法[J];大連交通大學(xué)學(xué)報;2007年01期

2 李曉黎,周長勝;基于相關(guān)反饋技術(shù)的Web檢索改進研究與實現(xiàn)[J];航空計算技術(shù);2004年03期

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前3條

1 張映海;基于概念的中文文本檢索研究[D];重慶大學(xué);2007年

2 黃梵;基于雙層語義分析的文檔排序方法研究[D];華中師范大學(xué);2013年

3 程杰;基于情感詞強度的情感分類及其在商品評論中的應(yīng)用[D];廣東工業(yè)大學(xué);2014年


  本文關(guān)鍵詞:基于主題分析的文本檢索方法研究,由筆耕文化傳播整理發(fā)布。



本文編號:341805

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/341805.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d38fa***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com