天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于主題分析的文本檢索方法研究

發(fā)布時(shí)間:2017-05-02 22:15

  本文關(guān)鍵詞:基于主題分析的文本檢索方法研究,由筆耕文化傳播整理發(fā)布。


【摘要】:得益于搜索引擎的推廣,我們可以隨時(shí)隨地從互聯(lián)網(wǎng)上獲取自己所需的信息。但是基于信息呈指數(shù)級(jí)的增長(zhǎng)速度和人們對(duì)搜索結(jié)果的更高要求,使得搜索引擎的智能化和個(gè)性化成為目前迫切需要解決的問(wèn)題。那么如何在浩瀚的知識(shí)海洋中快速、準(zhǔn)確地查找自己想要的那部分信息已成為新時(shí)代檢索技術(shù)所面臨的挑戰(zhàn)。在傳統(tǒng)的信息檢索系統(tǒng)中,搜索引擎在描述用戶(hù)查詢(xún)與候選文檔之間的關(guān)系時(shí),往往僅考慮了詞與詞之間的字面匹配,并沒(méi)有充分利用詞語(yǔ)之間語(yǔ)義表達(dá)上的關(guān)聯(lián)信息,這使得搜索結(jié)果與用戶(hù)所需差距較大。本文從相關(guān)度出發(fā),先利用主題模型對(duì)文檔建模以抽取文檔的主題信息,然后利用主題信息計(jì)算查詢(xún)語(yǔ)句與候選文檔之間的相關(guān)度并根據(jù)相關(guān)度對(duì)文檔進(jìn)行排序,最后將排序結(jié)果呈現(xiàn)給用戶(hù)。然而,在上述過(guò)程中,主題模型表現(xiàn)出了自身的不足,一是主題模型中主題k值的選擇過(guò)于隨機(jī)化,這有可能因?yàn)椴磺‘?dāng)?shù)膋值選擇而使得主題與主題之間的區(qū)分度不夠明顯,造成主題之間的高重疊性;二是基于語(yǔ)料層的主題分布在某種程度上并不能完全代表單篇文章的主題分布,這可能會(huì)造成文檔主題概率分布的高稀疏性,甚至?xí)袚p單篇文章的主題特征表示精度;谝陨蟽牲c(diǎn),本文第三章和第四章分別對(duì)模型進(jìn)行改進(jìn),使其能夠最大程度地在信息檢索任務(wù)上發(fā)揮作用。本文第三章提出了一種基于詞向量主題模型的文本檢索方法,該方法的主題建模部分充分考慮了主題之間的重疊關(guān)系和Gibbs抽樣的初始過(guò)程。首先,利用詞向量?jī)?yōu)秀的詞語(yǔ)語(yǔ)義表達(dá)能力對(duì)主題之間的關(guān)系進(jìn)行刻畫(huà),進(jìn)而對(duì)主題模型中的k值進(jìn)行再確定,使主題之間保持相對(duì)獨(dú)立。另外,利用詞向量對(duì)詞進(jìn)行聚合以改進(jìn)Gibbs抽樣過(guò)程中的詞語(yǔ)的初始主題分配。然后,利用確定的k值,我們對(duì)語(yǔ)料進(jìn)行主題建模,得出“文檔—主題”、“主題—詞”兩個(gè)多項(xiàng)式分布矩陣,進(jìn)而對(duì)矩陣進(jìn)行運(yùn)算得到“詞”對(duì)“文檔”的表征關(guān)系,這種“表征關(guān)系”在本文中被稱(chēng)為“貢獻(xiàn)度”。在詞語(yǔ)貢獻(xiàn)度的基礎(chǔ)上,我們可以把查詢(xún)語(yǔ)句和候選文檔集之間語(yǔ)義關(guān)系的緊密程度用“數(shù)值”描述出來(lái)。最后,通過(guò)這種“數(shù)值”關(guān)系對(duì)候選文檔進(jìn)行排序,進(jìn)而將排序結(jié)果顯示在用戶(hù)查詢(xún)界面上。本文第四章提出了一種基于聚類(lèi)主題模型的文本檢索方法,該方法是在第三章的基礎(chǔ)上對(duì)主題建模方法和排序方法做出更進(jìn)一步的改進(jìn)。對(duì)于主題建模方法,基于傳統(tǒng)主題模型在信息檢索任務(wù)上的不理想表現(xiàn),我們通過(guò)分析得出,對(duì)語(yǔ)料層上的主題建模在一定程度上造成了單篇文章主題分布的稀疏性并損失了主題在單篇文檔中的特征表達(dá)精度,這就影響了單篇文檔主題的真實(shí)概率分布;谝陨戏治,我們?cè)谖谋窘G跋葘?duì)文檔集聚類(lèi),使主題相同或相近的文檔集合盡可能聚集在一起,然后依次對(duì)聚類(lèi)簇進(jìn)行主題建模,充分發(fā)揮主題模型在信息檢索任務(wù)上的建模能力。對(duì)于排序方法,在詞語(yǔ)相關(guān)度計(jì)算方面,我們采用互動(dòng)百科知識(shí)庫(kù)對(duì)詞語(yǔ)之間的相關(guān)度計(jì)算進(jìn)行改進(jìn),使它們之間的語(yǔ)義關(guān)系變得更準(zhǔn)確。本文實(shí)驗(yàn)所采用的語(yǔ)料庫(kù)是NTCIR-5 (NACSIS Test Collections for IR),實(shí)驗(yàn)后利用TREC信息檢索評(píng)測(cè)工具進(jìn)行相關(guān)指標(biāo)的測(cè)評(píng)。從實(shí)驗(yàn)結(jié)果可以看出,文中提出的基于詞向量主題模型的文檔檢索方法和基于聚類(lèi)主題模型的文檔檢索方法在MAP、R-precision和P@N指標(biāo)上有良好的表現(xiàn),提高了檢索系統(tǒng)的準(zhǔn)確率和召回率。這也間接表明本文方法的可行性。
【關(guān)鍵詞】:搜索引擎 信息檢索 詞向量主題模型 聚類(lèi)主題模型 貢獻(xiàn)度 主題建模
【學(xué)位授予單位】:華中師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP391.3
【目錄】:
  • 摘要5-7
  • Abstract7-11
  • 第一章 緒論11-17
  • 1.1 研究背景及意義11-12
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀12-16
  • 1.3 本文主要研究?jī)?nèi)容16
  • 1.4 文章結(jié)構(gòu)安排16-17
  • 第二章 相關(guān)理論與技術(shù)研究17-30
  • 2.1 信息檢索17-18
  • 2.2 詞向量18-23
  • 2.2.1 詞向量概述18
  • 2.2.2 幾種語(yǔ)言模型18-20
  • 2.2.3 詞向量的訓(xùn)練20-22
  • 2.2.4 詞向量的應(yīng)用22-23
  • 2.3 主題模型23-26
  • 2.3.1 潛在狄利克雷主題模型23-24
  • 2.3.2 詞向量主題模型24-26
  • 2.4 語(yǔ)義相關(guān)度26-29
  • 2.4.1 基于語(yǔ)義詞典的計(jì)算方法26-27
  • 2.4.2 基于語(yǔ)料庫(kù)的計(jì)算方法27
  • 2.4.3 基于在線(xiàn)百科的計(jì)算方法27-29
  • 2.5 本章小結(jié)29-30
  • 第三章 基于詞向量主題模型的文本檢索方法30-45
  • 3.1 問(wèn)題引入30-32
  • 3.2 基于詞向量主題模型的文本檢索方法32-39
  • 3.2.1 主題聚類(lèi)算法描述32-33
  • 3.2.2 詞語(yǔ)貢獻(xiàn)度計(jì)算33-34
  • 3.2.3 查詢(xún)語(yǔ)句與候選文檔相關(guān)度計(jì)算34-37
  • 3.2.4 文本排序算法描述37-38
  • 3.2.5 文本檢索方法描述38-39
  • 3.3 實(shí)驗(yàn)結(jié)果分析39-44
  • 3.3.1 主題聚類(lèi)實(shí)驗(yàn)結(jié)果分析39-40
  • 3.3.2 文本檢索實(shí)驗(yàn)結(jié)果對(duì)比與分析40-44
  • 3.4 本章小結(jié)44-45
  • 第四章 基于聚類(lèi)主題模型的文本檢索方法45-58
  • 4.1 問(wèn)題引入45-47
  • 4.2 基于二次特征選擇的文本聚類(lèi)方法47-49
  • 4.2.1 文本特征選擇47-49
  • 4.2.2 初始聚類(lèi)中心確定49
  • 4.3 基于聚類(lèi)主題模型的文本檢索方法49-52
  • 4.3.1 詞語(yǔ)貢獻(xiàn)度計(jì)算49-50
  • 4.3.2 查詢(xún)語(yǔ)句與候選文檔相關(guān)度計(jì)算50-51
  • 4.3.3 文本排序方法描述51
  • 4.3.4 文本檢索方法描述51-52
  • 4.4 實(shí)驗(yàn)結(jié)果對(duì)比與分析52-56
  • 4.4.1 文本聚類(lèi)實(shí)驗(yàn)對(duì)比與分析53-54
  • 4.4.2 語(yǔ)義相關(guān)度實(shí)驗(yàn)對(duì)比與分析54
  • 4.4.3 文本檢索實(shí)驗(yàn)結(jié)果對(duì)比與分析54-56
  • 4.5 本章小結(jié)56-58
  • 第五章 工作總結(jié)與展望58-60
  • 5.1 工作總結(jié)58
  • 5.2 工作展望58-60
  • 參考文獻(xiàn)60-64
  • 攻讀碩士學(xué)位期間參加的科研項(xiàng)目64-65
  • 致謝65-66

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條

1 楊鑫華;于寬;;基于密度半徑自適應(yīng)選擇的K-均值聚類(lèi)算法[J];大連交通大學(xué)學(xué)報(bào);2007年01期

2 李曉黎,周長(zhǎng)勝;基于相關(guān)反饋技術(shù)的Web檢索改進(jìn)研究與實(shí)現(xiàn)[J];航空計(jì)算技術(shù);2004年03期

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前3條

1 張映海;基于概念的中文文本檢索研究[D];重慶大學(xué);2007年

2 黃梵;基于雙層語(yǔ)義分析的文檔排序方法研究[D];華中師范大學(xué);2013年

3 程杰;基于情感詞強(qiáng)度的情感分類(lèi)及其在商品評(píng)論中的應(yīng)用[D];廣東工業(yè)大學(xué);2014年


  本文關(guān)鍵詞:基于主題分析的文本檢索方法研究,由筆耕文化傳播整理發(fā)布。



本文編號(hào):341805

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/341805.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)d38fa***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com