基于主題分析的文本檢索方法研究

發(fā)布時(shí)間：2017-05-02 22:15

本文關(guān)鍵詞：基于主題分析的文本檢索方法研究，由筆耕文化傳播整理發(fā)布。

【摘要】：得益于搜索引擎的推廣,我們可以隨時(shí)隨地從互聯(lián)網(wǎng)上獲取自己所需的信息。但是基于信息呈指數(shù)級(jí)的增長(zhǎng)速度和人們對(duì)搜索結(jié)果的更高要求,使得搜索引擎的智能化和個(gè)性化成為目前迫切需要解決的問(wèn)題。那么如何在浩瀚的知識(shí)海洋中快速、準(zhǔn)確地查找自己想要的那部分信息已成為新時(shí)代檢索技術(shù)所面臨的挑戰(zhàn)。在傳統(tǒng)的信息檢索系統(tǒng)中,搜索引擎在描述用戶(hù)查詢(xún)與候選文檔之間的關(guān)系時(shí),往往僅考慮了詞與詞之間的字面匹配,并沒(méi)有充分利用詞語(yǔ)之間語(yǔ)義表達(dá)上的關(guān)聯(lián)信息,這使得搜索結(jié)果與用戶(hù)所需差距較大。本文從相關(guān)度出發(fā),先利用主題模型對(duì)文檔建模以抽取文檔的主題信息,然后利用主題信息計(jì)算查詢(xún)語(yǔ)句與候選文檔之間的相關(guān)度并根據(jù)相關(guān)度對(duì)文檔進(jìn)行排序,最后將排序結(jié)果呈現(xiàn)給用戶(hù)。然而,在上述過(guò)程中,主題模型表現(xiàn)出了自身的不足,一是主題模型中主題k值的選擇過(guò)于隨機(jī)化,這有可能因?yàn)椴磺‘?dāng)?shù)膋值選擇而使得主題與主題之間的區(qū)分度不夠明顯,造成主題之間的高重疊性；二是基于語(yǔ)料層的主題分布在某種程度上并不能完全代表單篇文章的主題分布,這可能會(huì)造成文檔主題概率分布的高稀疏性,甚至?xí)袚p單篇文章的主題特征表示精度�；谝陨蟽牲c(diǎn),本文第三章和第四章分別對(duì)模型進(jìn)行改進(jìn),使其能夠最大程度地在信息檢索任務(wù)上發(fā)揮作用。本文第三章提出了一種基于詞向量主題模型的文本檢索方法,該方法的主題建模部分充分考慮了主題之間的重疊關(guān)系和Gibbs抽樣的初始過(guò)程。首先,利用詞向量?jī)?yōu)秀的詞語(yǔ)語(yǔ)義表達(dá)能力對(duì)主題之間的關(guān)系進(jìn)行刻畫(huà),進(jìn)而對(duì)主題模型中的k值進(jìn)行再確定,使主題之間保持相對(duì)獨(dú)立。另外,利用詞向量對(duì)詞進(jìn)行聚合以改進(jìn)Gibbs抽樣過(guò)程中的詞語(yǔ)的初始主題分配。然后,利用確定的k值,我們對(duì)語(yǔ)料進(jìn)行主題建模,得出“文檔—主題”、“主題—詞”兩個(gè)多項(xiàng)式分布矩陣,進(jìn)而對(duì)矩陣進(jìn)行運(yùn)算得到“詞”對(duì)“文檔”的表征關(guān)系,這種“表征關(guān)系”在本文中被稱(chēng)為“貢獻(xiàn)度”。在詞語(yǔ)貢獻(xiàn)度的基礎(chǔ)上,我們可以把查詢(xún)語(yǔ)句和候選文檔集之間語(yǔ)義關(guān)系的緊密程度用“數(shù)值”描述出來(lái)。最后,通過(guò)這種“數(shù)值”關(guān)系對(duì)候選文檔進(jìn)行排序,進(jìn)而將排序結(jié)果顯示在用戶(hù)查詢(xún)界面上。本文第四章提出了一種基于聚類(lèi)主題模型的文本檢索方法,該方法是在第三章的基礎(chǔ)上對(duì)主題建模方法和排序方法做出更進(jìn)一步的改進(jìn)。對(duì)于主題建模方法,基于傳統(tǒng)主題模型在信息檢索任務(wù)上的不理想表現(xiàn),我們通過(guò)分析得出,對(duì)語(yǔ)料層上的主題建模在一定程度上造成了單篇文章主題分布的稀疏性并損失了主題在單篇文檔中的特征表達(dá)精度,這就影響了單篇文檔主題的真實(shí)概率分布�；谝陨戏治�,我們?cè)谖谋窘Ｇ跋葘?duì)文檔集聚類(lèi),使主題相同或相近的文檔集合盡可能聚集在一起,然后依次對(duì)聚類(lèi)簇進(jìn)行主題建模,充分發(fā)揮主題模型在信息檢索任務(wù)上的建模能力。對(duì)于排序方法,在詞語(yǔ)相關(guān)度計(jì)算方面,我們采用互動(dòng)百科知識(shí)庫(kù)對(duì)詞語(yǔ)之間的相關(guān)度計(jì)算進(jìn)行改進(jìn),使它們之間的語(yǔ)義關(guān)系變得更準(zhǔn)確。本文實(shí)驗(yàn)所采用的語(yǔ)料庫(kù)是NTCIR-5 (NACSIS Test Collections for IR),實(shí)驗(yàn)后利用TREC信息檢索評(píng)測(cè)工具進(jìn)行相關(guān)指標(biāo)的測(cè)評(píng)。從實(shí)驗(yàn)結(jié)果可以看出,文中提出的基于詞向量主題模型的文檔檢索方法和基于聚類(lèi)主題模型的文檔檢索方法在MAP、R-precision和P@N指標(biāo)上有良好的表現(xiàn),提高了檢索系統(tǒng)的準(zhǔn)確率和召回率。這也間接表明本文方法的可行性。
【關(guān)鍵詞】：搜索引擎 信息檢索 詞向量主題模型 聚類(lèi)主題模型 貢獻(xiàn)度 主題建模
【學(xué)位授予單位】：華中師范大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2015
【分類(lèi)號(hào)】：TP391.3
【目錄】：