基于特征抽取和轉(zhuǎn)換方法的全文檢索研究
本文關(guān)鍵詞:基于特征抽取和轉(zhuǎn)換方法的全文檢索研究
更多相關(guān)文章: 信息檢索 主題模型 云模型 特征項 概念標(biāo)簽 相關(guān)度
【摘要】:在信息檢索技術(shù)隨著互聯(lián)網(wǎng)的迅猛發(fā)展而日趨成熟的同時,搜索引擎也已經(jīng)成為人們?nèi)粘I钪性絹碓讲豢扇鄙俚闹匾ぞ吆褪侄巍鹘y(tǒng)的信息檢索是在基于關(guān)鍵詞匹配的基礎(chǔ)上,機械地匹配僅僅包含有指定關(guān)鍵詞的文檔來獲得相關(guān)文檔,這種方式常常會帶來語義理解上的錯誤,越來越不能滿足現(xiàn)狀用戶的需求和科學(xué)研究的需要,于是語義分析和挖掘顯現(xiàn)了在檢索中的重要性。 由于漢語語言的二義性和相關(guān)性,在一定程度上造成了不確定性和模糊性,潛在語義分析的方法被廣泛用于信息檢索領(lǐng)域,它的核心是針對詞語和文檔進行分析,建立一個矩陣,并作加權(quán)轉(zhuǎn)換,用于計算的加權(quán)函數(shù)又直接影響潛在語義分析的結(jié)果。這樣建立起的詞與詞之間的語義關(guān)系矩陣,在很大程度上消除了由于詞語語義的多樣性和隨意性導(dǎo)致的對檢索結(jié)果產(chǎn)生的偏差。然而這種方法依然忽略了語言的模糊性和不確定性,所以將云模型理論引入到信息檢索研究中,挖掘出一些潛在的語義信息。 LDA模型,被用于挖掘潛在的主題結(jié)構(gòu),這些主題上分布的詞是在語義上相關(guān)的。但是主題在語義上具有不確定性。本文在LDA模型的基礎(chǔ)上引進云模型理論,利用云模型均值和方差的關(guān)系,在抽樣時標(biāo)注了某個主題,就為主題添加主題關(guān)系調(diào)節(jié)因子,建立一個新的特征選擇系統(tǒng)。于是新的方法能夠抽取出文本的特征集,特征集對于文本具有高的貢獻度。新獲得的特征集有更少但能最大程度上表示文本的詞語。 特征詞語有不同表示形式的語義信息,兩種語義空間下的信息不能直接融合。本文提出了一種特征轉(zhuǎn)換機制,在云空間上對兩種語義信息進行轉(zhuǎn)換使其具有一致性,再在一致空間上進行融合,并對標(biāo)簽主題模型進行抽樣選擇,實現(xiàn)兩種語義信息的融合,然后進行查詢擴展,運用到檢索中,提高檢索效果。
【學(xué)位授予單位】:華中師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.3
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 秦昆;李德毅;許凱;;基于云模型的圖像分割方法研究[J];測繪信息與工程;2006年05期
2 李德毅,劉常昱;論正態(tài)云模型的普適性[J];中國工程科學(xué);2004年08期
3 張敏,高劍峰,馬少平;基于鏈接描述文本及其上下文的Web信息檢索[J];計算機研究與發(fā)展;2004年01期
4 石晶;戴國忠;;基于PLSA模型的文本分割[J];計算機研究與發(fā)展;2007年02期
5 俞輝;;基于PLSA模型的Web用戶聚類算法研究[J];計算機工程與科學(xué);2008年07期
6 俞輝;;基于LSA和pLSA的多文檔自動文摘[J];計算機工程與科學(xué);2009年09期
7 石晶;胡明;石鑫;戴國忠;;基于LDA模型的文本分割[J];計算機學(xué)報;2008年10期
8 康海燕,李彥芳,林培光,樊孝忠;信息檢索策略性能的云模型評價方法[J];中文信息學(xué)報;2005年01期
9 王燦輝;張敏;馬少平;;自然語言處理在信息檢索中的應(yīng)用綜述[J];中文信息學(xué)報;2007年02期
10 代勁;何中市;胡峰;;基于云模型的文本特征自動提取算法[J];中南大學(xué)學(xué)報(自然科學(xué)版);2011年03期
,本文編號:1280619
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1280619.html