基于獨(dú)立分量分析的語義聚類技術(shù)在信息檢索中的應(yīng)用研究
本文關(guān)鍵詞:基于獨(dú)立分量分析的語義聚類技術(shù)在信息檢索中的應(yīng)用研究,,由筆耕文化傳播整理發(fā)布。
《電子科技大學(xué)》 2010年
基于獨(dú)立分量分析的語義聚類技術(shù)在信息檢索中的應(yīng)用研究
蒲強(qiáng)
【摘要】: 隨著計(jì)算機(jī)技術(shù)及網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,世界上的數(shù)據(jù)正以驚人的速度增長著。面對(duì)現(xiàn)代紛繁復(fù)雜的海量信息資源,人們反而有了“淹沒在信息海洋中”的困惑。如何快捷、準(zhǔn)確地得到所需信息已成為人們關(guān)注的焦點(diǎn)問題。信息檢索技術(shù)能夠幫助不同領(lǐng)域的人們從文本、圖像、聲音等龐大的數(shù)據(jù)資料中尋找其所需的信息。以信息檢索技術(shù)為核心技術(shù)的Web搜索引擎已經(jīng)成為人們從互聯(lián)網(wǎng)發(fā)現(xiàn)所需信息的最依賴的工具,顯示出這一領(lǐng)域巨大的市場價(jià)值和經(jīng)濟(jì)利益。在龐大用戶需求的驅(qū)動(dòng)下,信息檢索技術(shù)不斷發(fā)展和創(chuàng)新,成為近年來信息領(lǐng)域研究的熱點(diǎn)。 本文的研究基于統(tǒng)計(jì)信號(hào)處理技術(shù)和信息檢索技術(shù)的結(jié)合,這是源于將文本文檔看成不同主題信號(hào)混合的產(chǎn)物,利用統(tǒng)計(jì)信號(hào)領(lǐng)域中獨(dú)立分量分析(Independent Component Analysis,ICA)技術(shù)對(duì)文檔進(jìn)行處理,分離的獨(dú)立分量能很好地表示文檔的語義主題結(jié)構(gòu);谶@一認(rèn)識(shí),全文以概率模型、信息論、線性代數(shù)及有關(guān)統(tǒng)計(jì)方法為理論基礎(chǔ),配合大量詳實(shí)的實(shí)驗(yàn)分別研究了基于ICA的語義聚類理論模型及其應(yīng)用、基于ICA語義聚類的相關(guān)模型和查詢模型的估計(jì),同時(shí)還對(duì)信息檢索領(lǐng)域最常用的查詢擴(kuò)展技術(shù)進(jìn)行了研究。論文主要的貢獻(xiàn)和創(chuàng)新之處包括五個(gè)方面: 1.提出ICA語義聚類激活的概念,并在理論上證明了利用激活I(lǐng)CA語義聚類下文檔估計(jì)的語義主題在語義距離上比使用全部反饋文檔估計(jì)的語義主題更接近于真實(shí)語義主題。以用戶查詢?yōu)閷?dǎo)向的激活方式在語義上將聚類下的文檔與查詢關(guān)聯(lián)起來,克服了反饋文檔主題分散同現(xiàn)帶來的風(fēng)險(xiǎn)。由于激活語義聚類下文檔數(shù)量是確定的,因此查詢擴(kuò)展或者語言模型估計(jì)中避免了設(shè)置反饋文檔數(shù)量這個(gè)參數(shù),查詢擴(kuò)展和模型估計(jì)更為強(qiáng)健。 2.在相關(guān)模型和查詢模型的估計(jì)中,提出了利用ICA語義聚類信息配合語料集對(duì)文檔模型估計(jì)進(jìn)行語義平滑的概念,利用語義關(guān)鍵詞條聚類強(qiáng)化反饋文檔主題模型估計(jì)部分,給出了文檔未出現(xiàn)詞條的語義關(guān)鍵詞條聚類概率,克服了傳統(tǒng)文檔模型估計(jì)中只使用語料集模型平滑的不合理性,即未出現(xiàn)詞條以相同語料集概率出現(xiàn)在不同文檔中的假設(shè)的不合理性。 3.利用了文檔屬于語義聚類的概率作為文檔先驗(yàn)概率參與模型估計(jì),一方面區(qū)別對(duì)待了每個(gè)文檔在相關(guān)模型或查詢模型估計(jì)中的作用,克服了語言模型估計(jì)中所有文檔先驗(yàn)概率服從均勻分布這個(gè)假設(shè)的不合理性;另一方面利用了語義聚類模型參與了相關(guān)模型或查詢模型的估計(jì),改變了傳統(tǒng)模型的估計(jì)只使用單一文檔模型這一現(xiàn)象,可利用的統(tǒng)計(jì)語言模型總集得到擴(kuò)展。 4.提出了利用語義聚類在用戶興趣和文檔之間建立動(dòng)態(tài)語義映射關(guān)系,這種映射關(guān)系將文檔和用戶組織在同一類別下,克服了現(xiàn)有文檔和用戶興趣之間松散的關(guān)系。信息推薦系統(tǒng)利用映射關(guān)系主動(dòng)發(fā)現(xiàn)同類中的文檔信息推薦給用戶。 5.基于潛在語義空間能發(fā)現(xiàn)詞條同現(xiàn)關(guān)系的原理,發(fā)現(xiàn)了潛在語義索引技術(shù)和獨(dú)立分量分析技術(shù)配合使用時(shí),一方面同現(xiàn)詞條可以較好地彌補(bǔ)短文檔詞條重疊度低的問題,另一方面短文檔在ICA語義空間中分類能夠改善其分類準(zhǔn)確率。
【關(guān)鍵詞】:
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2010
【分類號(hào)】:TP391.3
【目錄】:
下載全文 更多同類文獻(xiàn)
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前5條
1 崔宇紅;基于手機(jī)短信平臺(tái)的圖書館信息推送服務(wù)[J];大學(xué)圖書館學(xué)報(bào);2004年04期
2 蒲強(qiáng);何大慶;楊國緯;;一種基于統(tǒng)計(jì)語義聚類的查詢語言模型估計(jì)[J];計(jì)算機(jī)研究與發(fā)展;2011年02期
3 周源遠(yuǎn),王繼成,鄭剛,張福炎;Web頁面清洗技術(shù)的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2002年09期
4 李效東,顧毓清;基于DOM的Web信息提取[J];計(jì)算機(jī)學(xué)報(bào);2002年05期
5 封化民,劉飚,劉艷敏,方勇,宋國森;含有位置坐標(biāo)樹的Web頁面分析和內(nèi)容提取框架[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年S1期
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 王春騰;楊厚群;符傳誼;邢潔清;;基于獨(dú)立成分分析的譜聚類方法[J];安徽電子信息職業(yè)技術(shù)學(xué)院學(xué)報(bào);2011年03期
2 張彥超;劉云;李勇;沈波;;基于自動(dòng)生成模板的Web信息抽取技術(shù)[J];北京交通大學(xué)學(xué)報(bào);2009年05期
3 廉捷;劉云;;網(wǎng)絡(luò)輿情中的信息預(yù)處理與自動(dòng)摘要算法[J];北京交通大學(xué)學(xué)報(bào);2010年05期
4 楊德斌;楊聚星;陽建宏;章立軍;;基于聲信號(hào)分析的齒輪故障診斷方法[J];北京科技大學(xué)學(xué)報(bào);2008年04期
5 王茹,宋瀚濤,陸玉昌;基于樹自動(dòng)機(jī)的網(wǎng)頁數(shù)據(jù)抽取[J];北京理工大學(xué)學(xué)報(bào);2004年09期
6 金明生;;關(guān)于倡導(dǎo)在縣級(jí)以上公共圖書館開通“手機(jī)短信服務(wù)平臺(tái)”的建議案[J];圖書與情報(bào);2008年03期
7 徐忻;婁路;;基于3G的手機(jī)圖書館服務(wù)系統(tǒng)構(gòu)建研究[J];圖書與情報(bào);2009年03期
8 張敏;;基于確定性樹自動(dòng)機(jī)技術(shù)的信息抽取研究[J];才智;2011年36期
9 馮海軍;祝華;章藝;柳瑞鋒;;基于獨(dú)立分量的信息極大化法機(jī)械振動(dòng)盲分離研究[J];船舶工程;2008年01期
10 張毅;張輝;羅元;胡豁生;;采用Emotiv感知的智能輪椅運(yùn)動(dòng)控制的研究[J];重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年03期
【二級(jí)參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前4條
1 王繼成,潘金貴,張福炎;Web文本挖掘技術(shù)研究[J];計(jì)算機(jī)研究與發(fā)展;2000年05期
2 王繼成,蕭嶸,孫正興,張福炎;Web信息檢索研究進(jìn)展[J];計(jì)算機(jī)研究與發(fā)展;2001年02期
3 曲衛(wèi)民,張俊林,孫樂;基于主題的漢語語言模型的研究[J];計(jì)算機(jī)研究與發(fā)展;2003年09期
4 王強(qiáng) ,王繼成 ,武港山 ,張福炎;Web文檔清洗系統(tǒng)中HTML解析器的開發(fā)[J];計(jì)算機(jī)應(yīng)用研究;2002年02期
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 曹建榮;蔡安妮;;基于支持向量機(jī)的語義視頻摘要[J];北京郵電大學(xué)學(xué)報(bào);2006年04期
2 李亞麗;徐為群;顏永紅;;語義類的提取及其在語音搜索系統(tǒng)中的應(yīng)用[J];聲學(xué)學(xué)報(bào);2011年05期
3 周笑天;;決策樹中數(shù)字型連續(xù)屬性的語義化研究[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2009年02期
4 梁曉弘;楊文安;;分詞技術(shù)在信息處理中的研究綜述[J];電腦知識(shí)與技術(shù)(學(xué)術(shù)交流);2007年22期
5 溫苗苗;吳云芳;;基于SVM融合多特征的介詞結(jié)構(gòu)自動(dòng)識(shí)別[J];中文信息學(xué)報(bào);2009年05期
6 ;漢語語義范疇的計(jì)算機(jī)模擬[J];中文信息;1994年04期
7 張晶,姚建民,趙鐵軍,李生;基于Word Net和How Net建設(shè)雙語語義詞典[J];高技術(shù)通訊;2001年12期
8 黃鴻森;;這樣的辭書,何必引進(jìn)——評(píng)《建宏成語義類辭典》[J];中國出版;2007年10期
9 董明楷;張明義;;語義類比:AI的一個(gè)重要發(fā)展方向[J];計(jì)算機(jī)科學(xué);1996年06期
10 孫廣路;郎非;薛一波;;基于條件隨機(jī)域和語義類的中文組塊分析方法[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào);2011年07期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條
1 賈玉祥;俞士汶;;語義選擇限制的自動(dòng)獲取及其在隱喻處理中的應(yīng)用[A];第四屆全國學(xué)生計(jì)算語言學(xué)研討會(huì)會(huì)議論文集[C];2008年
2 王惠;蘇新春;;XHK基于語法知識(shí)的漢語詞義描述[A];第六屆漢語詞匯語義學(xué)研討會(huì)論文集[C];2005年
3 王惠;;漢英機(jī)器翻譯中基于大型語義詞典的漢語詞義消歧[A];機(jī)器翻譯研究進(jìn)展——2002年全國機(jī)器翻譯研討會(huì)論文集[C];2002年
4 邱立坤;;現(xiàn)代漢語動(dòng)名語串結(jié)構(gòu)關(guān)系的判定[A];第六屆漢語詞匯語義學(xué)研討會(huì)論文集[C];2005年
5 王萌;賈玉祥;俞士汶;;基于語料統(tǒng)計(jì)的量詞對(duì)名詞語義選擇傾向的研究[A];中國計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
6 海銀花;那順烏日?qǐng)D;;面向“蒙古語語義信息詞典”的名詞語義分類體系[A];中國計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
7 吳平;;“NP+在+處所+VP”句式的邏輯語義分析[A];2004年邏輯研究專輯[C];2004年
8 李斌;曲維光;陳小荷;;名詞轉(zhuǎn)喻的自動(dòng)理解[A];中國計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
9 劉秉權(quán);張凱;王曉龍;;語音識(shí)別中基于規(guī)則的語言模型的研究[A];第五屆全國人機(jī)語音通訊學(xué)術(shù)會(huì)議論文集[C];1998年
10 李向陽;張亞非;;一種基于語義的漢語短語識(shí)別方法[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 顏紅菊;現(xiàn)代漢語復(fù)合詞語義結(jié)構(gòu)研究[D];首都師范大學(xué);2007年
2 侯鋒;中文報(bào)業(yè)出版的文字質(zhì)量智能輔助控制技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2010年
3 曹海龍;基于詞匯化統(tǒng)計(jì)模型的漢語句法分析研究[D];哈爾濱工業(yè)大學(xué);2006年
4 莢濟(jì)民;基于互聯(lián)網(wǎng)數(shù)據(jù)集的圖像標(biāo)注技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2009年
5 王欣;類型邏輯語法與現(xiàn)代漢語“是”和“的”[D];北京語言大學(xué);2009年
6 吳尉林;可移植的穩(wěn)健口語理解方法研究[D];上海交通大學(xué);2007年
7 凌堅(jiān);新聞視頻主題識(shí)別與跟蹤的研究[D];浙江大學(xué);2007年
8 孟凱;現(xiàn)代漢語“X+N_(役事)”致使復(fù)合詞研究[D];北京語言大學(xué);2009年
9 李線宜;上海手語類標(biāo)記結(jié)構(gòu)調(diào)查研究[D];復(fù)旦大學(xué);2010年
10 海銀花;面向信息處理的蒙古語名詞語義研究[D];內(nèi)蒙古大學(xué);2010年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 方利;“外X”詞語的多角度考察[D];華中師范大學(xué);2012年
2 韓娟;《韓非子》形容詞研究[D];河南大學(xué);2008年
3 陳文慧;HSK名詞的圖片可表達(dá)性和表達(dá)方法研究[D];北京語言大學(xué);2004年
4 沈新宇;基于直推式支持向量機(jī)的圖像分類算法研究與應(yīng)用[D];北京交通大學(xué);2008年
5 劉麗麗;漢英民用陸地交通工具詞語語義對(duì)比研究[D];魯東大學(xué);2008年
6 劉宗保;形、名語素構(gòu)成復(fù)合詞的語義類組合分析[D];南京師范大學(xué);2008年
7 高研博;漢語動(dòng)詞論元約束優(yōu)選信息的獲取[D];上海交通大學(xué);2008年
8 劉蓉;違反合作原則的漢語語義類修辭格及其語用功能研究[D];湖南農(nóng)業(yè)大學(xué);2011年
9 賈曉東;漢語動(dòng)賓搭配識(shí)別研究[D];大連理工大學(xué);2008年
10 張濤;中文文本中未知詞語的詞義知識(shí)獲取[D];山西大學(xué);2005年
本文關(guān)鍵詞:基于獨(dú)立分量分析的語義聚類技術(shù)在信息檢索中的應(yīng)用研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):135271
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/135271.html