基于統(tǒng)計語言學模型的中文文本信息檢索

發(fā)布時間：2020-09-14 08:45

　　隨著各種文本信息資源的迅猛發(fā)展,文本信息檢索系統(tǒng)已經(jīng)成為人們獲取有用信息不可缺少的工具,而文本信息檢索模型作為文本信息檢索技術(shù)的數(shù)學基礎,是主要的研究方向之一,具有重要的意義。統(tǒng)計語言模型作為一種自然語言處理的工具,已經(jīng)被證明有能力處理大規(guī)模真實文本。而統(tǒng)計語言模型和IR相結(jié)合后所形成的IR模型的提出,是信息檢索模型研究上的重大進展。本文從文本檢索模型的基本原理入手,分析了幾種傳統(tǒng)IR模型的優(yōu)缺點,給出基于統(tǒng)計語言模型的IR模型的基本原理、關鍵技術(shù)以及它的優(yōu)勢所在。并在標準的TREC中文實驗數(shù)據(jù)集上,回答了下面兩個問題: (1)中文統(tǒng)計語言模型-IR模型的性能如何?也就是說,中文統(tǒng)計語言模型和IR相結(jié)合有沒有前途? (2)特征選擇對中文統(tǒng)計語言模型-IR模型的影響如何?哪種特征選擇方法好? 對于問題(1),我們用SLM-IR模型和兩種傳統(tǒng)的IR模型:向量空間模型和概率模型進行比較,以標準的TREC評價手段,給出上述3種模型的性能。實驗結(jié)果表明:簡單的SLM-CIR模型的性能要優(yōu)于簡單的向量空間模型和概率模型。對于問題(2),我們選擇了幾種典型的特征選擇方法,即單漢字、分詞、bigram,比較它們的性能。同時,考慮到分詞的特殊性,我們又選擇了幾種不同的分詞方法,給出了基于不同分詞方法的分詞切分SLM-IR模型的性能。實驗結(jié)果表明:①對于單漢字切分,簡單的SLM-CIR模型的性能要優(yōu)于簡單的向量空間模型和概率模型;對于分詞切分和Bigram切分,簡單的SLM-CIR模型的性能要優(yōu)于向量空間模型,雖然略低于OKAPI概率模型,但是反饋后的SLM-CIR模型的性能要明顯優(yōu)于反饋前和反饋后的OKAPI概率模型。②對于簡單的SLM-CIR模型,分詞切分的性能不如Bigram切分和單漢字切分,而且不同的分詞方法對檢索性能的影響不明顯。這就說明了在SLM-CIR模型中,分詞技術(shù)不是影響模型性能的關鍵因素。③驗證了英文數(shù)據(jù)集上的實驗結(jié)論,即無論采用哪一種切分方法,使用狄利克雷先驗值的貝葉斯平滑方法仍比其他兩種平滑方法好。 WP=5 今后,可以在語義平滑技術(shù)等方面進行深入研究,并且把統(tǒng)計語言模型作為構(gòu)建更復雜的IR模型的一個強有力的工具。
【學位單位】：第二軍醫(yī)大學
【學位級別】：碩士
【學位年份】：2004
【中圖分類】：G354
【部分圖文】：

信息檢索,基本流程圖

碩士研究生畢業(yè)論文引言(Knowledge Mining)、知識發(fā)現(xiàn)(Knowledge Discovery)、內(nèi)容管理(Contentnagement)、內(nèi)容計算(Content Computing)等等新名詞、新學科，有些其實就 IR，有些可能學科淵源或者處理內(nèi)容有所不同，但是 IR 技術(shù)是這些名詞的主內(nèi)容，或者說這些都是傳統(tǒng) IR 的拓展，是現(xiàn)代 IR 的內(nèi)容�？梢哉f，現(xiàn)代 IR發(fā)展可以說是百花齊放、絢麗多彩，引無數(shù)英雄盡折腰。1.2 信息檢索的基本流程信息檢索的基本流程如圖 0.1 所示。首先，用戶提出檢索需求，系統(tǒng)為用戶需求生成查詢表達式，然后對查詢表達式進行分析處理，產(chǎn)生檢索系統(tǒng)的查詢言。在后臺，通過索引器對文檔集建立索引，并生成文檔表示。這樣，查詢語和文檔表示就是一個匹配的過程，產(chǎn)生檢索結(jié)果。通過相關反饋機制，調(diào)整查表達式，從而使檢索結(jié)果更加符合用戶的需求。

文本檢索,中文文本,研究方向,總體上

本文總體上分為三個部分，第一部分包括文本檢索模型概述、SLM-IR相關的工作、基于SLM-IR的中文文本檢索。第二部分是實驗與結(jié)論，通過幾種類型的實驗來驗證我們的設想。第三部分是總結(jié)和展望，探討未來的研究方向。如圖0.3所示。

馬爾科夫模型,有限集合

圖 2.1.1 馬爾科夫模型-圖示爾科夫模型-定義隱馬爾科夫模型（HMM）是一個五元組： ( ,,A,B,πXO ：{ }：狀態(tài)的有限集合Nq ,...q1{ }：觀察值的有限集合Mv ,...v1{ },(|)：轉(zhuǎn)移概率ijijt1 jtiaa=pX=qX=q+ } ：輸出概率,(|)ikiktktibb=pO=vX=q }，：初始狀態(tài)分布()ii1 iππ=p X=q{ }為給定的參數(shù)= A, B,πHMM。

【相似文獻】

相關期刊論文前10條

1 徐志明,王曉龍,關毅;漢語大詞表N-gram統(tǒng)計語言模型構(gòu)造算法[J];計算機應用研究;1999年06期

2 高升,徐志明;統(tǒng)計語言模型中詞的自動聚類技術(shù)研究[J];計算機工程與應用;2003年11期

3 郭燕慧,鐘義信;統(tǒng)計語言模型中句子的語義連貫性判別[J];情報學報;2003年04期

4 趙正文;康耀紅;;統(tǒng)計語言模型在信息檢索中的應用[J];計算機工程與應用;2006年36期

5 田斌;田紅心;易克初;;一種結(jié)合聲學匹配信息的漢語統(tǒng)計語言模型新方法[J];模式識別與人工智能;1999年04期

6 田斌,田紅心,易克初;一種改進的漢語N元文法統(tǒng)計語言模型[J];西安電子科技大學學報;2000年01期

7 鄭洪靜;韓卓平;;統(tǒng)計語言模型的手機數(shù)碼中文輸入法研究[J];蘇州市職業(yè)大學學報;2008年02期

8 耿立中;賈惠波;;基于統(tǒng)計語言模型的低耗時入侵檢測方法[J];計算機工程;2010年05期

9 蘇綏;林原;林鴻飛;;語言模型在信息檢索中的應用[J];情報學報;2011年07期

10 王軒,王曉龍,張凱;語音識別中統(tǒng)計與規(guī)則結(jié)合的語言模型[J];自動化學報;1999年03期

相關會議論文前10條

1 袁里馳;鐘義信;;統(tǒng)計語言模型在語言信息處理中的應用[A];中國自動化學會、中國儀器儀表學會2004年西南三省一市自動化與儀器儀表學術(shù)年會論文集[C];2004年

2 劉昆;張建平;顏永紅;;統(tǒng)計語言模型中語料的選擇[A];中國聲學學會2005年青年學術(shù)會議[CYCA'05]論文集[C];2005年

3 袁里馳;鐘義信;;一種新穎的詞聚類算法[A];中國自動化學會、中國儀器儀表學會2004年西南三省一市自動化與儀器儀表學術(shù)年會論文集[C];2004年

4 羅智勇;宋柔;荀恩東;;一種基于可信度的人名識別方法[A];第二屆全國學生計算語言學研討會論文集[C];2004年

5 牟曉隆;詹津明;鄭方;吳文虎;;基于修正退化頻度估計算法的n-gram語言模型[A];第五屆全國人機語音通訊學術(shù)會議論文集[C];1998年

6 郭麗;蔡東風;季鐸;白宇;;統(tǒng)計與語義相融合的詞語相似度計算[A];第四屆全國學生計算語言學研討會會議論文集[C];2008年

7 陳丕海;馮建華;邢春曉;鄭曉慧;;SiteSearch的關鍵技術(shù)分析及漢化設計[A];第十八屆全國數(shù)據(jù)庫學術(shù)會議論文集（研究報告篇）[C];2001年

8 黃昌寧;高劍峰;李沐;;對自動分詞的反思[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學聯(lián)合學術(shù)會議論文集[C];2003年

9 施水才;肖詩斌;都云程;王洪俊;;TRS中文信息檢索技術(shù)的發(fā)展(摘要)[A];中文信息處理前沿進展——中國中文信息學會二十五周年學術(shù)會議論文集[C];2006年

10 趙軍;敖其爾;吉仁尼格;鞏政;葡萄;陳建東;;基于統(tǒng)計語言模型蒙古文詞匯分析校正器的設計與實現(xiàn)[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學術(shù)研討會論文集[C];2007年

相關重要報紙文章前10條

1 記者賀建業(yè) 侯利紅;拓爾思擬發(fā)行3000萬股[N];上海證券報;2011年

2 付之;百度：技術(shù)制勝[N];網(wǎng)絡世界;2001年

3 ;非門戶網(wǎng)站的信息建設[N];網(wǎng)絡世界;2001年

4 本報記者趙齊;慧聰今秋對決GOOGLE[N];國際商報;2003年

5 本報記者侯闖;讓企業(yè)不再“眼花”[N];計算機世界;2003年

6 李冬梅蕭倩;軟件觸網(wǎng)慎思量[N];北京日報;2000年

7 本報記者劉紅鷹;搜索引擎還有戲？[N];信息時報;2000年

8 本報記者李曉萍;個性訂制——打開未來信息服務之門[N];經(jīng)濟參考報;2001年

9 安徽張來東;在JAVA開發(fā)中的中文處理問題及解決辦法[N];中國計算機報;2001年

10 施水才;內(nèi)容管理打造電子政務[N];中國計算機報;2002年

相關博士學位論文前10條

1 文娟;統(tǒng)計語言模型的研究與應用[D];北京郵電大學;2010年

2 孫越恒;基于統(tǒng)計的NLP技術(shù)在中文信息檢索中的應用研究[D];天津大學;2005年

3 劉政怡;中文整句智能輸入方法研究[D];安徽大學;2007年

4 劉向威;NLP技術(shù)在中文信息檢索中的應用研究[D];天津大學;2005年

5 高紅;基于統(tǒng)計語言模型的漢語淺層分析研究[D];大連理工大學;2007年

6 田萱;基于上下文的信息檢索關鍵技術(shù)研究[D];中國人民大學;2007年

7 姜維;統(tǒng)計中文詞法分析及其強化學習機制的研究[D];哈爾濱工業(yè)大學;2007年

8 馬瑞;非限制手寫字符分割中相關技術(shù)與算法的研究[D];南京理工大學;2007年

9 吳應良;網(wǎng)絡計算中的智能信息處理方法研究[D];華南理工大學;2000年

10 陳博;WEB文本情感分類中關鍵問題的研究[D];北京郵電大學;2008年

相關碩士學位論文前10條

1 王志勇;基于統(tǒng)計語言學模型的中文文本信息檢索[D];第二軍醫(yī)大學;2004年

2 李貞;基于統(tǒng)計語言模型的中文網(wǎng)頁信息檢索研究[D];華中師范大學;2012年

3 王平;小型中文信息檢索測試集的構(gòu)建與分析[D];河北大學;2009年

4 代建英;漢語自動分詞系統(tǒng)的研究與實現(xiàn)[D];重慶大學;2005年

5 甄天橋;基于統(tǒng)計和潛在語義分析的混合語言模型的研究[D];哈爾濱工業(yè)大學;2007年

6 劉志文;基于trigger對的長距離蒙古語語言模型的研究[D];內(nèi)蒙古大學;2008年

7 張美香;貝葉斯文本分類器的研究與改進[D];太原理工大學;2005年

8 黃s

本文編號：2817964

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/tushudanganlunwen/2817964.html

上一篇：曾三檔案工作與檔案學理論研究
下一篇：近十年來我國圖書館推薦書目服務研究綜述

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于統(tǒng)計語言學模型的中文文本信息檢索