基于統(tǒng)計語言學模型的中文文本信息檢索
【學位單位】:第二軍醫(yī)大學
【學位級別】:碩士
【學位年份】:2004
【中圖分類】:G354
【部分圖文】:
碩士研究生畢業(yè)論文 引言(Knowledge Mining)、知識發(fā)現(xiàn)(Knowledge Discovery)、內(nèi)容管理(Contentnagement)、內(nèi)容計算(Content Computing)等等新名詞、新學科,有些其實就 IR,有些可能學科淵源或者處理內(nèi)容有所不同,但是 IR 技術是這些名詞的主內(nèi)容,或者說這些都是傳統(tǒng) IR 的拓展,是現(xiàn)代 IR 的內(nèi)容。可以說,現(xiàn)代 IR發(fā)展可以說是百花齊放、絢麗多彩,引無數(shù)英雄盡折腰。1.2 信息檢索的基本流程信息檢索的基本流程如圖 0.1 所示。首先,用戶提出檢索需求,系統(tǒng)為用戶需求生成查詢表達式,然后對查詢表達式進行分析處理,產(chǎn)生檢索系統(tǒng)的查詢言。在后臺,通過索引器對文檔集建立索引,并生成文檔表示。這樣,查詢語和文檔表示就是一個匹配的過程,產(chǎn)生檢索結果。通過相關反饋機制,調(diào)整查表達式,從而使檢索結果更加符合用戶的需求。
本文總體上分為三個部分,第一部分包括文本檢索模型概述、SLM-IR相關的工作、基于SLM-IR的中文文本檢索。第二部分是實驗與結論,通過幾種類型的實驗來驗證我們的設想。第三部分是總結和展望,探討未來的研究方向。如圖0.3所示。
圖 2.1.1 馬爾科夫模型-圖示爾科夫模型-定義隱馬爾科夫模型(HMM)是一個五元組: ( ,,A,B,πXO :{ }:狀態(tài)的有限集合Nq ,...q1{ }:觀察值的有限集合Mv ,...v1{ },(|):轉(zhuǎn)移概率ijijt1 jtiaa=pX=qX=q+ } :輸出概率,(|)ikiktktibb=pO=vX=q }, :初始狀態(tài)分布()ii1 iππ=p X=q{ }為 給定的參數(shù)= A, B,πHMM。
【相似文獻】
相關期刊論文 前10條
1 徐志明,王曉龍,關毅;漢語大詞表N-gram統(tǒng)計語言模型構造算法[J];計算機應用研究;1999年06期
2 高升,徐志明;統(tǒng)計語言模型中詞的自動聚類技術研究[J];計算機工程與應用;2003年11期
3 郭燕慧,鐘義信;統(tǒng)計語言模型中句子的語義連貫性判別[J];情報學報;2003年04期
4 趙正文;康耀紅;;統(tǒng)計語言模型在信息檢索中的應用[J];計算機工程與應用;2006年36期
5 田斌;田紅心;易克初;;一種結合聲學匹配信息的漢語統(tǒng)計語言模型新方法[J];模式識別與人工智能;1999年04期
6 田斌,田紅心,易克初;一種改進的漢語N元文法統(tǒng)計語言模型[J];西安電子科技大學學報;2000年01期
7 鄭洪靜;韓卓平;;統(tǒng)計語言模型的手機數(shù)碼中文輸入法研究[J];蘇州市職業(yè)大學學報;2008年02期
8 耿立中;賈惠波;;基于統(tǒng)計語言模型的低耗時入侵檢測方法[J];計算機工程;2010年05期
9 蘇綏;林原;林鴻飛;;語言模型在信息檢索中的應用[J];情報學報;2011年07期
10 王軒,王曉龍,張凱;語音識別中統(tǒng)計與規(guī)則結合的語言模型[J];自動化學報;1999年03期
相關會議論文 前10條
1 袁里馳;鐘義信;;統(tǒng)計語言模型在語言信息處理中的應用[A];中國自動化學會、中國儀器儀表學會2004年西南三省一市自動化與儀器儀表學術年會論文集[C];2004年
2 劉昆;張建平;顏永紅;;統(tǒng)計語言模型中語料的選擇[A];中國聲學學會2005年青年學術會議[CYCA'05]論文集[C];2005年
3 袁里馳;鐘義信;;一種新穎的詞聚類算法[A];中國自動化學會、中國儀器儀表學會2004年西南三省一市自動化與儀器儀表學術年會論文集[C];2004年
4 羅智勇;宋柔;荀恩東;;一種基于可信度的人名識別方法[A];第二屆全國學生計算語言學研討會論文集[C];2004年
5 牟曉隆;詹津明;鄭方;吳文虎;;基于修正退化頻度估計算法的n-gram語言模型[A];第五屆全國人機語音通訊學術會議論文集[C];1998年
6 郭麗;蔡東風;季鐸;白宇;;統(tǒng)計與語義相融合的詞語相似度計算[A];第四屆全國學生計算語言學研討會會議論文集[C];2008年
7 陳丕海;馮建華;邢春曉;鄭曉慧;;SiteSearch的關鍵技術分析及漢化設計[A];第十八屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2001年
8 黃昌寧;高劍峰;李沐;;對自動分詞的反思[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學聯(lián)合學術會議論文集[C];2003年
9 施水才;肖詩斌;都云程;王洪俊;;TRS中文信息檢索技術的發(fā)展(摘要)[A];中文信息處理前沿進展——中國中文信息學會二十五周年學術會議論文集[C];2006年
10 趙軍;敖其爾;吉仁尼格;鞏政;葡萄;陳建東;;基于統(tǒng)計語言模型蒙古文詞匯分析校正器的設計與實現(xiàn)[A];民族語言文字信息技術研究——第十一屆全國民族語言文字信息學術研討會論文集[C];2007年
相關重要報紙文章 前10條
1 記者 賀建業(yè) 侯利紅;拓爾思擬發(fā)行3000萬股[N];上海證券報;2011年
2 付之;百度:技術制勝[N];網(wǎng)絡世界;2001年
3 ;非門戶網(wǎng)站的信息建設[N];網(wǎng)絡世界;2001年
4 本報記者 趙齊;慧聰今秋對決GOOGLE[N];國際商報;2003年
5 本報記者 侯闖;讓企業(yè)不再“眼花”[N];計算機世界;2003年
6 李冬梅 蕭倩;軟件觸網(wǎng)慎思量[N];北京日報;2000年
7 本報記者 劉紅鷹;搜索引擎還有戲?[N];信息時報;2000年
8 本報記者 李曉萍;個性訂制——打開未來信息服務之門[N];經(jīng)濟參考報;2001年
9 安徽 張來東;在JAVA開發(fā)中的中文處理問題及解決辦法[N];中國計算機報;2001年
10 施水才;內(nèi)容管理打造電子政務[N];中國計算機報;2002年
相關博士學位論文 前10條
1 文娟;統(tǒng)計語言模型的研究與應用[D];北京郵電大學;2010年
2 孫越恒;基于統(tǒng)計的NLP技術在中文信息檢索中的應用研究[D];天津大學;2005年
3 劉政怡;中文整句智能輸入方法研究[D];安徽大學;2007年
4 劉向威;NLP技術在中文信息檢索中的應用研究[D];天津大學;2005年
5 高紅;基于統(tǒng)計語言模型的漢語淺層分析研究[D];大連理工大學;2007年
6 田萱;基于上下文的信息檢索關鍵技術研究[D];中國人民大學;2007年
7 姜維;統(tǒng)計中文詞法分析及其強化學習機制的研究[D];哈爾濱工業(yè)大學;2007年
8 馬瑞;非限制手寫字符分割中相關技術與算法的研究[D];南京理工大學;2007年
9 吳應良;網(wǎng)絡計算中的智能信息處理方法研究[D];華南理工大學;2000年
10 陳博;WEB文本情感分類中關鍵問題的研究[D];北京郵電大學;2008年
相關碩士學位論文 前10條
1 王志勇;基于統(tǒng)計語言學模型的中文文本信息檢索[D];第二軍醫(yī)大學;2004年
2 李貞;基于統(tǒng)計語言模型的中文網(wǎng)頁信息檢索研究[D];華中師范大學;2012年
3 王平;小型中文信息檢索測試集的構建與分析[D];河北大學;2009年
4 代建英;漢語自動分詞系統(tǒng)的研究與實現(xiàn)[D];重慶大學;2005年
5 甄天橋;基于統(tǒng)計和潛在語義分析的混合語言模型的研究[D];哈爾濱工業(yè)大學;2007年
6 劉志文;基于trigger對的長距離蒙古語語言模型的研究[D];內(nèi)蒙古大學;2008年
7 張美香;貝葉斯文本分類器的研究與改進[D];太原理工大學;2005年
8 黃s
本文編號:2817964
本文鏈接:http://sikaile.net/tushudanganlunwen/2817964.html