基于統(tǒng)計(jì)語(yǔ)言模型的中文網(wǎng)頁(yè)信息檢索研究
發(fā)布時(shí)間:2024-01-31 19:48
互聯(lián)網(wǎng)飛速發(fā)展,信息呈指數(shù)增長(zhǎng),信息獲取途徑更為多樣化,但是信息搜索卻變得更為復(fù)雜了。人們迫切需要高層次的信息處理技術(shù)來(lái)處理海量信息,快速檢索到所需信息,從而幫助更好的進(jìn)行決策和研究。然而,信息處理技術(shù)的普及與廣泛應(yīng)用很大程度上得益于自然語(yǔ)言處理技術(shù)的發(fā)展,為了有效解決信息檢索問(wèn)題,對(duì)信息檢索在文檔內(nèi)容表示、檢索模型、匹配策略以及排序算法等方面的研究逐漸增多。其中,對(duì)檢索模型的研究仍然是信息檢索研究的一個(gè)熱點(diǎn),各種檢索模型和方法相繼出現(xiàn),如:布爾模型、向量空間模型、概率模型。尤其是近年來(lái)提出統(tǒng)計(jì)語(yǔ)言模型,將自然語(yǔ)言與統(tǒng)計(jì)學(xué)相結(jié)合來(lái)研究信息檢索,借助強(qiáng)大的數(shù)學(xué)基底,成為信息檢索中占據(jù)統(tǒng)治地位的檢索模型,并取得了大量研究成果。 對(duì)中文網(wǎng)頁(yè)海量數(shù)據(jù)進(jìn)行研究,并將中文分詞組件與lemur結(jié)合構(gòu)建適宜于中文的信息檢索系統(tǒng)方面的研究相對(duì)缺乏。本文在大規(guī)模中文網(wǎng)頁(yè)語(yǔ)料庫(kù)CWT200G的基礎(chǔ)上,參考TREC和SWEM信息檢索標(biāo)準(zhǔn)流程,以Lemur為基準(zhǔn)工作平臺(tái),將其與中科院分詞組件—漢語(yǔ)詞法分析系統(tǒng)ICTCLAS相結(jié)合,形成一個(gè)可供實(shí)驗(yàn)的簡(jiǎn)單的信息檢索系統(tǒng)。首先,闡述了本文的理論基礎(chǔ),介紹了基于統(tǒng)計(jì)語(yǔ)...
【文章頁(yè)數(shù)】:59 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
目錄
1 緒論
1.1 研究背景及意義
1.1.1 研究背景
1.1.2 研究意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 信息檢索
1.2.2 統(tǒng)計(jì)語(yǔ)言模型
1.3 研究?jī)?nèi)容和組織結(jié)構(gòu)
1.3.1 本文研究?jī)?nèi)容
1.3.2 本文組織結(jié)構(gòu)
2 基于統(tǒng)計(jì)語(yǔ)言模型信息檢索原理
2.1 信息檢索術(shù)語(yǔ)及檢索流程
2.1.1 相關(guān)術(shù)語(yǔ)與概念
2.1.2 信息檢索流程
2.2 基于統(tǒng)計(jì)語(yǔ)言模型的信息檢索基本原理
2.3 統(tǒng)計(jì)語(yǔ)言模型應(yīng)用于信息檢索的優(yōu)勢(shì)
2.4 本章小結(jié)
3 數(shù)據(jù)平滑技術(shù)
3.1 數(shù)據(jù)稀疏問(wèn)題
3.2 幾種常見(jiàn)數(shù)據(jù)平滑技術(shù)
3.3 數(shù)據(jù)平滑技術(shù)對(duì)信息檢索效果的影響
3.4 本章小結(jié)
4 中文分詞和中文文本索引
4.1 中文分詞
4.1.1 基于詞典的分詞
4.1.2 基于統(tǒng)計(jì)的分詞
4.2 中文文本索引
4.3 中文分詞和中文文本索引在信息檢索中影響
4.3.1 中文分詞對(duì)信息檢索的影響
4.3.2 中文文本索引對(duì)信息檢索的影響
4.4 本章小結(jié)
5 基于統(tǒng)計(jì)語(yǔ)言模型的中文網(wǎng)頁(yè)信息檢索評(píng)測(cè)
5.1 實(shí)驗(yàn)環(huán)境和數(shù)據(jù)來(lái)源
5.1.1 Lemur工具箱
5.1.2 CWT200G語(yǔ)料庫(kù)
5.2 信息檢索系統(tǒng)ChWebIR
5.2.1 系統(tǒng)實(shí)現(xiàn)
5.2.2 系統(tǒng)運(yùn)行環(huán)境
5.3 實(shí)驗(yàn)方法
5.3.1 數(shù)據(jù)處理
5.3.2 評(píng)測(cè)指標(biāo)
5.4 實(shí)驗(yàn)結(jié)果分析
5.4.1 統(tǒng)計(jì)語(yǔ)言與傳統(tǒng)檢索模型對(duì)中文檢索性能的比較分析
5.4.2 平滑技術(shù)對(duì)統(tǒng)計(jì)語(yǔ)言模型中文檢索性能的比較分析
5.5 本章小結(jié)
6 總結(jié)和展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
致謝
本文編號(hào):3891447
【文章頁(yè)數(shù)】:59 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
目錄
1 緒論
1.1 研究背景及意義
1.1.1 研究背景
1.1.2 研究意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 信息檢索
1.2.2 統(tǒng)計(jì)語(yǔ)言模型
1.3 研究?jī)?nèi)容和組織結(jié)構(gòu)
1.3.1 本文研究?jī)?nèi)容
1.3.2 本文組織結(jié)構(gòu)
2 基于統(tǒng)計(jì)語(yǔ)言模型信息檢索原理
2.1 信息檢索術(shù)語(yǔ)及檢索流程
2.1.1 相關(guān)術(shù)語(yǔ)與概念
2.1.2 信息檢索流程
2.2 基于統(tǒng)計(jì)語(yǔ)言模型的信息檢索基本原理
2.3 統(tǒng)計(jì)語(yǔ)言模型應(yīng)用于信息檢索的優(yōu)勢(shì)
2.4 本章小結(jié)
3 數(shù)據(jù)平滑技術(shù)
3.1 數(shù)據(jù)稀疏問(wèn)題
3.2 幾種常見(jiàn)數(shù)據(jù)平滑技術(shù)
3.3 數(shù)據(jù)平滑技術(shù)對(duì)信息檢索效果的影響
3.4 本章小結(jié)
4 中文分詞和中文文本索引
4.1 中文分詞
4.1.1 基于詞典的分詞
4.1.2 基于統(tǒng)計(jì)的分詞
4.2 中文文本索引
4.3 中文分詞和中文文本索引在信息檢索中影響
4.3.1 中文分詞對(duì)信息檢索的影響
4.3.2 中文文本索引對(duì)信息檢索的影響
4.4 本章小結(jié)
5 基于統(tǒng)計(jì)語(yǔ)言模型的中文網(wǎng)頁(yè)信息檢索評(píng)測(cè)
5.1 實(shí)驗(yàn)環(huán)境和數(shù)據(jù)來(lái)源
5.1.1 Lemur工具箱
5.1.2 CWT200G語(yǔ)料庫(kù)
5.2 信息檢索系統(tǒng)ChWebIR
5.2.1 系統(tǒng)實(shí)現(xiàn)
5.2.2 系統(tǒng)運(yùn)行環(huán)境
5.3 實(shí)驗(yàn)方法
5.3.1 數(shù)據(jù)處理
5.3.2 評(píng)測(cè)指標(biāo)
5.4 實(shí)驗(yàn)結(jié)果分析
5.4.1 統(tǒng)計(jì)語(yǔ)言與傳統(tǒng)檢索模型對(duì)中文檢索性能的比較分析
5.4.2 平滑技術(shù)對(duì)統(tǒng)計(jì)語(yǔ)言模型中文檢索性能的比較分析
5.5 本章小結(jié)
6 總結(jié)和展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
致謝
本文編號(hào):3891447
本文鏈接:http://sikaile.net/tushudanganlunwen/3891447.html
最近更新
教材專著