天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于統(tǒng)計(jì)語(yǔ)言模型的中文網(wǎng)頁(yè)信息檢索研究

發(fā)布時(shí)間:2024-01-31 19:48
  互聯(lián)網(wǎng)飛速發(fā)展,信息呈指數(shù)增長(zhǎng),信息獲取途徑更為多樣化,但是信息搜索卻變得更為復(fù)雜了。人們迫切需要高層次的信息處理技術(shù)來(lái)處理海量信息,快速檢索到所需信息,從而幫助更好的進(jìn)行決策和研究。然而,信息處理技術(shù)的普及與廣泛應(yīng)用很大程度上得益于自然語(yǔ)言處理技術(shù)的發(fā)展,為了有效解決信息檢索問(wèn)題,對(duì)信息檢索在文檔內(nèi)容表示、檢索模型、匹配策略以及排序算法等方面的研究逐漸增多。其中,對(duì)檢索模型的研究仍然是信息檢索研究的一個(gè)熱點(diǎn),各種檢索模型和方法相繼出現(xiàn),如:布爾模型、向量空間模型、概率模型。尤其是近年來(lái)提出統(tǒng)計(jì)語(yǔ)言模型,將自然語(yǔ)言與統(tǒng)計(jì)學(xué)相結(jié)合來(lái)研究信息檢索,借助強(qiáng)大的數(shù)學(xué)基底,成為信息檢索中占據(jù)統(tǒng)治地位的檢索模型,并取得了大量研究成果。 對(duì)中文網(wǎng)頁(yè)海量數(shù)據(jù)進(jìn)行研究,并將中文分詞組件與lemur結(jié)合構(gòu)建適宜于中文的信息檢索系統(tǒng)方面的研究相對(duì)缺乏。本文在大規(guī)模中文網(wǎng)頁(yè)語(yǔ)料庫(kù)CWT200G的基礎(chǔ)上,參考TREC和SWEM信息檢索標(biāo)準(zhǔn)流程,以Lemur為基準(zhǔn)工作平臺(tái),將其與中科院分詞組件—漢語(yǔ)詞法分析系統(tǒng)ICTCLAS相結(jié)合,形成一個(gè)可供實(shí)驗(yàn)的簡(jiǎn)單的信息檢索系統(tǒng)。首先,闡述了本文的理論基礎(chǔ),介紹了基于統(tǒng)計(jì)語(yǔ)...

【文章頁(yè)數(shù)】:59 頁(yè)

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
Abstract
目錄
1 緒論
    1.1 研究背景及意義
        1.1.1 研究背景
        1.1.2 研究意義
    1.2 國(guó)內(nèi)外研究現(xiàn)狀
        1.2.1 信息檢索
        1.2.2 統(tǒng)計(jì)語(yǔ)言模型
    1.3 研究?jī)?nèi)容和組織結(jié)構(gòu)
        1.3.1 本文研究?jī)?nèi)容
        1.3.2 本文組織結(jié)構(gòu)
2 基于統(tǒng)計(jì)語(yǔ)言模型信息檢索原理
    2.1 信息檢索術(shù)語(yǔ)及檢索流程
        2.1.1 相關(guān)術(shù)語(yǔ)與概念
        2.1.2 信息檢索流程
    2.2 基于統(tǒng)計(jì)語(yǔ)言模型的信息檢索基本原理
    2.3 統(tǒng)計(jì)語(yǔ)言模型應(yīng)用于信息檢索的優(yōu)勢(shì)
    2.4 本章小結(jié)
3 數(shù)據(jù)平滑技術(shù)
    3.1 數(shù)據(jù)稀疏問(wèn)題
    3.2 幾種常見(jiàn)數(shù)據(jù)平滑技術(shù)
    3.3 數(shù)據(jù)平滑技術(shù)對(duì)信息檢索效果的影響
    3.4 本章小結(jié)
4 中文分詞和中文文本索引
    4.1 中文分詞
        4.1.1 基于詞典的分詞
        4.1.2 基于統(tǒng)計(jì)的分詞
    4.2 中文文本索引
    4.3 中文分詞和中文文本索引在信息檢索中影響
        4.3.1 中文分詞對(duì)信息檢索的影響
        4.3.2 中文文本索引對(duì)信息檢索的影響
    4.4 本章小結(jié)
5 基于統(tǒng)計(jì)語(yǔ)言模型的中文網(wǎng)頁(yè)信息檢索評(píng)測(cè)
    5.1 實(shí)驗(yàn)環(huán)境和數(shù)據(jù)來(lái)源
        5.1.1 Lemur工具箱
        5.1.2 CWT200G語(yǔ)料庫(kù)
    5.2 信息檢索系統(tǒng)ChWebIR
        5.2.1 系統(tǒng)實(shí)現(xiàn)
        5.2.2 系統(tǒng)運(yùn)行環(huán)境
    5.3 實(shí)驗(yàn)方法
        5.3.1 數(shù)據(jù)處理
        5.3.2 評(píng)測(cè)指標(biāo)
    5.4 實(shí)驗(yàn)結(jié)果分析
        5.4.1 統(tǒng)計(jì)語(yǔ)言與傳統(tǒng)檢索模型對(duì)中文檢索性能的比較分析
        5.4.2 平滑技術(shù)對(duì)統(tǒng)計(jì)語(yǔ)言模型中文檢索性能的比較分析
    5.5 本章小結(jié)
6 總結(jié)和展望
    6.1 總結(jié)
    6.2 展望
參考文獻(xiàn)
致謝



本文編號(hào):3891447

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/tushudanganlunwen/3891447.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶dd032***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com