天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于詞典與統(tǒng)計(jì)結(jié)合的中文分詞方法研究及全文檢索系統(tǒng)設(shè)計(jì)

發(fā)布時(shí)間:2018-02-22 05:55

  本文關(guān)鍵詞: 全文檢索 Lucene 中文分詞 HMM模型 資源庫(kù) 出處:《華中師范大學(xué)》2017年碩士論文 論文類(lèi)型:學(xué)位論文


【摘要】:隨著信息時(shí)代的飛速發(fā)展,信息量越來(lái)越多,如何從眾多的信息中找出自己想要的信息變得越來(lái)越重要,如荊楚資源庫(kù)中的武當(dāng)山資源庫(kù),資源總量達(dá)到幾百G,各種類(lèi)型的文檔總數(shù)有幾千個(gè),從眾多的文檔中找出特定的信息變得比較困難,信息檢索技術(shù)就是用來(lái)解決這個(gè)問(wèn)題。全文檢索作為信息檢索的一種,正在扮演者越來(lái)越重要的角色,很多大型搜索引擎都采用了全文檢索技術(shù)。中文分詞是中文信息處理的第一步,無(wú)論是自然語(yǔ)言處理還是全文檢索,都離不開(kāi)中文信息的提取,而信息提取必然涉及到分詞。中文由于字與字之間沒(méi)有空格作為詞分隔符且中文語(yǔ)義語(yǔ)境都比較復(fù)雜,導(dǎo)致中文分詞一直是一個(gè)難點(diǎn),針對(duì)中文分詞人們提出了各種各樣的方法來(lái)分詞,如詞典分詞、統(tǒng)計(jì)分詞、理解分詞等。本文分析了全文檢索技術(shù)的原理并討論了開(kāi)源的全文檢索框架Lucene,接著針對(duì)全文檢索必須要使用文本切分提取信息,討論了中文分詞相關(guān)原理及技術(shù),針對(duì)目前廣泛采用的詞典分詞和統(tǒng)計(jì)分詞做了詳細(xì)的討論,比較了各種分詞方法的優(yōu)點(diǎn)以及缺點(diǎn),提出了一種基于詞典與統(tǒng)計(jì)相結(jié)合的分詞方法。本文所做的工作如下:1.分析了全文檢索和中文分詞的研究背景和研究現(xiàn)狀,并對(duì)目前比較常用的全文檢索和中文分詞技術(shù)做了分析和描述;2.分析了常用的分詞技術(shù)并在比較各種方法的優(yōu)劣的基礎(chǔ)上提出了一種基于詞典與統(tǒng)計(jì)相結(jié)合的分詞方法,該方法利用詞典分詞切分整體效果良好和統(tǒng)計(jì)分詞具有歧義識(shí)別的優(yōu)點(diǎn),采用詞典分詞做粗分和HMM模型做歧義判斷,以達(dá)到提高分詞精度的目的。3.利用Lucene框架結(jié)合自定義分析器,進(jìn)行資源庫(kù)全文檢索系統(tǒng)的設(shè)計(jì)。
[Abstract]:With the rapid development of the information age, more and more information, how to find the information they want from the numerous information becomes more and more important, such as the Wudang Mountain resource bank in Jingchu resource bank. The total amount of resources is several hundred Gand the total number of documents of various types is several thousand. It becomes more difficult to find specific information from many documents. Information retrieval technology is used to solve this problem. Full-text retrieval is a kind of information retrieval. Chinese word segmentation is the first step of Chinese information processing, whether natural language processing or full-text retrieval, can not be separated from the extraction of Chinese information. Chinese word segmentation is always a difficulty because there is no space between words as word separator and Chinese semantic context is complicated. For Chinese word participle people put forward a variety of methods for word segmentation, such as dictionary participle, statistical word segmentation, This paper analyzes the principle of full-text retrieval technology and discusses the open source full-text retrieval framework Lucene.Then, aiming at the need to use text segmentation to extract information in full-text retrieval, the related principles and techniques of Chinese word segmentation are discussed. This paper makes a detailed discussion on lexical segmentation and statistical participle which are widely used at present, and compares the advantages and disadvantages of various word segmentation methods. A word segmentation method based on the combination of dictionary and statistics is proposed. The work done in this paper is as follows: 1. The research background and status quo of full-text retrieval and Chinese word segmentation are analyzed. This paper also analyzes and describes the popular full-text retrieval and Chinese word segmentation techniques. 2. This paper analyzes the common word segmentation techniques and puts forward a word segmentation method based on the combination of dictionary and statistics on the basis of comparing the advantages and disadvantages of various methods. In this method, the overall effect of word segmentation in dictionaries is good and the statistical segmentation has the advantages of ambiguity recognition. The rough segmentation of dictionary segmentation and the HMM model are used to judge ambiguity. In order to improve the accuracy of word segmentation. 3. The design of full-text retrieval system of resource base is carried out by using Lucene framework and self-defined analyzer.
【學(xué)位授予單位】:華中師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類(lèi)號(hào)】:TP391.3

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 周俊;鄭中華;張煒;;基于改進(jìn)最大匹配算法的中文分詞粗分方法[J];計(jì)算機(jī)工程與應(yīng)用;2014年02期

2 莫建文;鄭陽(yáng);首照宇;張順嵐;;改進(jìn)的基于詞典的中文分詞方法[J];計(jì)算機(jī)工程與設(shè)計(jì);2013年05期

3 張薷;李玉海;;基于內(nèi)容的圖像檢索技術(shù)在購(gòu)物網(wǎng)站中的應(yīng)用研究[J];情報(bào)科學(xué);2012年06期

4 劉靜;;淺析全文檢索技術(shù)及其發(fā)展[J];中國(guó)西部科技;2010年08期

5 宋彥;蔡?hào)|風(fēng);張桂平;趙海;;一種基于字詞聯(lián)合解碼的中文分詞方法[J];軟件學(xué)報(bào);2009年09期

6 張勁松;袁健;;回溯正向匹配中文分詞算法[J];計(jì)算機(jī)工程與應(yīng)用;2009年22期

7 楊安生;;基于倒排表的中文全文檢索研究[J];情報(bào)探索;2009年07期

8 孫坦;周靜怡;;近幾年來(lái)國(guó)外信息檢索模型研究進(jìn)展[J];圖書(shū)館建設(shè);2008年03期

9 張小芳;;幾種常見(jiàn)信息檢索模型的分析與評(píng)價(jià)[J];情報(bào)雜志;2008年03期

10 方志;夏立新;劉啟強(qiáng);;中外全文檢索研究的現(xiàn)狀及趨勢(shì)[J];圖書(shū)情報(bào)知識(shí);2006年05期

相關(guān)會(huì)議論文 前2條

1 吳晶晶;荊繼武;王平建;;一種基于詞典的新型中文分詞機(jī)制[A];全國(guó)網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集(上冊(cè))[C];2007年

2 施水才;肖詩(shī)斌;王弘蔚;王洪俊;蘇東莊;;TRS中文文本信息檢索技術(shù)的發(fā)展——從全文檢索到基于自然語(yǔ)言處理的知識(shí)檢索[A];輝煌二十年——中國(guó)中文信息學(xué)會(huì)二十周年學(xué)術(shù)會(huì)議論文集[C];2001年

相關(guān)碩士學(xué)位論文 前4條

1 楊淦;基于條件隨機(jī)場(chǎng)模型的中文分詞系統(tǒng)研究與實(shí)現(xiàn)[D];重慶大學(xué);2015年

2 劉延吉;基于詞典的中文分詞歧義算法研究[D];東北師范大學(xué);2009年

3 張旭;一個(gè)基于詞典與統(tǒng)計(jì)的中文分詞算法[D];電子科技大學(xué);2007年

4 張曉淼;基于神經(jīng)網(wǎng)絡(luò)的中文分詞算法的研究[D];大連理工大學(xué);2006年



本文編號(hào):1523789

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1523789.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)0b954***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com