天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

中文分詞算法的研究與實現(xiàn)

發(fā)布時間:2017-12-16 01:09

  本文關(guān)鍵詞:中文分詞算法的研究與實現(xiàn)


  更多相關(guān)文章: 中文分詞 機械分詞 統(tǒng)計分詞 人名識別 語言模型 隱馬爾可夫


【摘要】:在本文中,對自然語言處理的基礎(chǔ)性問題中文分詞進(jìn)行了研究。在常見的基于詞典的分詞算法和基于統(tǒng)計的分詞算法的基礎(chǔ)之上,提出了一種基于詞典與基于統(tǒng)計相結(jié)合的分詞方法,充分利用了基于詞典分詞的高效性及基于統(tǒng)計的分詞的較強的歧義處理的能力。首先使用改進(jìn)的雙向匹配方法對待切分句子是否包含歧義進(jìn)行判斷,如果判斷沒有歧義,將分詞結(jié)果直接作為輸入傳遞給中文人名識別模塊;如果判斷包含歧義,該句子需要基于統(tǒng)計的方法進(jìn)行切分,首先,使用正向全切分算法對待切分句子進(jìn)行處理,得到所有的可能的切分情況,然后,根據(jù)訓(xùn)練得到的bin-gram語言模型對各種切分情況進(jìn)行可能性的計算,選出概率最大的三種結(jié)果加入到備選集,下一步使用基于隱馬爾可夫(HMM)的評價算法對備選集中的三種切分進(jìn)行出現(xiàn)的可能性評估,選取概率最大的一種作為切分后的結(jié)果,最后將該結(jié)果作為中文人名識別模塊的輸入,進(jìn)行中文人名的識別操作,對于中文人名的識別,本文采取了一種規(guī)則與統(tǒng)計相結(jié)合的識別算法,人名識別模塊的輸出便是最終的處理結(jié)果。在實際中,只有少部分的中文句子包含歧義,這就意味這大部分的句子使用雙向匹配算法就可以得到解決,少部分的句子使用基于統(tǒng)計的分詞方法進(jìn)行歧義的消除,這樣就最大程度地兼顧了效率與準(zhǔn)確性。實驗結(jié)果表現(xiàn)出了較好的分詞效果。本文的創(chuàng)新之處在于:使用了詞典與統(tǒng)計相結(jié)合的分詞方法;對基于詞典的分詞方法進(jìn)行了改進(jìn),并對傳統(tǒng)的整詞二分法詞典及雙字哈希詞典均進(jìn)行了優(yōu)化,引入了詞長數(shù)組,對于詞典正文部分按照長度分開存儲,并進(jìn)行排序,提高了詞典的匹配效率并減少了空間占用,引入了結(jié)尾詞長數(shù)組從而使逆向匹配算法可以和正向匹配算法使用同一個詞典,實現(xiàn)了詞典的復(fù)用;使用了一種三層的存儲結(jié)構(gòu)存儲bin-gram語言模型,提高了運算速度;采用了規(guī)則與統(tǒng)計相結(jié)合的中文人名識別方法,表現(xiàn)出了較好的人名識別率。最終實現(xiàn)了一個中文分詞的系統(tǒng),提供了便捷的操作界面,系統(tǒng)集成了各種詞典結(jié)構(gòu)及分詞方法,并支持詞典的添加刪除等維護(hù)操作,方便操作及對比研究。
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 張海營;;全二分快速自動分詞算法構(gòu)建[J];現(xiàn)代圖書情報技術(shù);2007年04期

2 宋國柱;陳俊杰;;基于雙字詞的動態(tài)最大匹配分詞算法的研究[J];太原科技大學(xué)學(xué)報;2009年03期

3 吳亮;;一種改進(jìn)的最大匹配分詞算法研究[J];現(xiàn)代商貿(mào)工業(yè);2010年09期

4 胡局新;鞠訓(xùn)光;;自學(xué)習(xí)分詞算法在科研項目查重系統(tǒng)中的應(yīng)用[J];科技通報;2013年06期

5 曾華琳,李堂秋,史曉東;一種基于提取上下文信息的分詞算法[J];計算機應(yīng)用;2005年09期

6 吳濤;張毛迪;陳傳波;;一種改進(jìn)的統(tǒng)計與后串最大匹配的中文分詞算法研究[J];計算機工程與科學(xué);2008年08期

7 亢臨生,,張永奎;基于標(biāo)記的分詞算法[J];山西大學(xué)學(xué)報(自然科學(xué)版);1994年03期

8 郭祥昊,鐘義信,楊麗;基于兩字詞簇的漢語快速自動分詞算法[J];情報學(xué)報;1998年05期

9 陳桂林,王永成,韓客松,王剛;一種改進(jìn)的快速分詞算法[J];計算機研究與發(fā)展;2000年04期

10 李振星,徐澤平,唐衛(wèi)清,唐榮錫;全二分最大匹配快速分詞算法[J];計算機工程與應(yīng)用;2002年11期

中國重要會議論文全文數(shù)據(jù)庫 前5條

1 張秋亮;方凱;;基于中文分詞算法的鐵路客規(guī)查詢系統(tǒng)研究[A];第八屆中國智能交通年會論文集[C];2013年

2 曾華琳;史曉東;李堂秋;;基于上下文信息提取的概率分詞算法[A];第六屆漢語詞匯語義學(xué)研討會論文集[C];2005年

3 才智杰;索南仁欠;;藏文分詞算法研究[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年

4 蘇亮;孫斌;;一種基于Lucene的Hash改進(jìn)中文分詞算法的實現(xiàn)[A];2007通信理論與技術(shù)新發(fā)展——第十二屆全國青年通信學(xué)術(shù)會議論文集(上冊)[C];2007年

5 劉善峰;李雅;陶建華;;基于詞位信息的HMM中文分詞算法[A];第十二屆全國人機語音通訊學(xué)術(shù)會議(NCMMSC'2013)論文集[C];2013年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 李良潔;基于統(tǒng)計和語義信息的中文分詞算法研究[D];青島科技大學(xué);2015年

2 秦贊;中文分詞算法的研究與實現(xiàn)[D];吉林大學(xué);2016年

3 孟旭升;改進(jìn)的中文分詞算法在自動答疑系統(tǒng)中的應(yīng)用研究[D];大連交通大學(xué);2008年

4 王凱;中文分詞算法在工程建設(shè)材料搜索中的研究與應(yīng)用[D];大連交通大學(xué);2010年

5 林冬盛;中文分詞算法的研究與實現(xiàn)[D];西北大學(xué);2011年

6 張曉淼;基于神經(jīng)網(wǎng)絡(luò)的中文分詞算法的研究[D];大連理工大學(xué);2006年

7 陳宏彥;規(guī)則和統(tǒng)計相結(jié)合的分詞算法[D];太原理工大學(xué);2007年

8 刁毓;基于本體的中文分詞算法的研究與實現(xiàn)[D];曲阜師范大學(xué);2012年

9 賀艷艷;基于詞表結(jié)構(gòu)的中文分詞算法研究[D];中國地質(zhì)大學(xué)(北京);2007年

10 李臘臘;基于特殊標(biāo)志符的中文分詞算法研究[D];湖北工業(yè)大學(xué);2010年



本文編號:1294112

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1294112.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1eddf***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com