天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 社科論文 > 圖書檔案論文 >

信息檢索用漢語分詞與未登錄詞識別技術(shù)研究

發(fā)布時(shí)間:2020-11-04 08:49
   漢語分詞是中文信息處理中最基礎(chǔ)的部分。信息檢索用漢語分詞要求分詞算法具備一定的歧義識別與未登錄詞識別功能。 本文深入研究了未登錄詞識別技術(shù),根據(jù)人在閱讀時(shí)識別新詞的思維過程,提出了一種新的未登錄詞識別算法,其中的數(shù)量詞識別規(guī)則、邊界單字規(guī)則、虛字輔助規(guī)則、未登錄詞記憶識別規(guī)則以及左方探測法、右方探測法選取未登錄詞規(guī)則等,使得算法在不依賴大型語料庫的前提下可以有效地識別多種領(lǐng)域中各種類型的未登錄詞。同時(shí),算法通過對正向、逆向雙向分詞算法的結(jié)果進(jìn)行比較,能識別出絕大部分的交集歧義,使得未登錄詞識別與切分歧義識別一體化,有效地解決了識別未登錄詞時(shí)導(dǎo)致的新的切分歧義問題。接著,本文改進(jìn)了詞表組織結(jié)構(gòu),改善了詞表查詢算法,在提高分詞效率的同時(shí)也使得詞表的囊括度更大、更新維護(hù)更加靈活。 在此基礎(chǔ)上,針對信息檢索領(lǐng)域的特點(diǎn)以及對分詞算法的要求,本文提出了漢語自適應(yīng)分詞算法,并設(shè)計(jì)開發(fā)出了漢語分詞基礎(chǔ)模塊carmmLib.d11以及漢語自適應(yīng)分詞系統(tǒng)Carmm。carmm用戶可以定制詞表,定制分詞結(jié)果以及可以對詞表、未登錄詞表等詞表進(jìn)行管理維護(hù)等。Carmm還具備很好的擴(kuò)展性和可移植性。 最后,本文對Carmm與中科院的分詞系統(tǒng)ICTCLAS開源版進(jìn)行了全面測評,包括系統(tǒng)效能測評(系統(tǒng)基本性能測評、負(fù)荷測評、穩(wěn)定性測評)、系統(tǒng)分詞準(zhǔn)確率測評、系統(tǒng)未登錄詞識別的準(zhǔn)確率和召回率測評。在整個(gè)測評過程中,Carmm的分詞速率可以穩(wěn)定在100KB/s左右。在人民日報(bào)語料庫的開放測評中,Carmm系統(tǒng)的分詞準(zhǔn)確率約為91.2%。在網(wǎng)絡(luò)時(shí)文的開放測評中,Carmm系統(tǒng)的分詞準(zhǔn)確率約為90.1%,接近于ICTCLAS開源版的91.3%;未登錄詞識別的準(zhǔn)確率約為91.2%,略低于ICTCLAS開源版的93.9%;而未登錄詞識別的召回率約為94.7%,明顯高于ICTCLAS開源版的89.0%。與此同時(shí),Carmm系統(tǒng)在分詞速率、處理大量未登錄詞的速率穩(wěn)定性、面對高負(fù)荷系統(tǒng)環(huán)境的健壯性、系統(tǒng)易用性、系統(tǒng)抗干擾性等方面都優(yōu)于ICTCLAS系統(tǒng)開源版。
【學(xué)位單位】:南京農(nóng)業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2007
【中圖分類】:G354
【部分圖文】:

人民日報(bào),中詞,語料庫,分布信息


總詞數(shù)/總詞頻 55630100882942100根據(jù)表3一1對1998年1月份人民日報(bào)語料庫中詞的統(tǒng)計(jì)數(shù)據(jù),楊超等人得到該語料庫中出現(xiàn)的詞條數(shù)的分布信息如圖3一3所示,詞頻數(shù)的分布信息如圖3一4所示:四字及四字單字詞以上詞三字詞19%二字詞56%國國單字詞 詞...二字詞 詞口口三字詞 詞口口四字及四字以上詞詞圖3一3人民日報(bào)語料庫中詞數(shù)的分布信息口三字詞口四字及四目單字詞.二字詞字以上詞田田單字詞 詞...二字詞 詞口口三字詞 詞口口四字及四字以上詞詞圖3一4人民日報(bào)語料庫中詞頻的分布信息以上統(tǒng)計(jì)數(shù)據(jù)表明,在漢語中,單字詞與二字詞占有絕大多數(shù)。因此快速判斷單字詞與二字詞,對提高漢語分詞效率起著至關(guān)重要的作用。由于在漢語自適應(yīng)分詞算法使用的是最長匹配法,以及識別的候選未登錄詞短語長度一般都大于2,所以詞串查詢大部分為二字長以上的字串在詞表里進(jìn)行局部查詢。從上面的數(shù)據(jù)統(tǒng)計(jì)分

人民日報(bào),中詞,語料庫,分布信息


總詞數(shù)/總詞頻 55630100882942100根據(jù)表3一1對1998年1月份人民日報(bào)語料庫中詞的統(tǒng)計(jì)數(shù)據(jù),楊超等人得到該語料庫中出現(xiàn)的詞條數(shù)的分布信息如圖3一3所示,詞頻數(shù)的分布信息如圖3一4所示:四字及四字單字詞以上詞三字詞19%二字詞56%國國單字詞 詞...二字詞 詞口口三字詞 詞口口四字及四字以上詞詞圖3一3人民日報(bào)語料庫中詞數(shù)的分布信息口三字詞口四字及四目單字詞.二字詞字以上詞田田單字詞 詞...二字詞 詞口口三字詞 詞口口四字及四字以上詞詞圖3一4人民日報(bào)語料庫中詞頻的分布信息以上統(tǒng)計(jì)數(shù)據(jù)表明,在漢語中,單字詞與二字詞占有絕大多數(shù)。因此快速判斷單字詞與二字詞,對提高漢語分詞效率起著至關(guān)重要的作用。由于在漢語自適應(yīng)分詞算法使用的是最長匹配法,以及識別的候選未登錄詞短語長度一般都大于2,所以詞串查詢大部分為二字長以上的字串在詞表里進(jìn)行局部查詢。從上面的數(shù)據(jù)統(tǒng)計(jì)分

主界面,分詞算法,分詞系統(tǒng)


圖4--7Car.系統(tǒng)主界面圖在分詞之前,需要進(jìn)行相關(guān)的基本配置:1)分詞算法選擇選擇分詞系統(tǒng)使用的算法,缺省為漢語自適應(yīng)分詞算法,也可以選擇逆向最長或是正向最長分詞算法。如下圖:
【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 張鋒,樊孝忠;基于最大熵模型的交集型切分歧義消解[J];北京理工大學(xué)學(xué)報(bào);2005年07期

2 王顯芳,杜利民;一種能夠檢測所有交叉歧義的漢語分詞算法[J];電子學(xué)報(bào);2004年01期

3 盧微;;隱馬爾可夫模型在自然語言理解研究中的應(yīng)用[J];電腦與信息技術(shù);2007年01期

4 馮素琴;陳惠明;;利用上下文信息解決漢語組合型歧義[J];電腦開發(fā)與應(yīng)用;2007年01期

5 王秀坤,李政,簡幼良,劉劍;基于Hash方法的機(jī)器翻譯詞典的組織與構(gòu)造[J];大連理工大學(xué)學(xué)報(bào);1996年03期

6 孫茂松,鄒嘉彥;漢語自動分詞研究評述[J];當(dāng)代語言學(xué);2001年01期

7 揭春雨 ,劉源 ,梁南元;論漢語自動分詞方法[J];中文信息學(xué)報(bào);1989年01期

8 梁南元;漢語計(jì)算機(jī)自動分詞知識[J];中文信息學(xué)報(bào);1990年02期

9 孫茂松,左正平,黃昌寧;漢語自動分詞詞典機(jī)制的實(shí)驗(yàn)研究[J];中文信息學(xué)報(bào);2000年01期

10 沈達(dá)陽,孫茂松,黃昌寧;漢語分詞系統(tǒng)中的信息集成和最佳路徑搜索方法[J];中文信息學(xué)報(bào);1997年02期


相關(guān)碩士學(xué)位論文 前2條

1 張俊;基于內(nèi)容的漢語文獻(xiàn)信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];南京農(nóng)業(yè)大學(xué);2006年

2 何燕;任意類型的未登錄詞的識別研究[D];北京語言文化大學(xué);2000年



本文編號:2869897

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/tushudanganlunwen/2869897.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶84307***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com