信息檢索用漢語分詞與未登錄詞識別技術(shù)研究
【學(xué)位單位】:南京農(nóng)業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2007
【中圖分類】:G354
【部分圖文】:
總詞數(shù)/總詞頻 55630100882942100根據(jù)表3一1對1998年1月份人民日報(bào)語料庫中詞的統(tǒng)計(jì)數(shù)據(jù),楊超等人得到該語料庫中出現(xiàn)的詞條數(shù)的分布信息如圖3一3所示,詞頻數(shù)的分布信息如圖3一4所示:四字及四字單字詞以上詞三字詞19%二字詞56%國國單字詞 詞...二字詞 詞口口三字詞 詞口口四字及四字以上詞詞圖3一3人民日報(bào)語料庫中詞數(shù)的分布信息口三字詞口四字及四目單字詞.二字詞字以上詞田田單字詞 詞...二字詞 詞口口三字詞 詞口口四字及四字以上詞詞圖3一4人民日報(bào)語料庫中詞頻的分布信息以上統(tǒng)計(jì)數(shù)據(jù)表明,在漢語中,單字詞與二字詞占有絕大多數(shù)。因此快速判斷單字詞與二字詞,對提高漢語分詞效率起著至關(guān)重要的作用。由于在漢語自適應(yīng)分詞算法使用的是最長匹配法,以及識別的候選未登錄詞短語長度一般都大于2,所以詞串查詢大部分為二字長以上的字串在詞表里進(jìn)行局部查詢。從上面的數(shù)據(jù)統(tǒng)計(jì)分
總詞數(shù)/總詞頻 55630100882942100根據(jù)表3一1對1998年1月份人民日報(bào)語料庫中詞的統(tǒng)計(jì)數(shù)據(jù),楊超等人得到該語料庫中出現(xiàn)的詞條數(shù)的分布信息如圖3一3所示,詞頻數(shù)的分布信息如圖3一4所示:四字及四字單字詞以上詞三字詞19%二字詞56%國國單字詞 詞...二字詞 詞口口三字詞 詞口口四字及四字以上詞詞圖3一3人民日報(bào)語料庫中詞數(shù)的分布信息口三字詞口四字及四目單字詞.二字詞字以上詞田田單字詞 詞...二字詞 詞口口三字詞 詞口口四字及四字以上詞詞圖3一4人民日報(bào)語料庫中詞頻的分布信息以上統(tǒng)計(jì)數(shù)據(jù)表明,在漢語中,單字詞與二字詞占有絕大多數(shù)。因此快速判斷單字詞與二字詞,對提高漢語分詞效率起著至關(guān)重要的作用。由于在漢語自適應(yīng)分詞算法使用的是最長匹配法,以及識別的候選未登錄詞短語長度一般都大于2,所以詞串查詢大部分為二字長以上的字串在詞表里進(jìn)行局部查詢。從上面的數(shù)據(jù)統(tǒng)計(jì)分
圖4--7Car.系統(tǒng)主界面圖在分詞之前,需要進(jìn)行相關(guān)的基本配置:1)分詞算法選擇選擇分詞系統(tǒng)使用的算法,缺省為漢語自適應(yīng)分詞算法,也可以選擇逆向最長或是正向最長分詞算法。如下圖:
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張鋒,樊孝忠;基于最大熵模型的交集型切分歧義消解[J];北京理工大學(xué)學(xué)報(bào);2005年07期
2 王顯芳,杜利民;一種能夠檢測所有交叉歧義的漢語分詞算法[J];電子學(xué)報(bào);2004年01期
3 盧微;;隱馬爾可夫模型在自然語言理解研究中的應(yīng)用[J];電腦與信息技術(shù);2007年01期
4 馮素琴;陳惠明;;利用上下文信息解決漢語組合型歧義[J];電腦開發(fā)與應(yīng)用;2007年01期
5 王秀坤,李政,簡幼良,劉劍;基于Hash方法的機(jī)器翻譯詞典的組織與構(gòu)造[J];大連理工大學(xué)學(xué)報(bào);1996年03期
6 孫茂松,鄒嘉彥;漢語自動分詞研究評述[J];當(dāng)代語言學(xué);2001年01期
7 揭春雨 ,劉源 ,梁南元;論漢語自動分詞方法[J];中文信息學(xué)報(bào);1989年01期
8 梁南元;漢語計(jì)算機(jī)自動分詞知識[J];中文信息學(xué)報(bào);1990年02期
9 孫茂松,左正平,黃昌寧;漢語自動分詞詞典機(jī)制的實(shí)驗(yàn)研究[J];中文信息學(xué)報(bào);2000年01期
10 沈達(dá)陽,孫茂松,黃昌寧;漢語分詞系統(tǒng)中的信息集成和最佳路徑搜索方法[J];中文信息學(xué)報(bào);1997年02期
相關(guān)碩士學(xué)位論文 前2條
1 張俊;基于內(nèi)容的漢語文獻(xiàn)信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];南京農(nóng)業(yè)大學(xué);2006年
2 何燕;任意類型的未登錄詞的識別研究[D];北京語言文化大學(xué);2000年
本文編號:2869897
本文鏈接:http://sikaile.net/tushudanganlunwen/2869897.html