中文分詞歧義消解技術(shù)的研究
本文關(guān)鍵詞:中文分詞歧義消解技術(shù)的研究,由筆耕文化傳播整理發(fā)布。
【摘要】:搜索引擎是人們搜索信息、獲取知識的重要工具。而中文分詞作為其中的一個重要環(huán)節(jié),也是近幾年來該領(lǐng)域的熱點研究問題。歧義消解技術(shù)是中文分詞的一個重要組成部分,該技術(shù)是通過一定策略將分詞產(chǎn)生的歧義字段進(jìn)行消除的過程,從而提高分詞的精度。本文研究的主要內(nèi)容如下: (1)研究了中文分詞歧義消解技術(shù)的研究背景、研究意義及國內(nèi)外研究現(xiàn)狀。 (2)深入研究了中文分詞歧義消解技術(shù)及其各種算法。主要包括歧義字段產(chǎn)生的原因、歧義字段的分類、消解歧義字段的算法以及在歧義字段處理階段面臨的挑戰(zhàn)。 (3)提出了歧義消解的改進(jìn)算法。在該算法中,引入了支持度因子作為切分的標(biāo)準(zhǔn),分別對歧義矩陣識別出來的交集型和組合型歧義進(jìn)行消解。對于交集型歧義,根據(jù)歧義字段在文檔中的分布情況,構(gòu)造不同切分方式的支持度因子,,最后通過支持度因子的大小來決定從前或從后切分;對于組合型歧義,同時構(gòu)造從分和從合的支持度因子,根據(jù)支持度因子的大小來確定從合還是從分的切分方式。 (4)設(shè)計實現(xiàn)了一個基于支持度因子的對交集型歧義和組合型歧義進(jìn)行消解的中文分詞系統(tǒng)。該系統(tǒng)由四個模塊組成,即預(yù)處理模塊、初步切分模塊、歧義字段的識別模塊和歧義字段的消解模塊。在詞典的設(shè)計中,采用了多個文本文件,提高了訪問速度。
【關(guān)鍵詞】:中文分詞 歧義消解 交集型歧義 組合型歧義
【學(xué)位授予單位】:青島科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.1
【目錄】:
- 摘要4-5
- ABSTRACT5-8
- 1 緒論8-13
- 1.1 中文分詞歧義消解的研究背景及意義8-9
- 1.2 中文分詞歧義消解技術(shù)的研究現(xiàn)狀9-11
- 1.2.1 國際現(xiàn)狀研究9
- 1.2.2 國內(nèi)現(xiàn)狀研究9-11
- 1.3 論文的研究內(nèi)容及論文結(jié)構(gòu)11
- 1.4 本章小結(jié)11-13
- 2 中文分詞歧義消解相關(guān)技術(shù)13-21
- 2.1 歧義產(chǎn)生的原因13-14
- 2.2 歧義的分類14-16
- 2.2.1 交集型歧義14-15
- 2.2.2 組合型歧義15
- 2.2.3 真歧義15-16
- 2.3 中文分詞歧義消解算法的介紹16-19
- 2.3.1 基于統(tǒng)計的歧義消解算法16-18
- 2.3.2 基于規(guī)則的歧義消解算法18-19
- 2.4 歧義消解的困難19
- 2.5 本章小結(jié)19-21
- 3 基于支持度因子的交集型歧義和組合型歧義的消解策略21-36
- 3.1 基于歧義矩陣的歧義字段識別機(jī)制21-30
- 3.1.1 現(xiàn)有的識別歧義字段的方法22-27
- 3.1.2 基于歧義矩陣的歧義字段識別機(jī)制27-30
- 3.2 基于支持度因子的歧義消解算法30-35
- 3.2.1 基本定義30-32
- 3.2.2 改進(jìn)的基于支持度因子的交集型歧義消解32-33
- 3.2.3 改進(jìn)的基于支持度因子的組合型歧義消解33-35
- 3.3 本章小結(jié)35-36
- 4 基于支持度因子的交集型和組合型歧義消解算法的中文分詞系統(tǒng)的設(shè)計及實現(xiàn)36-48
- 4.1 詞典的設(shè)計36-37
- 4.2 字符串的初始化37-39
- 4.2.1 過濾標(biāo)點符號37-38
- 4.2.2 過濾英文字符與數(shù)字38-39
- 4.3 系統(tǒng)的設(shè)計39-42
- 4.4 算法的實現(xiàn)42-46
- 4.4.1 基于規(guī)則的歧義消解算法42-44
- 4.4.2 基于統(tǒng)計的歧義消解算法44
- 4.4.3 基于支持度因子的歧義消解算法44-46
- 4.5 運行結(jié)果46-47
- 4.6 本章總結(jié)47-48
- 5 實驗分析與結(jié)論48-54
- 5.1 性能評價指標(biāo)48-49
- 5.2 交集型歧義的結(jié)果分析49-50
- 5.3 組合型歧義的結(jié)果分析50-53
- 5.4 本章小結(jié)53-54
- 結(jié)論54-55
- 參考文獻(xiàn)55-59
- 致謝59-60
- 攻讀碩士期間發(fā)表的學(xué)術(shù)論文60-61
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 方昌健;王有權(quán);;基于規(guī)則和上下文語境的交集型歧義消解算法[J];科協(xié)論壇(下半月);2012年06期
2 孫承杰;王曉龍;林磊;劉遠(yuǎn)超;;一種用于基因名字規(guī)范化的多層歧義消解框架(英文)[J];自動化學(xué)報;2009年02期
3 楊曉峰,李堂秋,洪青陽;基于實例的漢語句法結(jié)構(gòu)分析歧義消解[J];中文信息學(xué)報;2001年03期
4 張燕;萬建成;楊瀟;;基于二元組合文法的歧義消解模型[J];計算機(jī)工程與科學(xué);2008年09期
5 袁鼎榮;李新友;邵延振;;用于中文分詞的組合型歧義消解算法[J];計算機(jī)應(yīng)用與軟件;2011年06期
6 曲維光;吉根林;穗志方;周俊生;;基于語境信息的組合型分詞歧義消解方法[J];計算機(jī)工程;2006年17期
7 尤慧麗;晏立;楊曉東;;中文分詞中組合型切分歧義的消解研究[J];計算機(jī)工程與應(yīng)用;2011年31期
8 張克亮;基于HNC理論的句法結(jié)構(gòu)歧義消解[J];中文信息學(xué)報;2004年06期
9 丁德鑫;曲維光;徐濤;董宇;;基于CRF模型的組合型歧義消解研究[J];南京師范大學(xué)學(xué)報(工程技術(shù)版);2008年04期
10 孫茂松,左正平,黃昌寧;消解中文三字長交集型分詞歧義的算法[J];清華大學(xué)學(xué)報(自然科學(xué)版);1999年05期
中國重要會議論文全文數(shù)據(jù)庫 前7條
1 張雅旭;舒華;張厚粲;周曉林;;漢語句子理解中詞匯歧義消解的時間歷程[A];第八屆全國心理學(xué)學(xué)術(shù)會議文摘選集[C];1997年
2 于澤;趙國祥;;書面韻律邊界與詞匯偏向?qū)ζ缌x句歧義消解的影響[A];心理學(xué)與創(chuàng)新能力提升——第十六屆全國心理學(xué)學(xué)術(shù)會議論文集[C];2013年
3 孫承杰;黃昌寧;關(guān)毅;;基于標(biāo)注語料庫的組合歧義檢測與消解[A];第三屆學(xué)生計算語言學(xué)研討會論文集[C];2006年
4 韓玉昌;任桂琴;;詞匯歧義消解中句子語境作用的眼動研究[A];第十一屆全國心理學(xué)學(xué)術(shù)會議論文摘要集[C];2007年
5 王治敏;俞士汶;;人稱代詞和名詞的歧義消解研究[A];第六屆漢語詞匯語義學(xué)研討會論文集[C];2005年
6 丁德鑫;曲維光;于麗麗;陳小荷;李惠;;基于詞頻和語義信息的組合型歧義消解[A];中國計算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
7 馮志偉;;基于集合運算的德語冠詞歧義消解[A];自然語言理解與機(jī)器翻譯——全國第六屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2001年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前5條
1 任愛琴;漢語歧義句歧義消解的實驗研究[D];遼寧師范大學(xué);2011年
2 于澤;句子語境中動詞歧義詞的歧義消解[D];遼寧師范大學(xué);2008年
3 李茜;語言優(yōu)勢半球?qū)ζ缌x動詞歧義消解的影響[D];陜西師范大學(xué);2011年
4 段立;語境計算在詞語歧義消解中的應(yīng)用[D];華東師范大學(xué);2006年
5 嚴(yán)羽;自然語言理解中并列名詞歧義消解及其在智能儀器設(shè)計領(lǐng)域的應(yīng)用[D];西安電子科技大學(xué);2011年
本文關(guān)鍵詞:中文分詞歧義消解技術(shù)的研究,由筆耕文化傳播整理發(fā)布。
本文編號:358425
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/358425.html