中文文本分詞研究
本文關(guān)鍵詞:中文文本分詞研究,由筆耕文化傳播整理發(fā)布。
【摘要】: 中文文本分詞問題是中文信息處理的一個重要問題,這個問題解決的好壞將直接影響中文信息處理的發(fā)展前景。目前學術(shù)界主要采用計算機自動分詞解決中文文本分詞,但是這種方法不能完全解決分詞問題,這是因為計算機自動分詞不能徹底地解決歧義字段的切分。那么,,歧義字段倒底有多少,有哪些表現(xiàn)形式,形成的原因又是什么。為了對這個問題有一個充分的認識,我們對計算機的自動分詞中的歧義字段做了定量分析,研究了歧義字段的分類和形成原因。 論文分為六個部分: 一、研究背景及問題的提出 中文文本分詞在中文信息處理中有重要的作用,中文信息處理必須解決中文文本分詞問題。 二、研究現(xiàn)狀及存在的問題 目前中文信息處理中利用計算機自動分詞解決中文文本分詞,雖然取得了一定的成果,但是計算機自動分詞存在一個重要的問題就是不能徹底解決歧義字段切分。 三、研究內(nèi)容和思路 為了全面認識歧義字段的切分問題,我們采用受限語言的研究方法,以《信息交換用漢字編碼字符集——基本集》中的3,755個一級字為研究對象,以《信息處理用現(xiàn)代漢語常用詞詞表》為參考,以典范的現(xiàn)代白話文著作為語法規(guī)范,統(tǒng)計分析出歧義字段的數(shù)量、表現(xiàn) 形式及形成原因。 四、計算機自動分詞中歧義字段的研究 在本部分,利用計算機程序設(shè)計,統(tǒng)計分析出《信息交換用漢字 編碼字符集一基本集》中的3,755個一級字的構(gòu)詞現(xiàn)狀和歧義字段 的數(shù)量。對歧義字段的表現(xiàn)形式從構(gòu)成形式和語法關(guān)系上做了分類研 究,并研究了歧義字段的形成原因。 五、中文文本分詞解決方法的展望 通過以上的分析研究,我們可以看到,利用計算機自動分詞是不 可能完全解決歧義字段的切分問題的。解決分詞問題只能另辟溪徑, 可以從漢字文本分詞連寫和按照漢語拼音正詞法書寫中文文本這兩 個角度著手研究分詞問題。
【關(guān)鍵詞】:中文信息處理 中文文本分詞 自動分詞 歧義字段
【學位授予單位】:山東師范大學
【學位級別】:碩士
【學位授予年份】:2003
【分類號】:H085
【目錄】:
- 中文摘要3-5
- 英文摘要5-8
- 引言8-9
- 一、 研究背景及問題的提出9-11
- 二、 研究現(xiàn)狀及存在的問題11-13
- 2.1 計算機自動分詞解決中文文本分詞問題11
- 2.2 計算機自動分詞不能徹底解決歧義字段切分11-13
- 三、 研究內(nèi)容和基本思路13-16
- 四、 計算機自動分詞中歧義字段的研究16-29
- 4.1 定量研究16-18
- 4.2 分類研究18-26
- 4.3 形成原因26-28
- 4.4 問題討論28-29
- 五、 中文文本分詞解決方法的展望29-32
- 5.1 漢字文本分詞連寫解決中文文本分詞問題29-31
- 5.2 按照漢語拼音正詞法書寫解決中文文本分詞問題31-32
- 六、 結(jié)語32-33
- 七、 注釋33-35
- 八、 參考文獻35-39
- 后記39
【引證文獻】
中國期刊全文數(shù)據(jù)庫 前3條
1 唐明偉;卞藝杰;陶飛飛;;基于語義向量空間模型的文檔檢索系統(tǒng)研究[J];情報雜志;2010年05期
2 王開揚;;漢語的自動理解與漢語文本的改進[J];術(shù)語標準化與信息技術(shù);2006年04期
3 劉忠寶;趙文娟;;個性化搜索引擎中用戶興趣模型的構(gòu)建方法[J];計算機系統(tǒng)應(yīng)用;2012年11期
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 劉海濤;基于自然語言理解的中文搜索引擎[D];河北科技大學;2011年
2 彭黎文;用戶可配置的搜索引擎的設(shè)計與實現(xiàn)[D];電子科技大學;2011年
3 何世林;基于Java技術(shù)的搜索引擎研究與實現(xiàn)[D];西南交通大學;2006年
4 賀勝;面向現(xiàn)代漢語文本處理的全文檢索、自動分詞通用系統(tǒng)[D];南京師范大學;2006年
5 廖繼東;基于DotLucene網(wǎng)站全文搜索系統(tǒng)的實現(xiàn)[D];鄭州大學;2007年
6 劉忠寶;個性化搜索引擎的研究與實現(xiàn)[D];北京工商大學;2007年
7 尹輝;基于Nutch的搜索系統(tǒng)的研究[D];電子科技大學;2008年
8 李華亮;個性化搜索引擎中興趣學習方法的研究[D];暨南大學;2008年
9 姜雪;分詞連寫漢字文本對日韓留學生學習效率影響的量化研究[D];遼寧師范大學;2008年
10 許榮榮;中文文本自動分詞技術(shù)與算法研究[D];鄭州大學;2010年
本文關(guān)鍵詞:中文文本分詞研究,由筆耕文化傳播整理發(fā)布。
本文編號:398511
本文鏈接:http://sikaile.net/wenyilunwen/yuyanxuelw/398511.html