基于轉換表及上下文環(huán)境的漢語簡繁文本雙向翻譯
發(fā)布時間:2017-09-17 06:53
本文關鍵詞:基于轉換表及上下文環(huán)境的漢語簡繁文本雙向翻譯
更多相關文章: 簡繁轉換 簡繁一對多轉換 組合模型 SVM 最大熵 GIS ADMMR 特征選擇
【摘要】:當前國際上使用的漢字包括簡體字和繁體字兩種形式,大陸和新加坡使用簡體字,臺灣、香港、澳門和部分海外華人使用繁體字。隨著華人圈的交流日漸頻繁,這種漢字的差異給交流帶來了不少障礙,F(xiàn)有的簡繁轉換技術在處理簡繁一對多轉換方面效果不好,為了解決這一問題,作者提出了基于轉換表和上下文的漢語簡繁文本雙向翻譯方法。作者之前的研究工作在簡繁評測中取得了95.6%的轉換準確率,在此基礎上將更深入研究一對多簡體字轉繁體字的轉換消歧問題。一對多問題可以看成是一個分類問題,本文提出在簡繁轉換的一對多問題上使用規(guī)則加組合統(tǒng)計模型來解決,所組合的統(tǒng)計模型為SVM(支持向量機)、最大熵模型和貝葉斯模型。為了優(yōu)化分類效果,作者提出了一種新的文本特征選擇方法ADMMR,該方法的特征選擇效果和期望交叉熵,卡方檢驗這兩種特征選擇方法相當,且經實驗表明能夠很好地表示文本,在使用同樣分類模型的前提下ADMMR比信息增益方法的分類性能要好4%以上;同時提出最大熵模型的特征值使用tf-idf,而不使用0-1值,經過實驗表明特征值使用tf-idf可以比使用0-1值的分類性能好2%;作者提出使用ADMMR、期望交叉熵和卡方檢驗作為文本的特征選擇方法,使用tf-idf來量化每一個特征,再用SVM和最大熵模型學習訓練數(shù)據(jù),這樣將得到六個分類模型,再使用貝葉斯模型學習訓練數(shù)據(jù)得到第七個分類模型;前六個模型進行投票選擇,獲得票數(shù)最多的那個類別作為分類結果,如果得票最多的類有2個或2個以上則使用貝葉斯模型輔助判別。實驗結果表明組合模型比單獨使用SVM、最大熵模型或貝葉斯模型的分類效果都要好,且更穩(wěn)定。簡繁轉換問題則采用規(guī)則加組合模型的方法:規(guī)則是根據(jù)詞庫來將一對多簡體字根據(jù)詞組轉換到對應的繁體字;而對于不能成詞的3%一對多簡體字則采用組合模型;實驗表明規(guī)則加組合模型的方法能夠達到98.5%的準確率,較好地解決了簡繁轉換中的一對多轉換問題。
【關鍵詞】:簡繁轉換 簡繁一對多轉換 組合模型 SVM 最大熵 GIS ADMMR 特征選擇
【學位授予單位】:上海交通大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.2
【目錄】:
- 摘要3-5
- ABSTRACT5-11
- 第一章 緒論11-14
- 1.1 研究背景11
- 1.2 研究目的11-12
- 1.3 研究內容12
- 1.4 研究成果12-13
- 1.5 本文結構13-14
- 第二章 相關研究14-26
- 2.1 研究背景14-17
- 2.1.1 建國后的漢字簡化14-16
- 2.1.2 漢字簡化所引起的問題16-17
- 2.2 簡繁轉換問題17-21
- 2.2.1 一對多簡繁關系17-19
- 2.2.2 兩岸術語詞的差異19-21
- 2.3 相關研究21-25
- 2.4 本章小結25-26
- 第三章 簡繁轉換流程及模型26-41
- 3.1 簡繁漢字轉換流程26-27
- 3.2 簡繁漢字轉換模型27-32
- 3.2.1 一對多簡繁分類組合模型28-29
- 3.2.2 文本分詞算法29-31
- 3.2.3 文本分類算法31-32
- 3.3 分類模型32-40
- 3.3.1 SVM分類模型32-36
- 3.3.2 最大熵分類模型36-39
- 3.3.3Bayes分類模型39-40
- 3.3.4 tf-idf40
- 3.4 本章小結40-41
- 第四章 特征選擇算法41-47
- 4.1 信息增益法(Information Gain)41-42
- 4.2 期望交叉熵(Expected Cross Entropy)42
- 4.3 互信息(Mutual Information)42-43
- 4.4 χ~2檢驗法43-45
- 4.5 文本證據(jù)權(The Weight of Evidence for Text)45-46
- 4.6 ADMMR優(yōu)勢值 (Absolute Difference of Max-Min Ratios)46
- 4.7 本章小結46-47
- 第五章 數(shù)據(jù)準備47-52
- 5.1 機器學習平行語料抽取47-50
- 5.1.1 維基百科簡介47-49
- 5.1.2 Http Client與Html Parser49
- 5.1.3 字詞上下文抽取49-50
- 5.2 簡繁詞庫數(shù)據(jù)抽取50-51
- 5.2.1 MDict及《臺pcW姙彮典》介紹50-51
- 5.2.2 詞典數(shù)據(jù)提取51
- 5.3 本章小結51-52
- 第六章 實驗結果52-61
- 6.1 ADMMR特征選擇實驗52-54
- 6.2 最大熵模型之tf-idf54-55
- 6.3 SVM、Max Ent以及Bayes組合模型55-58
- 6.4 規(guī)則加組合統(tǒng)計模型實驗58-60
- 6.5 本章小結60-61
- 第七章 總結61-62
- 參考文獻62-64
- 致謝64-65
- 附錄A 攻讀學位期間所發(fā)表的學術論文目錄65-67
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前9條
1 龐禎軍;姚天f ;;基于對照表以及語義相關性之簡繁漢字轉換[J];計算機工程與應用;2015年04期
2 王立軍;王曉明;吳健;;簡繁對應關系與簡繁轉換[J];中文信息學報;2013年04期
3 湯吟菲;;《簡化字總表》繁簡字對應關系的注釋說明[J];鄖陽師范高等?茖W校學報;2010年04期
4 鄭國政;;基于現(xiàn)有軟件進行中文簡繁體轉換的方法[J];電腦知識與技術(學術交流);2007年07期
5 王思力;張華平;王斌;;雙數(shù)組Trie樹算法優(yōu)化及其應用研究[J];中文信息學報;2006年05期
6 傅永和;;漢字簡化五十年回顧[J];中國語文;2005年06期
7 蘇培成;“發(fā)”字的尷尬[J];語文建設;2001年12期
8 辛春生,孫玉芳;簡繁漢字轉換系統(tǒng)的設計與實現(xiàn)[J];軟件學報;2000年11期
9 辛春生,孫玉芳;漢語簡繁體轉換與語詞切分[J];小型微型計算機系統(tǒng);2000年09期
,本文編號:867909
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/867909.html
最近更新
教材專著