基于Python的彝文詞典分詞技術(shù)研究
發(fā)布時(shí)間:2025-03-20 06:45
在英文的行文中,單詞之間以空格作為自然分界符,英文可以直觀的看出單詞分界。而彝文只是句和段可以通過(guò)明顯的標(biāo)點(diǎn)符號(hào)來(lái)簡(jiǎn)單劃界,詞卻沒(méi)有一個(gè)形式上的分界符,雖然英文也同樣存在短語(yǔ)的劃分問(wèn)題,在詞這一層上,彝文比英文要復(fù)雜得多。彝文分詞是把彝語(yǔ)中的詞用明顯的符號(hào)分隔開(kāi),即將連續(xù)的彝文序列按照一定的規(guī)范重新組合成詞序列的過(guò)程,即使用明顯的符號(hào)將詞語(yǔ)分隔,使詞與詞之間有明顯的界限。彝文機(jī)器翻譯、篇章理解、自動(dòng)摘要、文本校對(duì)、自動(dòng)標(biāo)注等語(yǔ)言處理應(yīng)用離不開(kāi)分詞。例如將彝語(yǔ)翻譯成其它語(yǔ)言,首先得提取彝語(yǔ)中的所有詞匯,然后再對(duì)提取的彝語(yǔ)詞匯一一對(duì)應(yīng)成所要翻譯的語(yǔ)言詞匯,再按照對(duì)應(yīng)的語(yǔ)法重組,即可得到翻譯的結(jié)果。除了機(jī)器翻譯以外,語(yǔ)言處理其它的基礎(chǔ)建設(shè)同樣離不開(kāi)分詞。因此,在使用計(jì)算機(jī)處理彝語(yǔ)之前,首先得解決分詞問(wèn)題。此彝文分詞研究根據(jù)彝語(yǔ)的特性及語(yǔ)法特征,從基礎(chǔ)的彝文字符編碼、文本、分詞標(biāo)準(zhǔn)規(guī)范、詞典等為基礎(chǔ)。在參考借鑒主流的最大正向、最大逆向和最大雙向三種語(yǔ)言分詞技術(shù)后,在Python環(huán)境下實(shí)現(xiàn)目前比較完整的機(jī)械分詞機(jī)制與構(gòu)架。文本首先結(jié)合彝語(yǔ)的語(yǔ)言特點(diǎn),將特殊結(jié)構(gòu)“否定詞”納入分詞詞典,同時(shí)也制定了一...
【文章頁(yè)數(shù)】:182 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
中文摘要
ABSTRACT
摘要
緒論
第1章 彝文分詞概述
1.1 彝文分詞的基本問(wèn)題
1.1.1 彝文字符編碼
1.1.2 彝語(yǔ)文本
1.2 彝文分詞難點(diǎn)
1.2.1 彝文分詞標(biāo)準(zhǔn)
1.2.2 彝文分詞規(guī)范和分詞詞典
1.2.3 彝語(yǔ)分詞中的消歧
1.2.4 彝語(yǔ)未登陸詞
1.3 本章小結(jié)
第2章 彝文基本分詞原理
2.1 基于字符串匹配的分詞方法
2.1.1 最大匹配法(Maximum Match Method)
2.1.2 最小匹配法(Minimum Match Method)
2.1.3 雙向匹配法(Bi-directional Match Method)
2.2 基于統(tǒng)計(jì)的分詞方法
2.3 基于理解的分詞方法
2.4 分詞方法比較
2.5 本章小結(jié)
第3章 PYTHON環(huán)境下彝文分詞實(shí)現(xiàn)原理
3.1 機(jī)械分詞的實(shí)現(xiàn)
3.1.1 分詞詞典的建立
3.1.2 Python環(huán)境下的彝文編碼
3.2 基于最大匹配法的彝文機(jī)械分詞分實(shí)踐
3.2.1 彝文最大正向匹配的實(shí)際操作
3.2.2 最大逆向匹配的實(shí)際操作
3.2.3 最大雙向匹配的實(shí)際操作
3.3 本章小結(jié)
第4章 實(shí)驗(yàn)結(jié)果及分析
4.1 實(shí)驗(yàn)環(huán)境及測(cè)評(píng)指標(biāo)
4.1.1 實(shí)驗(yàn)環(huán)境與資源
4.1.2 測(cè)評(píng)指標(biāo)
4.2 實(shí)驗(yàn)內(nèi)容與結(jié)果分析
4.2.1 實(shí)驗(yàn)內(nèi)容和結(jié)果
4.2.2 結(jié)果分析
4.3 本章小結(jié)
第5章 彝文機(jī)械分詞系統(tǒng)說(shuō)明
5.1 源碼封裝過(guò)程說(shuō)明
5.2 系統(tǒng)安裝與說(shuō)明
5.3 分詞實(shí)例
5.4 本章小結(jié)
結(jié)語(yǔ)及展望
一、彝文機(jī)械分詞總結(jié)
二、對(duì)未來(lái)彝文分詞標(biāo)準(zhǔn)的建議
三、存在的問(wèn)題與未來(lái)的展望
參考文獻(xiàn)
致謝
附錄一 (封閉測(cè)試)
附錄二 (開(kāi)放測(cè)試)
本文編號(hào):4037549
【文章頁(yè)數(shù)】:182 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
中文摘要
ABSTRACT
摘要
緒論
第1章 彝文分詞概述
1.1 彝文分詞的基本問(wèn)題
1.1.1 彝文字符編碼
1.1.2 彝語(yǔ)文本
1.2 彝文分詞難點(diǎn)
1.2.1 彝文分詞標(biāo)準(zhǔn)
1.2.2 彝文分詞規(guī)范和分詞詞典
1.2.3 彝語(yǔ)分詞中的消歧
1.2.4 彝語(yǔ)未登陸詞
1.3 本章小結(jié)
第2章 彝文基本分詞原理
2.1 基于字符串匹配的分詞方法
2.1.1 最大匹配法(Maximum Match Method)
2.1.2 最小匹配法(Minimum Match Method)
2.1.3 雙向匹配法(Bi-directional Match Method)
2.2 基于統(tǒng)計(jì)的分詞方法
2.3 基于理解的分詞方法
2.4 分詞方法比較
2.5 本章小結(jié)
第3章 PYTHON環(huán)境下彝文分詞實(shí)現(xiàn)原理
3.1 機(jī)械分詞的實(shí)現(xiàn)
3.1.1 分詞詞典的建立
3.1.2 Python環(huán)境下的彝文編碼
3.2 基于最大匹配法的彝文機(jī)械分詞分實(shí)踐
3.2.1 彝文最大正向匹配的實(shí)際操作
3.2.2 最大逆向匹配的實(shí)際操作
3.2.3 最大雙向匹配的實(shí)際操作
3.3 本章小結(jié)
第4章 實(shí)驗(yàn)結(jié)果及分析
4.1 實(shí)驗(yàn)環(huán)境及測(cè)評(píng)指標(biāo)
4.1.1 實(shí)驗(yàn)環(huán)境與資源
4.1.2 測(cè)評(píng)指標(biāo)
4.2 實(shí)驗(yàn)內(nèi)容與結(jié)果分析
4.2.1 實(shí)驗(yàn)內(nèi)容和結(jié)果
4.2.2 結(jié)果分析
4.3 本章小結(jié)
第5章 彝文機(jī)械分詞系統(tǒng)說(shuō)明
5.1 源碼封裝過(guò)程說(shuō)明
5.2 系統(tǒng)安裝與說(shuō)明
5.3 分詞實(shí)例
5.4 本章小結(jié)
結(jié)語(yǔ)及展望
一、彝文機(jī)械分詞總結(jié)
二、對(duì)未來(lái)彝文分詞標(biāo)準(zhǔn)的建議
三、存在的問(wèn)題與未來(lái)的展望
參考文獻(xiàn)
致謝
附錄一 (封閉測(cè)試)
附錄二 (開(kāi)放測(cè)試)
本文編號(hào):4037549
本文鏈接:http://sikaile.net/wenyilunwen/yuyanxuelw/4037549.html
上一篇:基于說(shuō)話人視角下善意謊言的語(yǔ)用分析
下一篇:沒(méi)有了
下一篇:沒(méi)有了
最近更新
教材專著