現(xiàn)代哈薩克語自動形態(tài)分析及語料庫建設(shè)
發(fā)布時間:2017-09-14 19:38
本文關(guān)鍵詞:現(xiàn)代哈薩克語自動形態(tài)分析及語料庫建設(shè)
更多相關(guān)文章: 哈薩克語 語料庫 自動形態(tài)分析 使動態(tài)
【摘要】:哈薩克語隸屬于阿爾泰語系突厥語族,是一種典型的黏著語。國內(nèi)的哈薩克文使用阿拉伯字母拼寫,屬于拼音文字,由24個輔音字母、9個元音字母和一個軟音符號組成。在電子文本中,哈薩克文字編碼采用國際通用Unicode編碼存儲。從結(jié)構(gòu)上講,哈薩克語詞通常包括詞根、詞干(詞根+詞綴)、附加成分(詞綴和詞尾)三部分。哈薩克語是形態(tài)發(fā)達的語言,構(gòu)形詞尾數(shù)量眾多,通常一個詞尾對應(yīng)表達一種語法意義,當(dāng)需要同時表達多種語法意義時,可依次在詞干上綴接多個表達不同語法意義的詞尾。哈薩克語語法結(jié)構(gòu)的嚴整和綴接構(gòu)形詞尾具備規(guī)則性為哈薩克實現(xiàn)形態(tài)分析提供了便利。語料庫與自然語言信息處理有著相輔相成的關(guān)系,大規(guī)模的語料庫需要用統(tǒng)計語言模型的方法處理自然語言的基礎(chǔ)資源。因此,自動形態(tài)分析是大規(guī)模構(gòu)建語料庫的前提,而哈薩克語自動形態(tài)分析主要任務(wù)是實現(xiàn)詞干提取和詞性標(biāo)注。詞干提取就是對給定的單詞,通過自動形態(tài)分析提取出表達該詞匯原始詞匯意義的有效字符串,切分出表達語法意義的各個附加成分。詞干提取和詞性標(biāo)注是黏著語自然語言處理詞法分析的一個重要的環(huán)節(jié),在哈薩克語里,詞干提取遇到的主要問題是詞干提取歧義,未登錄詞和詞干不規(guī)則形變還原。本文所建立的平衡語料庫以規(guī)范性和易獲取性為基本原則,在此基礎(chǔ)上選擇來自人民網(wǎng)的哈薩克語web資源作為語料庫的來源。通過程序自動形態(tài)分析,實現(xiàn)對20.7萬詞web語料的詞干提取和詞性標(biāo)注,并據(jù)此構(gòu)建標(biāo)注語料庫。建立哈薩克語語料庫具有直接的實用價值,為哈薩克語究者提供了語料庫研究方法的可能,同時為語言教學(xué)、詞典編撰及機器翻譯等工作提供便利。
【關(guān)鍵詞】:哈薩克語 語料庫 自動形態(tài)分析 使動態(tài)
【學(xué)位授予單位】:中央民族大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:H236
【目錄】:
- 摘要3-5
- ABSTRACT5-11
- 前言11-19
- 第一節(jié) 研究目的和意義11-13
- 一、研究目的11-12
- 二、研究意義12-13
- 第二節(jié) 主要研究方法13-14
- 第三節(jié) 說明14-16
- 一、內(nèi)容說明14
- 二、符號使用說明14-16
- 第四節(jié) 研究動態(tài)16-19
- 一、國外研究16
- 二、國內(nèi)研究16-19
- 第一章 語料庫與自然語言處理19-23
- 第一節(jié) 語料庫語言學(xué)19-21
- 一、語料庫的分類19-20
- 二、語料庫的實用價值20-21
- 第二節(jié) 自然語言處理21-22
- 第三節(jié) 語料庫與自然語言處理22-23
- 第二章 哈薩克語料庫構(gòu)建方案23-25
- 第一節(jié) 總目標(biāo)23
- 第二節(jié) 實現(xiàn)步驟及任務(wù)23-24
- 第三節(jié) 預(yù)期成果24-25
- 第三章 基礎(chǔ)材料的準備與加工25-31
- 第一節(jié) 哈薩克語詞干表的構(gòu)建25-26
- 第二節(jié) 哈薩克語附加成分表的構(gòu)建26-27
- 一、構(gòu)形詞尾表26
- 二、構(gòu)詞詞綴表26-27
- 第三節(jié) 語料的選擇及初步加工27-31
- 一、語料庫的規(guī)模27-28
- 二、語料庫的內(nèi)容28-29
- 三、語料的加工29-31
- 第四章 哈薩克語自動形態(tài)分析31-36
- 第一節(jié) 自動形態(tài)分析的理論依據(jù)31-32
- 第二節(jié) 自動形態(tài)分析的必要性32-33
- 第三節(jié) 哈薩克語形態(tài)分析的實現(xiàn)范圍33-36
- 第五章 哈薩克語自動形態(tài)分析系統(tǒng)的建立36-42
- 第一節(jié) 自動形態(tài)分析系統(tǒng)工作流程36
- 第二節(jié) 哈薩克語自動形態(tài)分析步驟36-39
- 一、構(gòu)形詞尾切分和詞干提取36-37
- 二、詞干提取和詞尾切分總流程37-39
- 第三節(jié) 人工輔助標(biāo)注39
- 第四節(jié) 哈薩克語形態(tài)分析系統(tǒng)的實現(xiàn)39-42
- 一、形態(tài)分析系統(tǒng)主界面40-41
- 二、哈薩克語數(shù)據(jù)庫41-42
- 第六章 自動形態(tài)分析的結(jié)果和問題解決42-55
- 第一節(jié) 自動形態(tài)分析結(jié)果42-44
- 一、實驗數(shù)據(jù)42
- 二、實驗結(jié)果42-44
- 第二節(jié) 實驗中出現(xiàn)的問題44-46
- 第三節(jié) 自動形態(tài)分析中常見問題的解決方案46-55
- 一、詞形變化的處理46-47
- 二、歧義現(xiàn)象的處理47-52
- 三、未登錄詞的處理52-55
- 第七章 哈薩克語語料庫的應(yīng)用55-60
- 第一節(jié) 哈薩克語動詞的使動態(tài)55-56
- 第二節(jié) 使動態(tài)詞尾的綴接情況56-58
- 一、使動態(tài)詞尾t的綴接情況56
- 二、使動態(tài)詞尾DIr56-57
- 三、使動態(tài)詞尾GIz57
- 四、使動態(tài)詞尾Ir57
- 五、多種綴接57-58
- 第三節(jié) 使動態(tài)詞尾的重疊綴接58-59
- 一、重疊綴接兩個使動態(tài)詞尾58-59
- 二、重疊綴接三個使動態(tài)詞尾59
- 第四節(jié) 使動態(tài)詞尾構(gòu)詞59-60
- 第八章 結(jié)論和展望60-62
- 第一節(jié) 研究成果60-61
- 一、構(gòu)建哈薩克語詞法分析系統(tǒng)60
- 二、構(gòu)建20萬詞哈薩克語web標(biāo)注語料庫60-61
- 三、利用語料庫對哈薩克語使動態(tài)進行定量研究61
- 第二節(jié) 未來展望61-62
- 參考文獻62-65
- 附錄65-92
- 附錄一65-80
- 一、靜詞65-72
- 二、動詞72-80
- 附錄二 哈薩克語形態(tài)分析系統(tǒng)使用說明80-92
- 一、系統(tǒng)使用說明80-90
- 二、系統(tǒng)的維護90-92
- 致謝92-94
- 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄94
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前4條
1 艾山·吾買爾;吐爾根·依步拉音;早克熱·卡德爾;;基于噪聲信道的維吾爾語央音原音識別模型[J];計算機工程與應(yīng)用;2010年15期
2 古麗拉·阿東別克;達吾勒·阿布都哈依爾;木合亞提·尼亞孜別克;劉曉潔;;現(xiàn)代哈薩克語詞級標(biāo)注語料庫的構(gòu)建研究[J];新疆大學(xué)學(xué)報(自然科學(xué)版);2009年04期
3 達吾勒·阿布都哈依爾;海拉提·克孜爾別克;;基于規(guī)則的哈薩克語詞干提取算法的研究[J];新疆大學(xué)學(xué)報(自然科學(xué)版);2011年02期
4 張定京;;哈薩克語語法結(jié)構(gòu)特點概要(上)[J];語言與翻譯;2010年02期
,本文編號:851959
本文鏈接:http://sikaile.net/wenyilunwen/yuyanxuelw/851959.html
最近更新
教材專著