天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 文藝論文 > 語言學(xué)論文 >

現(xiàn)代哈薩克語自動形態(tài)分析及語料庫建設(shè)

發(fā)布時間:2017-09-14 19:38

  本文關(guān)鍵詞:現(xiàn)代哈薩克語自動形態(tài)分析及語料庫建設(shè)


  更多相關(guān)文章: 哈薩克語 語料庫 自動形態(tài)分析 使動態(tài)


【摘要】:哈薩克語隸屬于阿爾泰語系突厥語族,是一種典型的黏著語。國內(nèi)的哈薩克文使用阿拉伯字母拼寫,屬于拼音文字,由24個輔音字母、9個元音字母和一個軟音符號組成。在電子文本中,哈薩克文字編碼采用國際通用Unicode編碼存儲。從結(jié)構(gòu)上講,哈薩克語詞通常包括詞根、詞干(詞根+詞綴)、附加成分(詞綴和詞尾)三部分。哈薩克語是形態(tài)發(fā)達的語言,構(gòu)形詞尾數(shù)量眾多,通常一個詞尾對應(yīng)表達一種語法意義,當(dāng)需要同時表達多種語法意義時,可依次在詞干上綴接多個表達不同語法意義的詞尾。哈薩克語語法結(jié)構(gòu)的嚴整和綴接構(gòu)形詞尾具備規(guī)則性為哈薩克實現(xiàn)形態(tài)分析提供了便利。語料庫與自然語言信息處理有著相輔相成的關(guān)系,大規(guī)模的語料庫需要用統(tǒng)計語言模型的方法處理自然語言的基礎(chǔ)資源。因此,自動形態(tài)分析是大規(guī)模構(gòu)建語料庫的前提,而哈薩克語自動形態(tài)分析主要任務(wù)是實現(xiàn)詞干提取和詞性標(biāo)注。詞干提取就是對給定的單詞,通過自動形態(tài)分析提取出表達該詞匯原始詞匯意義的有效字符串,切分出表達語法意義的各個附加成分。詞干提取和詞性標(biāo)注是黏著語自然語言處理詞法分析的一個重要的環(huán)節(jié),在哈薩克語里,詞干提取遇到的主要問題是詞干提取歧義,未登錄詞和詞干不規(guī)則形變還原。本文所建立的平衡語料庫以規(guī)范性和易獲取性為基本原則,在此基礎(chǔ)上選擇來自人民網(wǎng)的哈薩克語web資源作為語料庫的來源。通過程序自動形態(tài)分析,實現(xiàn)對20.7萬詞web語料的詞干提取和詞性標(biāo)注,并據(jù)此構(gòu)建標(biāo)注語料庫。建立哈薩克語語料庫具有直接的實用價值,為哈薩克語究者提供了語料庫研究方法的可能,同時為語言教學(xué)、詞典編撰及機器翻譯等工作提供便利。
【關(guān)鍵詞】:哈薩克語 語料庫 自動形態(tài)分析 使動態(tài)
【學(xué)位授予單位】:中央民族大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:H236
【目錄】:
  • 摘要3-5
  • ABSTRACT5-11
  • 前言11-19
  • 第一節(jié) 研究目的和意義11-13
  • 一、研究目的11-12
  • 二、研究意義12-13
  • 第二節(jié) 主要研究方法13-14
  • 第三節(jié) 說明14-16
  • 一、內(nèi)容說明14
  • 二、符號使用說明14-16
  • 第四節(jié) 研究動態(tài)16-19
  • 一、國外研究16
  • 二、國內(nèi)研究16-19
  • 第一章 語料庫與自然語言處理19-23
  • 第一節(jié) 語料庫語言學(xué)19-21
  • 一、語料庫的分類19-20
  • 二、語料庫的實用價值20-21
  • 第二節(jié) 自然語言處理21-22
  • 第三節(jié) 語料庫與自然語言處理22-23
  • 第二章 哈薩克語料庫構(gòu)建方案23-25
  • 第一節(jié) 總目標(biāo)23
  • 第二節(jié) 實現(xiàn)步驟及任務(wù)23-24
  • 第三節(jié) 預(yù)期成果24-25
  • 第三章 基礎(chǔ)材料的準備與加工25-31
  • 第一節(jié) 哈薩克語詞干表的構(gòu)建25-26
  • 第二節(jié) 哈薩克語附加成分表的構(gòu)建26-27
  • 一、構(gòu)形詞尾表26
  • 二、構(gòu)詞詞綴表26-27
  • 第三節(jié) 語料的選擇及初步加工27-31
  • 一、語料庫的規(guī)模27-28
  • 二、語料庫的內(nèi)容28-29
  • 三、語料的加工29-31
  • 第四章 哈薩克語自動形態(tài)分析31-36
  • 第一節(jié) 自動形態(tài)分析的理論依據(jù)31-32
  • 第二節(jié) 自動形態(tài)分析的必要性32-33
  • 第三節(jié) 哈薩克語形態(tài)分析的實現(xiàn)范圍33-36
  • 第五章 哈薩克語自動形態(tài)分析系統(tǒng)的建立36-42
  • 第一節(jié) 自動形態(tài)分析系統(tǒng)工作流程36
  • 第二節(jié) 哈薩克語自動形態(tài)分析步驟36-39
  • 一、構(gòu)形詞尾切分和詞干提取36-37
  • 二、詞干提取和詞尾切分總流程37-39
  • 第三節(jié) 人工輔助標(biāo)注39
  • 第四節(jié) 哈薩克語形態(tài)分析系統(tǒng)的實現(xiàn)39-42
  • 一、形態(tài)分析系統(tǒng)主界面40-41
  • 二、哈薩克語數(shù)據(jù)庫41-42
  • 第六章 自動形態(tài)分析的結(jié)果和問題解決42-55
  • 第一節(jié) 自動形態(tài)分析結(jié)果42-44
  • 一、實驗數(shù)據(jù)42
  • 二、實驗結(jié)果42-44
  • 第二節(jié) 實驗中出現(xiàn)的問題44-46
  • 第三節(jié) 自動形態(tài)分析中常見問題的解決方案46-55
  • 一、詞形變化的處理46-47
  • 二、歧義現(xiàn)象的處理47-52
  • 三、未登錄詞的處理52-55
  • 第七章 哈薩克語語料庫的應(yīng)用55-60
  • 第一節(jié) 哈薩克語動詞的使動態(tài)55-56
  • 第二節(jié) 使動態(tài)詞尾的綴接情況56-58
  • 一、使動態(tài)詞尾t的綴接情況56
  • 二、使動態(tài)詞尾DIr56-57
  • 三、使動態(tài)詞尾GIz57
  • 四、使動態(tài)詞尾Ir57
  • 五、多種綴接57-58
  • 第三節(jié) 使動態(tài)詞尾的重疊綴接58-59
  • 一、重疊綴接兩個使動態(tài)詞尾58-59
  • 二、重疊綴接三個使動態(tài)詞尾59
  • 第四節(jié) 使動態(tài)詞尾構(gòu)詞59-60
  • 第八章 結(jié)論和展望60-62
  • 第一節(jié) 研究成果60-61
  • 一、構(gòu)建哈薩克語詞法分析系統(tǒng)60
  • 二、構(gòu)建20萬詞哈薩克語web標(biāo)注語料庫60-61
  • 三、利用語料庫對哈薩克語使動態(tài)進行定量研究61
  • 第二節(jié) 未來展望61-62
  • 參考文獻62-65
  • 附錄65-92
  • 附錄一65-80
  • 一、靜詞65-72
  • 二、動詞72-80
  • 附錄二 哈薩克語形態(tài)分析系統(tǒng)使用說明80-92
  • 一、系統(tǒng)使用說明80-90
  • 二、系統(tǒng)的維護90-92
  • 致謝92-94
  • 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄94

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前4條

1 艾山·吾買爾;吐爾根·依步拉音;早克熱·卡德爾;;基于噪聲信道的維吾爾語央音原音識別模型[J];計算機工程與應(yīng)用;2010年15期

2 古麗拉·阿東別克;達吾勒·阿布都哈依爾;木合亞提·尼亞孜別克;劉曉潔;;現(xiàn)代哈薩克語詞級標(biāo)注語料庫的構(gòu)建研究[J];新疆大學(xué)學(xué)報(自然科學(xué)版);2009年04期

3 達吾勒·阿布都哈依爾;海拉提·克孜爾別克;;基于規(guī)則的哈薩克語詞干提取算法的研究[J];新疆大學(xué)學(xué)報(自然科學(xué)版);2011年02期

4 張定京;;哈薩克語語法結(jié)構(gòu)特點概要(上)[J];語言與翻譯;2010年02期



本文編號:851959

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenyilunwen/yuyanxuelw/851959.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7be1b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com