基于規(guī)則和統(tǒng)計的哈薩克語詞法分析和短語識別方法研究
本文關鍵詞:基于規(guī)則和統(tǒng)計的哈薩克語詞法分析和短語識別方法研究 出處:《哈爾濱工業(yè)大學》2017年博士論文 論文類型:學位論文
更多相關文章: 哈薩克語 語料庫 詞法分析 形態(tài)分析 詞性標注 基本短語識別
【摘要】:自然語言處理已經(jīng)成為世界各國和各民族信息技術發(fā)展過程中至關重要的研究課題之一,伴隨著如今大數(shù)據(jù)時代的到來,更加體現(xiàn)了它的學科優(yōu)勢性,成為了每一個民族信息處理的核心問題之一;詞法分析和短語識別是自然語言處理的基礎研究,其研究成果的優(yōu)劣直接反映在后續(xù)語義理解研究及它們相應的應用系統(tǒng);由于哈薩克語語料資源稀缺且詞形態(tài)的多樣性,詞法分析和短語識別處理中存在的問題至今沒有完全地解決,仍然存在諸多方面嚴峻挑戰(zhàn)。如何有效地進行哈薩克語的詞法分析和短語識別處理研究成為了哈薩克語自然語言處理中迫切需要解決的核心問題。本文重點研究哈薩克語詞法分析和基本短語識別關鍵性的基礎問題,通過分析詞形態(tài)和短語結構,構建適合哈薩克語計算語言學的語言規(guī)則,再利用語言規(guī)則和統(tǒng)計方法構建語料庫;進而研究詞信息統(tǒng)計和形態(tài)分析、詞性標注和基本短語識別方法,從而實現(xiàn)哈語語言學從傳統(tǒng)的“定性研究”轉入“定量研究”;不僅為進一步哈語的信息處理提供了方法和技術支撐,而且對哈語語言學研究提供了可靠的語料庫數(shù)據(jù)和資源平臺,同時其研究成果可應用于國內(nèi)外哈語的機器翻譯、語音識別、信息檢索等的許多應用開發(fā)領域。特別哈語作為跨境語言,對“一帶一路”的戰(zhàn)略具有重要研究意義和實際應用價值。哈薩克語(簡稱:哈語)在語言譜系上屬于阿爾泰語系突厥語族,以其黏著語特性,可以通過在詞根或詞干前后粘連附加成分的形式來表示其語法意義。本學位論文針對中國境內(nèi)阿拉伯字符的哈薩克文文字,據(jù)其獨特的語言特性,研究依據(jù)規(guī)則和統(tǒng)計技術去解決哈薩克語詞法分析和基本短語識別的難題。從以下幾個方面來完成研究工作:第一,為了解決哈語資源稀缺問題,本文首先規(guī)范化語料庫的編碼方式和存儲格式,提出了規(guī)范化語料的加工內(nèi)容,構建了語料庫;針對詞頻問題,提出了基于語料庫的詞信息分析與統(tǒng)計方法,揭示了哈語詞信息的一些語言現(xiàn)象和詞信息相互間的語言規(guī)律,完成了基于語料庫的詞信息統(tǒng)計與分析。第二,為了解決哈薩克語詞法分析中形態(tài)分析問題,本文深入剖析了包括詞形態(tài)分析、詞附加成分的切分與還原、詞形態(tài)的歧義分析等的哈語語言特性;針對詞形態(tài)結構,提出了基于哈語規(guī)律的詞法形態(tài)模型;最后針對詞干提取,提出了基于語言規(guī)律的詞干提取算法,提出了“全切分+哈語語言規(guī)律和語言形態(tài)模型+最大匹配算法”的實現(xiàn)方法,實現(xiàn)了詞的形態(tài)分析。第三,為了解決哈薩克語詞法分析中的詞性標注問題,提出了哈語詞的標注內(nèi)容為:詞干、詞性、附加成分的規(guī)范化設計。首先研究了將詞、詞性和附加成分為特征的適合哈語詞性標注的統(tǒng)計模型方法,然后融入到兩個統(tǒng)計模型處理哈語詞性標注問題,提出了基于最大熵模型的基本詞和基于條件隨機場模型的兼類詞和未登錄詞的哈語詞性標注實現(xiàn)方法,實現(xiàn)了哈語詞性標注研究。隨后進一步引入哈語詞干粘連不同詞性屬性詞綴的特性,進行基于形態(tài)分析的詞性標注,提出統(tǒng)計模型和哈薩克語語言規(guī)律相結合的詞性標注方案,并獲得了較理想的實驗結果。第四,為了解決哈薩克語淺層句法分析中基本短語識別問題,首先通過哈語基本短語結構和歧義分析探討,確定了名詞性等幾個主要基本短語組成規(guī)則;然后進行了基于哈語語言規(guī)律的基本短語識別研究;借鑒統(tǒng)計模型,提出了基于最大熵模型和條件隨機場模型的基本短語識別的方法策略,并構建了短語庫?傊,本文依據(jù)哈薩克語語言規(guī)則和統(tǒng)計信息處理的方法,借助統(tǒng)計語言模型和概率圖模型方法,針對哈薩克語的詞法分析和基本短語識別存在的問題,在語料庫和短語庫構建、詞形態(tài)分析、詞頻統(tǒng)計、詞性標注、基本短語識別的各個方面系統(tǒng)地進行了研究,構建了哈語的語料資源平臺,提出了相應的適合哈語自然語言信息處理的解決方法,為后續(xù)哈語的句法分析和語義分析等研究打下基礎。
【學位授予單位】:哈爾濱工業(yè)大學
【學位級別】:博士
【學位授予年份】:2017
【分類號】:TP391.1
【參考文獻】
相關期刊論文 前10條
1 馬建軍;裴家歡;黃德根;;CRFs融合語義信息的英語功能名詞短語識別[J];中文信息學報;2016年06期
2 潘華山;嚴馨;周楓;余正濤;郭劍毅;;基于層疊條件隨機場的高棉語分詞及詞性標注方法[J];中文信息學報;2016年04期
3 張海波;蔡洽吾;姜文斌;呂雅娟;劉群;;基于聯(lián)合音變還原和形態(tài)切分的形態(tài)分析方法[J];中文信息學報;2014年06期
4 王海波;祖漪清;力提甫·托乎提;;基于功能詞綴串的維吾爾語詞性標注方法[J];中文信息學報;2013年05期
5 李業(yè)剛;黃河燕;;漢語組塊分析研究綜述[J];中文信息學報;2013年03期
6 麥熱哈巴·艾力;姜文斌;王志洋;吐爾根·依布拉音;劉群;;維吾爾語詞法分析的有向圖模型[J];軟件學報;2012年12期
7 吐爾根·依布拉音;袁保社;;新疆少數(shù)民族語言文字信息處理研究與應用[J];中文信息學報;2011年06期
8 扎西加;珠杰;;面向信息處理的藏文分詞規(guī)范研究[J];中文信息學報;2009年04期
9 黃德根;于靜;;分布式策略與CRFs相結合識別漢語組塊[J];中文信息學報;2009年01期
10 周強;;漢語基本塊規(guī)則的自動學習和擴展進化[J];清華大學學報(自然科學版);2008年01期
,本文編號:1332523
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1332523.html