天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于CNN和雙向LSTM的中文分詞與詞性標注一體化模型

發(fā)布時間:2021-04-09 20:15
  中文分詞與詞性標注是中文自然語言處理中兩個最為基礎的部分,其精度與性能對后續(xù)諸多任務都具有至關重要的影響。經(jīng)過幾十年的研究和發(fā)展,中文分詞與詞性標注的解決方法由早期基于詞典與規(guī)則的簡單匹配算法,發(fā)展到基于各種統(tǒng)計機器學習模型的方法,再到近幾年流行的深度學習方法?紤]到先分詞后詞性標注的流水線模型的不足,本文使用基于深度學習的中文分詞與詞性標注一體化模型在一個步驟中同時處理中文分詞與詞性標注兩個任務,主要工作包含如下三個部分:1.基于BiRNN-CRF(bidirectional recurrent neural network-conditional random fields)序列標注模型,完成中文分詞與詞性標注工作。具體而言,基于序列標注的思想,將字向量作為模型的底層輸入;中間層采用帶有長短期記憶單元的循環(huán)神經(jīng)網(wǎng)絡對句子信息進行建模,充分捕捉句子的上下文依賴關系,自動提取有效特征;輸出層則使用條件隨機場對標簽之間的依賴關系進行刻畫,提高標簽預測精度。2.在BiRNN-CRF框架的基礎之上,引入神經(jīng)網(wǎng)絡語言模型作為輔助任務,與中文分詞與詞性標注任務進行聯(lián)合訓練;并進一步引入Highw... 

【文章來源】:上海交通大學上海市 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:81 頁

【學位級別】:碩士

【部分圖文】:

基于CNN和雙向LSTM的中文分詞與詞性標注一體化模型


–1Zheng等人的神經(jīng)網(wǎng)絡框架[14]

框架圖,神經(jīng)網(wǎng)絡,框架


上海交通大學碩士學位論文第一章緒論其模型復雜度較高。圖1–2Cai等人的神經(jīng)網(wǎng)絡框架[20]Figure1–2NeuralNetworkModelArchitectureofCaietal.[20]在基于字序列標注的中文分詞模型之外,Cai等人[20]于2016年提出一種新型的分詞模型,其模型框架如圖1–2所示。他們的模型完全不同于以往的序列標注模型,大體上由打分和解碼兩部分組成。打分部分使用帶門結構的神經(jīng)網(wǎng)絡對候選詞進行打分,判斷詞語的合法性與流暢性,避免了固定滑動窗口大小的限制,能夠更為有效地利用歷史信息;解碼部分負責搜索概率最大的詞語序列,采用的是典型的集束搜索算法,解碼效率能夠得到保證。通過這種由字而詞由詞而句的方式,取得了很好的分詞效果,是在序列標注框架之外一次成功的嘗試。除了上述兩種主要方法之外,基于切分動作匹配和基于轉移的神經(jīng)網(wǎng)絡分詞方法也得到了一定程度的研究和探索,并取得了一定的成果,但整體而言效果不及上述方法,本文便不再贅述。總而言之,基于深度學習的中文分詞方法是近年來中文分詞研究領域的主流方法,取得了許多成功的經(jīng)驗和結果。但是,相比于傳統(tǒng)的分詞方法而言,基于深度學習的分詞方法在分詞精度方面優(yōu)勢并不絕對,同時訓練和預測效率較低,尚存在許多優(yōu)化和提升的空間!5—

框架圖,詞性標注,中文,框架


上海交通大學碩士學位論文第二章中文分詞與詞性標注一體化模型圖2–1中文分詞與詞性標注一體化模型整體框架Figure2–1JointModelArchitecture輸入層之后是隱藏層,此處隱藏層指的是廣義上的中間層,而非一般前饋神經(jīng)網(wǎng)絡中的隱藏層。具體而言,隱藏層使用循環(huán)神經(jīng)網(wǎng)絡對整個句子的上下文信息進行建模。為了既能利用過去的信息(上文)又能利用將來的信息(下文),本文采用雙向循環(huán)神經(jīng)網(wǎng)絡;同時為了避免梯度消失與梯度爆炸所帶來的訓練問題,本文采用基于長短期基于單元的循環(huán)神經(jīng)網(wǎng)絡。此外,為了充分利用原始語料中所包含的語法和語義信息,本文創(chuàng)新性引入神經(jīng)網(wǎng)絡語言模型作為輔助任務與主任務進行聯(lián)合訓練;同時為了調(diào)和語言模型與序列標注問題之間的差異性,引入HighwayNetwork[41]進行進一步的非線性變換。關于語言模型聯(lián)合訓練的問題將在本章第四節(jié)進行敘述。隱藏層之后是輸出層,輸出層為句子中每一個字預測一個標簽。為了對標簽之間的依賴關系進行顯式的建模,本文在輸出層使用了經(jīng)典的條件隨機場,并使用維特比算法進行輸出標簽的預測,其具體細節(jié)見本章第五節(jié)。2.2標簽策略表2–1早期中文分詞標簽集示例Table2–1ExamplesofChineseWordSegmentationTagset四元標簽集三元標簽集二元標簽集標簽說明標簽說明標簽說明B(LL)開頭B開頭開頭StartM(MM)中間I中間或結尾E(RR)結尾非開頭NoStartS(LR)單字詞O單字詞概括而言,中文分詞與詞性標注所需要的標注標簽是中文分詞標簽與詞性標注標簽的笛卡爾積!10—

【參考文獻】:
期刊論文
[1]論漢語字詞的語用頻率及其分布規(guī)律[J]. 龔嘉鎮(zhèn).  中國文字研究. 2017(02)
[2]基于CNN和LSTM混合模型的中文詞性標注[J]. 謝逸,饒文碧,段鵬飛,陳振東.  武漢大學學報(理學版). 2017(03)
[3]基于SVMTool的中文詞性標注[J]. 王麗杰,車萬翔,劉挺.  中文信息學報. 2009(04)
[4]一種基于規(guī)則優(yōu)先級的詞性標注方法[J]. 王廣正,王喜鳳.  安徽工業(yè)大學學報(自然科學版). 2008(04)
[5]一種用于詞性標注的相關投票融合策略[J]. 郭永輝,吳保民,王炳錫.  中文信息學報. 2007(02)
[6]基于條件隨機場(CRFs)的中文詞性標注方法[J]. 洪銘材,張闊,唐杰,李涓子.  計算機科學. 2006(10)
[7]基于完全二階隱馬爾可夫模型的漢語詞性標注[J]. 梁以敏,黃德根.  計算機工程. 2005(10)
[8]北京大學現(xiàn)代漢語語料庫基本加工規(guī)范[J]. 俞士汶,段慧明,朱學鋒,孫斌.  中文信息學報. 2002(05)
[9]現(xiàn)代漢語語法信息詞典規(guī)格說明書[J]. 俞士汶,朱學鋒,王惠,張蕓蕓.  中文信息學報. 1996(02)
[10]齊夫定律的理論基礎及其實踐意義[J]. 張忠友.  情報科學. 1989(05)



本文編號:3128248

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3128248.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶431ca***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com