天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于LSTM的藏文詞拼寫檢查技術(shù)研究

發(fā)布時(shí)間:2021-10-25 03:22
  文本的自動(dòng)校對(duì)是自然語言處理的基礎(chǔ)工作之一,旨在用計(jì)算機(jī)對(duì)文本中存在的錯(cuò)誤進(jìn)行分析和改正的工作,目的是讓計(jì)算機(jī)能夠自動(dòng)的將有錯(cuò)誤的文本恢復(fù)為正確文本。拼寫檢查是利用計(jì)算機(jī)快速的檢測文本中的錯(cuò)誤,能夠提高文本校對(duì)的效率,是文本校對(duì)中采用的一種首選技術(shù)。英、漢文本的拼寫檢查技術(shù)已取得了豐碩的成果,并廣泛地應(yīng)用于各種字處理軟件。與英、漢文本的拼寫檢查技術(shù)相比,藏文文本的拼寫檢查技術(shù)還處于起步階段,其研究在藏語語料庫建設(shè)、語音識(shí)別、文字識(shí)別等諸多方面具有廣泛的應(yīng)用價(jià)值。本文借鑒英、漢文本的拼寫檢查技術(shù),通過分析藏文文本中的錯(cuò)誤類型和藏文拼寫檢查研究現(xiàn)狀,提出了基于TCLSTM(Tibetan Characters LSTM,TCLSTM)語言模型的藏文詞拼寫檢查方法。主要內(nèi)容包括:(1)建立了實(shí)驗(yàn)語料藏語目前沒有統(tǒng)一的語言模型訓(xùn)練和測試實(shí)驗(yàn)語料,因此我們利用爬蟲技術(shù)從藏文網(wǎng)站中獲取了大小為186MB,包含15147315個(gè)音節(jié)的藏文文本語料,并對(duì)其進(jìn)行了預(yù)處理,得到了較高質(zhì)量的實(shí)驗(yàn)語料。(2)構(gòu)建TCLSTM語言模型藏文是字的序... 

【文章來源】:青海師范大學(xué)青海省

【文章頁數(shù)】:52 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于LSTM的藏文詞拼寫檢查技術(shù)研究


循環(huán)神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)圖

結(jié)構(gòu)圖,結(jié)構(gòu)圖,激活函數(shù),隱藏層


士學(xué)位論文10層到輸出層的權(quán)重,每個(gè)時(shí)刻、V和W都是相等的(權(quán)重共享)。隱藏層的狀態(tài)通過非線性變換得到模型最終輸出(預(yù)測值){11+1},其維度根據(jù)任務(wù)不同而不同,比如對(duì)于一個(gè)二分類任務(wù)來說其維度就等于2。每個(gè)時(shí)刻的標(biāo)簽(目標(biāo)值)向量為{11+1},一般用one-hot向量表示,其維度與{11+1}相同。{11+1}是每個(gè)時(shí)刻的預(yù)測值{11+1}和目標(biāo)值之間的誤差函數(shù),來衡量預(yù)測值和目標(biāo)值之間的誤差,模型訓(xùn)練是要最小化兩者之間的誤差。循環(huán)神經(jīng)網(wǎng)絡(luò)每個(gè)時(shí)刻隱藏層內(nèi)部的計(jì)算流程如圖2-4所示:圖2-4標(biāo)準(zhǔn)RNN內(nèi)部結(jié)構(gòu)圖其對(duì)應(yīng)的數(shù)學(xué)公式如下:=(+1+)=(+)(2-1)(2-2)其中和為激活函數(shù),從圖中可以看到一般采用的是tanh激活函數(shù)。g根據(jù)任務(wù)的不同選取的激活函數(shù)也不同,對(duì)于二分類的任務(wù)來說可以選取sigmod激活函數(shù),因其值在0和1之間,可設(shè)置一個(gè)閾值,如果通過sigmod激活函數(shù)得到的值小于閾值分為一類,反之分為另一類。對(duì)于多分類任務(wù)來說則選用Softmax函數(shù),其作用是將+得到的值做概率歸一化處理,處理后得到的值中哪個(gè)概率最大就分為該類。RNN用隨時(shí)間的反向傳播(BackPropagationTroughTime,BPTT)算法訓(xùn)練,序列長度過長時(shí),會(huì)出現(xiàn)梯度消失和梯度爆炸問題[48]。對(duì)于梯度爆炸可以采取梯度截取的方法解決,但梯度消失問題很難解決,因而RNN會(huì)出現(xiàn)無法捕獲長遠(yuǎn)距離的依賴關(guān)系。2.2.2LSTM1997年由Hochreiter&Schmidhuber在RNN的基礎(chǔ)上提出長短期記憶網(wǎng)絡(luò)(LongShort-TermMemory,LSTM)[49],用來解決RNN無法捕獲長距離依賴的問題,從而使RNN真正有效的利用序列數(shù)據(jù)的長遠(yuǎn)距離信息。LSTM在RNN隱藏層神經(jīng)元內(nèi)部加入輸入門、遺忘門、輸出門及記憶單元來控制不同時(shí)

結(jié)構(gòu)圖,神經(jīng)元,結(jié)構(gòu)圖,單元


基于LSTM的藏文詞拼寫檢查技術(shù)研究11態(tài)和輸出,其內(nèi)部結(jié)構(gòu)如圖2-5所示。圖2-5LSTM神經(jīng)元內(nèi)部結(jié)構(gòu)圖LSTM神經(jīng)元的輸入和輸出可以通過公式(2-3)~(2-8)表示:=([1,]+)=([1,]+)=([1,]+)=⊙1+⊙=([1,]+)=⊙tanh()(2-3)(2-4)(2-5)(2-6)(2-7)(2-8)其中,σ表示神經(jīng)網(wǎng)絡(luò)中的sigmod激活函數(shù),表示雙曲正切激活函數(shù),⊙是對(duì)應(yīng)元素點(diǎn)積,為輸入門,為遺忘門,為當(dāng)前時(shí)刻需要輸入的信息,為當(dāng)前時(shí)刻的記憶單元,為輸出門,是在時(shí)刻的輸入,1是1時(shí)刻隱藏層的輸出,,1是1時(shí)刻隱藏層的記憶單元,是在時(shí)刻隱藏層的輸出。LSTM中核心的部分是記憶單元,它自始至終存在于LSTM整個(gè)鏈?zhǔn)较到y(tǒng)中,從圖中和公式中可以觀察的到,每個(gè)時(shí)刻的記憶單元是由遺忘門、上一時(shí)刻的記憶單元1、輸入門和新記憶單元計(jì)算得到,是一個(gè)向量,向量的每個(gè)元素均位于[0,1]范圍內(nèi),和上一時(shí)刻的記憶單元1做對(duì)應(yīng)元素的點(diǎn)積,其作用是丟棄和保留上一時(shí)刻的記憶單元1中的信息,中元素的值接近1是保留有用信息,接近于0時(shí)丟棄無用信息。由輸入向量和上一時(shí)刻隱藏層的輸出1計(jì)算得到,也是一個(gè)每個(gè)元素值介于[0,1]的向量,其作用是篩選當(dāng)前時(shí)刻輸入中的信息,元素的值接近1是保留有用信息,接近于0時(shí)丟棄無用信息。最后合并輸入門和輸出門的過濾信息得到當(dāng)前時(shí)刻的記憶單元。由輸出門和當(dāng)前時(shí)刻的記憶單元計(jì)算得到,其中的計(jì)算方式和作用與和相同。2.3本章小結(jié)本章首先介紹了藏文字、詞、句和文本的構(gòu)成以及關(guān)系,而后詳細(xì)介紹了循環(huán)神經(jīng)網(wǎng)絡(luò)中標(biāo)準(zhǔn)RNN和改進(jìn)的LSTM的基本思路?

【參考文獻(xiàn)】:
期刊論文
[1]藏文音節(jié)拼寫檢查的CNN模型[J]. 色差甲,貢保才讓,才讓加.  中文信息學(xué)報(bào). 2019(01)
[2]一種基于向量模型的藏文字拼寫檢查方法[J]. 才智杰,孫茂松,才讓卓瑪.  中文信息學(xué)報(bào). 2018(09)
[3]現(xiàn)代藏文中詞的自動(dòng)校對(duì)方法研究[J]. 劉芳,關(guān)白.  電腦知識(shí)與技術(shù). 2016(19)
[4]藏文字符的向量模型及構(gòu)件特征分析[J]. 才智杰,才讓卓瑪.  中文信息學(xué)報(bào). 2016(02)
[5]藏語語音合成單元選擇[J]. 才讓卓瑪,李永明,才智杰.  軟件學(xué)報(bào). 2015(06)
[6]面向政治新聞?lì)I(lǐng)域的中文文本校對(duì)方法研究[J]. 張仰森,唐安杰,張澤偉.  中文信息學(xué)報(bào). 2014(06)
[7]TSRM藏文拼寫檢查算法[J]. 珠杰,李天瑞,劉勝久.  中文信息學(xué)報(bào). 2014(03)
[8]藏文文本自動(dòng)校對(duì)方法及系統(tǒng)設(shè)計(jì)[J]. 珠杰,李天瑞,劉勝久.  北京大學(xué)學(xué)報(bào)(自然科學(xué)版). 2014(01)
[9]基于分段的藏字校對(duì)算法研究[J]. 安見才讓.  中文信息學(xué)報(bào). 2013(02)
[10]藏文音節(jié)規(guī)則庫的建立與應(yīng)用分析[J]. 珠杰,歐珠,格桑多吉,扎西加,高紅梅.  中文信息學(xué)報(bào). 2013(02)



本文編號(hào):3456548

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3456548.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e1b66***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com
东京热男人的天堂社区| 偷拍洗澡一区二区三区| 中文字幕一区久久综合| 日韩精品综合免费视频| 东京热男人的天堂一二三区| 精品人妻少妇二区三区| 日韩成人高清免费在线| 亚洲国产精品av在线观看| 中文字幕佐山爱一区二区免费| 无套内射美女视频免费在线观看| 深夜日本福利在线观看| 人妻人妻人人妻人人澡| 99久免费精品视频在线观| 黑丝袜美女老师的小逼逼| 亚洲少妇人妻一区二区| 国产av一区二区三区麻豆| 国产亚州欧美一区二区| 欧美日韩亚洲国产精品| 欧美整片精品日韩综合| 日本淫片一区二区三区| 亚洲国产成人久久一区二区三区 | 亚洲精品国男人在线视频| 久热香蕉精品视频在线播放| 人体偷拍一区二区三区| 亚洲视频一级二级三级| 国产精品丝袜一二三区| 亚洲国产av在线观看一区| 欧美日韩中国性生活视频| 亚洲三级视频在线观看免费| 欧美精品在线观看国产| 成人欧美精品一区二区三区| 免费播放一区二区三区四区| 欧美大胆美女a级视频| 东京热男人的天堂一二三区| 精品伊人久久大香线蕉综合| 熟女乱一区二区三区四区| 激情少妇一区二区三区| 最好看的人妻中文字幕| 99国产一区在线播放| 成人国产激情福利久久| 99久久人妻中文字幕|