天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動化論文 >

西夏文字?jǐn)?shù)字信息化若干問題研究

發(fā)布時間:2020-10-17 23:38
   西夏(公元1038-1227年)是以我國古代黨項(xiàng)族為主體建立的封建王朝,國號大夏。地域包括今寧夏、甘肅大部,陜西北部、內(nèi)蒙古西部和青海東北部。首府興慶(今寧夏銀川市)。西夏文是記錄西夏黨項(xiàng)族語言的文字,曾在西夏王朝統(tǒng)治的地域被廣泛使用。西夏王朝亡于蒙古后,黨項(xiàng)民族融合于其他民族之中,西夏文字隨之逐漸消亡,文獻(xiàn)典籍漸被湮沒,在近千年的時間里被人遺忘。直到20世紀(jì)初在內(nèi)蒙古自治區(qū)額濟(jì)納旗黑水城遺址,大量西夏文物和古籍文獻(xiàn)被發(fā)現(xiàn),西夏學(xué)研究開始興起。針對被遺忘近千年的西夏文字的研究是西夏歷史文化研究的重要組成部分。將現(xiàn)代計算機(jī)信息技術(shù)應(yīng)用于西夏文字的處理以及西夏文古籍文獻(xiàn)的研究、整理和保存,在當(dāng)前數(shù)字化的時代勢在必行,將大幅度提高西夏學(xué)的研究效率,有力推動西夏學(xué)學(xué)術(shù)研究的發(fā)展。具有重要的研究價值和十分廣闊的應(yīng)用前景。本文圍繞圖像處理、模式識別、深度學(xué)習(xí)等人工智能技術(shù)手段,針對西夏文字?jǐn)?shù)字信息化的若干關(guān)鍵問題進(jìn)行研究,主要內(nèi)容包括:1)改進(jìn)的霍夫變換在文字筆劃檢測識別中的應(yīng)用研究。基于霍夫變換基礎(chǔ)幾何圖形檢測的功能,本文提出端點(diǎn)引導(dǎo)的霍夫變換方法,利用線段端點(diǎn)信息在霍夫變換檢測直線過程中降低運(yùn)算負(fù)荷,提高容錯率,并通過引入假設(shè)線段長度因子有效改善傳統(tǒng)霍夫變換對短直線的檢測能力。本文提出的改進(jìn)的霍夫變換算法可以有效應(yīng)用于西夏文字筆劃的檢測。2)西夏文字樣本數(shù)據(jù)集的建立。目前尚未有公開發(fā)表的西夏文字樣本數(shù)據(jù)集為西夏文字識別提供訓(xùn)練樣本和測試樣。西夏文字識別研究缺乏規(guī)范的樣本數(shù)據(jù)集和統(tǒng)一的測試標(biāo)準(zhǔn)。針對這一問題,本文研究從西夏文古籍文獻(xiàn)中提取字符樣本,經(jīng)過字符圖像歸一化和文字類別標(biāo)簽標(biāo)定等一系列工作,初步完成了西夏文字樣本單字?jǐn)?shù)據(jù)集和文本數(shù)據(jù)集的建立,并提供了數(shù)據(jù)集的使用和測試范例。該工作填補(bǔ)當(dāng)前西夏文字識別研究領(lǐng)域的一項(xiàng)空白。3)西夏文字樣本集樣本不均衡分布問題分析及樣本擴(kuò)充方法研究。在西夏文字樣本數(shù)據(jù)集的建立過程中,由于受到數(shù)據(jù)源固有因素的約束,數(shù)據(jù)集在樣本類別間體現(xiàn)出不均衡分布。不均衡數(shù)據(jù)是指樣本訓(xùn)練集中的類別分布存在某一類的樣本數(shù)量明顯少于其他類的比例或數(shù)量。樣本的不均衡分布導(dǎo)致少數(shù)類樣本實(shí)例的分類準(zhǔn)則難以提取,數(shù)據(jù)的不均衡比例越高,提取少數(shù)類樣本的特征信息越困難。針對這一問題,本文對采用GAN(Generative Adversarial Network,對抗生成網(wǎng)絡(luò))應(yīng)用于西夏文字樣本的生成進(jìn)行了研究。此外,本文還提出基于MLSD(Moving least squares deformation移動最小變形)的樣本合成擴(kuò)展方法,對樣本數(shù)量少的類別進(jìn)行樣本擴(kuò)充。經(jīng)試驗(yàn)證明,擴(kuò)充后的均衡分布樣本數(shù)據(jù)集作為訓(xùn)練集,對提高識別率有明顯促進(jìn)作用。4)基于深度學(xué)習(xí)的西夏文字識別研究。以西夏文字樣本數(shù)據(jù)集作實(shí)驗(yàn)對象,本文采用神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)算法對西夏文字識別進(jìn)行研究,基于不同的深度學(xué)習(xí)平臺進(jìn)行了識別模型設(shè)計、模型訓(xùn)練以及識別測試。在驗(yàn)證各類算法模型的西夏文識別效果的同時,也證明了本文所提出的西夏文字樣本集合成擴(kuò)展在提高識別率方面的有效性。綜上所述,本文以西夏文字?jǐn)?shù)字信息化為主要方向,圍繞以西夏文字識別為核心的若干問題進(jìn)行了討論和研究,在西夏文字樣本數(shù)據(jù)集的建立,不均衡樣本擴(kuò)充,西夏文字識別等方面開展了較為深入的研究工作。
【學(xué)位單位】:北京交通大學(xué)
【學(xué)位級別】:博士
【學(xué)位年份】:2019
【中圖分類】:H211.7;TP18;TP391.41
【部分圖文】:

西夏文字,字符,結(jié)構(gòu)特征,全局特征


角號碼編碼為2244的字有60個之多。為了克服這一問題,西夏文字四角編碼增??加了副碼,將文字底邊中間的兩部分筆畫所對應(yīng)的碼號作為副碼,使用6位數(shù)碼??對每一個字符進(jìn)行編碼,有效降低了重碼率。副碼編碼范例如圖4所示。圖1、??圖3、圖4中的圖例均來自古今文字集成網(wǎng)站[12]。??M?M?i艱??US:??圖4副碼編碼范例[12]??Figure?4?Example?of?sub-coding[l21??2.3基于文字構(gòu)件的西夏文字四角編碼識別方法??四角編碼不僅是有效的文字檢索方法,同時也為西夏文字識別提供了一個思??路。按照字符圖像特征生成的方式可分成:局部特征、全局特征、結(jié)構(gòu)特征。局??部特征指不考慮字符結(jié)構(gòu)信息,而通過局部變換得到的特征;全局特征指不考慮字??符結(jié)構(gòu)信息,而通過全部變換得到的特征;結(jié)構(gòu)特征則指字符筆畫結(jié)構(gòu)的特征。針??對西夏文字筆劃繁復(fù),識別難度大的問題,如果能夠把一個字符的結(jié)構(gòu)特征解析??提取出來,識別出字符四角的部首,筆劃或字符構(gòu)件,根據(jù)每個構(gòu)件所對應(yīng)的編??碼即可得出該字符的四角編碼。??這一方案的難點(diǎn)首先在于文字字符的拆解,如何從一個文字圖像中分離提取??11??

西夏文字,字符,結(jié)構(gòu)特征,全局特征


將文字底邊中間的兩部分筆畫所對應(yīng)的碼號作為副碼,使用6位數(shù)碼??對每一個字符進(jìn)行編碼,有效降低了重碼率。副碼編碼范例如圖4所示。圖1、??圖3、圖4中的圖例均來自古今文字集成網(wǎng)站[12]。??M?M?i艱??US:??圖4副碼編碼范例[12]??Figure?4?Example?of?sub-coding[l21??2.3基于文字構(gòu)件的西夏文字四角編碼識別方法??四角編碼不僅是有效的文字檢索方法,同時也為西夏文字識別提供了一個思??路。按照字符圖像特征生成的方式可分成:局部特征、全局特征、結(jié)構(gòu)特征。局??部特征指不考慮字符結(jié)構(gòu)信息,而通過局部變換得到的特征;全局特征指不考慮字??符結(jié)構(gòu)信息,而通過全部變換得到的特征;結(jié)構(gòu)特征則指字符筆畫結(jié)構(gòu)的特征。針??對西夏文字筆劃繁復(fù),識別難度大的問題,如果能夠把一個字符的結(jié)構(gòu)特征解析??提取出來,識別出字符四角的部首,筆劃或字符構(gòu)件,根據(jù)每個構(gòu)件所對應(yīng)的編??碼即可得出該字符的四角編碼。??這一方案的難點(diǎn)首先在于文字字符的拆解,如何從一個文字圖像中分離提取??11??

曲線,多級分類,西夏文


針對這一問題,可以考慮將對西夏字符構(gòu)件的識別到四角編碼的映射作為初??級分類。在解析出西夏字符的四角編碼后,列出所有與該編碼對應(yīng)的同碼的字符??集,然后進(jìn)行二級分類識別,在同碼字集中找出識別對象,識別流出如圖6所示。??在二級分類階段,用來比對選擇的樣本類別數(shù)量大幅度降低,可以選用運(yùn)算量大??而精讀較高的算法,同時根據(jù)辨識對象的特點(diǎn),有效降低運(yùn)算量。??編號為174200??的字符集??初級分類?4?2????二級分類?, ̄^???霖叫在重」;,行??圖6西夏文多級分類識別??Figure?6?Multilevel?classification?recognition?of?Tangut?character??2.4?HTGE在西夏文字筆畫檢測中的應(yīng)用??針對前文所述的文字結(jié)構(gòu)特征解析環(huán)節(jié),本文提出HTGE?(Hough?Transform??with?Guidance?of?Endpoints,端點(diǎn)引導(dǎo)的霍夫變換)算法應(yīng)用于西夏文字筆劃的檢??測。HTGE在傳統(tǒng)霍夫變換的基礎(chǔ)上考慮線段端點(diǎn)信息對線段檢測有效引導(dǎo),這一??改進(jìn)可以有效提高對近似直線的曲線容錯能力
【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 梁松濤;;四十年來西夏文學(xué)研究的回顧與展望[J];西夏研究;2018年04期

2 史金波;;西夏文明在中國文明史上的地位[J];文史知識;2017年03期

3 馬振穎;;2015年西夏學(xué)研究論著目録[J];敦煌學(xué)國際聯(lián)絡(luò)委員會通訊;2016年00期

4 彭程;;寧夏主題酒店的發(fā)展前景——以西夏文化為例[J];才智;2013年09期

5 溫晉林;西夏文化專題旅游開發(fā)[J];寧夏大學(xué)學(xué)報(自然科學(xué)版);1999年02期

6 牛達(dá)生 ,劉天明;見解獨(dú)具、內(nèi)容翔實(shí)的西夏學(xué)專著——《西夏文化》[J];民族研究;1988年06期

7 陳炳應(yīng);《西夏文化》評介[J];中央民族學(xué)院學(xué)報;1988年04期

8 張?jiān)?;論吐蕃文化對西夏的影響[J];中國藏學(xué);1989年02期

9 李曉春;;西夏文書籍裝幀藝術(shù)特點(diǎn)初探[J];創(chuàng)意與設(shè)計;2017年06期

10 陳思博;;寧夏的西夏文化遺產(chǎn)與旅游產(chǎn)業(yè)[J];藝術(shù)品鑒;2018年17期


相關(guān)博士學(xué)位論文 前1條

1 孟一飛;西夏文字?jǐn)?shù)字信息化若干問題研究[D];北京交通大學(xué);2019年


相關(guān)碩士學(xué)位論文 前9條

1 賈搏;西夏文《現(xiàn)在賢劫千佛名經(jīng)》(上卷)考釋[D];陜西師范大學(xué);2018年

2 楊文慧;西夏古籍文字樣本數(shù)據(jù)庫的創(chuàng)建及應(yīng)用技術(shù)研究[D];寧夏大學(xué);2018年

3 白乖乖;西夏與周邊民族的佛教關(guān)系[D];北方民族大學(xué);2018年

4 余惠娟;西夏文契約的擔(dān)保與漢文契約擔(dān)保的比較研究[D];武漢大學(xué);2018年

5 曾金雪;西夏文《大般涅槃經(jīng)》卷二十二譯釋研究[D];陜西師范大學(xué);2018年

6 周媛;寧夏的西夏文化遺產(chǎn)與旅游產(chǎn)業(yè)[D];華中師范大學(xué);2011年

7 米晨榕;西夏教育芻議[D];陜西師范大學(xué);2015年

8 郭迎春;論寧夏平原在西原歷史上的地位[D];河北大學(xué);2007年

9 李曉玲;帝王陵墓類旅游產(chǎn)品開發(fā)研究[D];西安建筑科技大學(xué);2007年



本文編號:2845460

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2845460.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶57796***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com