天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 文藝論文 > 漢語言論文 >

西夏古籍文字樣本數(shù)據(jù)庫的創(chuàng)建及應(yīng)用技術(shù)研究

發(fā)布時間:2021-09-08 07:08
  古籍文獻的數(shù)字信息化,有利于古籍文獻的保護整理與研究交流,是現(xiàn)代社會研究古籍文獻的主要渠道。西夏文是記錄西夏黨項族的一種古文字,通過古籍文獻中的西夏文字我們能夠充分了解當(dāng)時西夏的社會歷史形態(tài)和民族文化,因此當(dāng)前發(fā)掘并保存的西夏古籍文獻是我們研究西夏文的重要窗口。但由于年代久遠,能存留至今的西夏古籍文獻少之又少,并且存在紙張毀壞,文字不清等問題,嚴(yán)重阻礙了西夏文的數(shù)字化發(fā)展。如今光學(xué)字符識別、機器學(xué)習(xí)等技術(shù)將極大地幫助人們對古籍文字的解讀,但這些技術(shù)都是基于文字?jǐn)?shù)據(jù)庫的,文字?jǐn)?shù)據(jù)庫為文字識別提供了訓(xùn)練樣本和評價標(biāo)準(zhǔn)。因此建立標(biāo)準(zhǔn)、公開、通用的西夏文字樣本數(shù)據(jù)庫是開展西夏文識別研究的前提和基礎(chǔ)。西夏文樣本數(shù)據(jù)庫不僅為西夏文智能識別算法提供測試樣本和評價標(biāo)準(zhǔn),同時能夠彌補熟練掌握西夏文語言專家的稀缺性,為西夏學(xué)研究者提供更加便利的科研工具和高效的科研方法,也為古籍?dāng)?shù)字化文獻信息檢索在方式和內(nèi)容提供有力支持。目前針對西夏文識別的樣本數(shù)據(jù)庫的建立尚處于空白階段,本文重點探討西夏文樣本庫的建立及應(yīng)用技術(shù)研究。首先選擇西夏文佛經(jīng)文獻作為數(shù)據(jù)源,然后對掃描后的古籍圖像進行預(yù)處理和文字提取,將標(biāo)注提取到... 

【文章來源】:寧夏大學(xué)寧夏回族自治區(qū) 211工程院校

【文章頁數(shù)】:66 頁

【學(xué)位級別】:碩士

【部分圖文】:

西夏古籍文字樣本數(shù)據(jù)庫的創(chuàng)建及應(yīng)用技術(shù)研究


西夏文稗本數(shù)據(jù)庫組織流程

佛經(jīng),西夏文


十華嚴(yán)”中的第40?—43卷進行了詳細校注。??《金剛經(jīng)》:作為最重要的佛教經(jīng)文,在西夏統(tǒng)治時期廣泛流傳。西夏文版本的這些佛經(jīng)的主??要集中在俄羅斯的遺址中126U三大佛經(jīng)展示如圖3。??||||!象??ill??大般若波羅蜜經(jīng)?華嚴(yán)經(jīng)?金剛經(jīng)??圖3.三大西夏文佛經(jīng)部分展示??2.3圖像掃描??在我的課題研宄中,首先選取了《華嚴(yán)經(jīng)》作為數(shù)據(jù)源,這些經(jīng)文卷頁首先經(jīng)過掃描生成電??子版的圖像文件。掃描是將紙質(zhì)版古籍文獻轉(zhuǎn)換成電子版的最基本方式之一,通過對古佛經(jīng)卷頁??的掃描,不僅可以提供給我們最直接的原始材料,同時又能保證文件矢量化的準(zhǔn)確性。在掃描卷??頁過程中,要注意兩點:首先,由于掃面的佛經(jīng)頁面很多,必須保證對每一頁都是高像素、等比??例的掃描,才便于后續(xù)的圖像處理工作;其次,掃描范圍要全面,要將《華嚴(yán)經(jīng)》的每一版本的??-10-??

掃描圖像,古籍,西夏文,干擾信息


例如《華嚴(yán)經(jīng)》卷40的掃描圖像存儲于以Huayan_40/image命名的文件夾中,如圖4所示。????>?Huayan_40?>?image?v?〇?度索’irrnge*?P??_______??04.jpg?05.jpg?06.jpg?07.jpg?08?jpg?09.jpg?10?jpg??■?H?H畫國圓圖??11?jpg?12.川。?H?判?M.ipg?bjpg?16.川(1?17.jpg??_圖_?_隨麵圍??18.jpg?19.jpg?20.jpg?21.jpg?22.jpg?23.jpg?24.jpg??HI?■!?__?ni?MM??HB?IB?HH?HH??25.jpg?26.jpg?27.jpg?28.jpg?29.jpg?30.jpg?31?jpg??圖4.掃描的西夏文圖像文件??2.4西夏古籍圖像預(yù)處理??由于古籍圖像的版面質(zhì)量會因一些干擾信息而產(chǎn)生一定的噪聲,比如手寫體丙夏文字由于書??寫習(xí)慣,造成筆畫不均勻、字體傾斜以及版面污漬等;以及在圖像掃描過程屮由于機器分辨率的??原因造成圖像顏色失真或者清晰度不高等現(xiàn)象,會對接下來的檢測分割工作造成影響。預(yù)處理的??目的是對古籍圖像版面中存在的噪聲等干擾信息進行減弱或消除,增強文字的清晰度,改善圖像??的質(zhì)量,以便快速提取和識別出古籍中的文字。因此圖像預(yù)處理是進行文字提取和識別的前提條??件。西夏文預(yù)處理主要包括灰度化、濾波去噪、二值化、形態(tài)學(xué)運算等操作。??2.4.1圖像灰度化??將彩色的古籍圖像轉(zhuǎn)換為灰度圖像的過程為圖像的灰度化處理M,也就是對圖像進行降維處??理


本文編號:3390357

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenyilunwen/hanyulw/3390357.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶4252d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com