基于深度學習和知識策略的蒙古文古籍識別研究
發(fā)布時間:2018-01-04 13:16
本文關鍵詞:基于深度學習和知識策略的蒙古文古籍識別研究 出處:《內蒙古大學》2016年博士論文 論文類型:學位論文
更多相關文章: 蒙古文古籍 整詞識別 基于切分的單詞識別 卷積神經網絡 知識策略 錯誤校正
【摘要】:蒙古文古籍為研究蒙古社會政治和歷史文化提供了豐富和可靠的資料。為更好地搶救、整理和利用蒙古文古籍,內蒙古大學圖書館啟動了古籍電子化工作,將其掃描轉換成圖像格式存儲,并向讀者提供了電子化服務。但是,古籍圖像不能再編輯,且檢索效率低,分析和挖掘難度大,亟需利用文字識別技術將其轉換為文本文檔。蒙古文古籍采用木刻雕版工藝印刷,具有排版不夠規(guī)整、字形差異顯著、文字顏料擴散和脫落等特點,給識別工作帶來很大挑戰(zhàn)。本文以《御制蒙古文甘珠爾經》為研究對象,在蒙古文古籍識別方面開展了一系列研究,主要內容如下:1.本文提出了蒙古文古籍單詞的有效識別方法。在分析整詞識別和基于切分的單詞識別兩種方案優(yōu)缺點的基礎上,結合蒙古文古籍單詞特點,提出了整詞識別和基于切分的單詞識別的混合策略,對高度較低且字形基元切分難度大的單詞采用整詞識別的方法進行識別,對其余單詞采用基于字形基元切分的識別方法進行識別,通過實驗確定了兩種方法的選擇依據。2.本文提出了半自動樣本選取方法。為達到理想的識別精度,需要大量樣本訓練識別中使用的卷積神經網絡,為克服人工選取樣本效率低的缺點,提出了半自動的樣本選取方法,首先利用分類器對未分類的全部樣本進行粗分類,然后人工去除每類中不正確的樣本,最后將每類中剩余樣本作為最終訓練樣本。訓練樣本選取分類器的過程采用了書寫者適應性調整、利用形態(tài)學方法生成偽訓練樣本、多次循環(huán)策略。3.本文提出了蒙古文古籍單詞的字形基元切分方法。由于蒙古文古籍單詞存在嚴重的形變和字形基元重疊現象,針對機器印刷體蒙古文單詞的切分方法難以奏效。分析了蒙古文古籍單詞外形特征,提出了基于輪廓分析的字形基元切分方法,首先提取單詞輪廓上的關鍵點,其次利用輪廓關鍵點定位單詞主干線,最后利用輪廓關鍵點和主干線信息生成分割線。為簡化輪廓關鍵點檢測步驟并避免輪廓噪聲的影響,利用多邊形作為單詞外輪廓的近似。4.本文提出了三種基于知識的策略來提升單詞識別精度。在基于切分的單詞識別方法中,字形基元的識別結果用于生成單詞的識別結果,通過分析識別結果,發(fā)現導致單詞識別錯誤的原因是字形基元切分不合理和字形基元識別錯誤。為進一步提升單詞識別精度,結合蒙古文的構詞知識提出三種策略并應用于字形基元識別環(huán)節(jié),分別是整合主干線信息策略、字形基元分組策略,以及識別欠切分和過切分片段策略。5.本文提出了古典蒙古文詞典的構建方法和基于字形基元相鄰規(guī)則的錯誤檢測方法,并評測了基于詞典和基于字形基元相鄰規(guī)則的錯誤檢測方法各自的性能,分別采用加權編輯距離模型和噪聲信道模型進行錯誤校正,根據識別結果和字形知識為這兩種模型分配編輯操作的權重,結合識別方法簡化噪聲信道模型以減少計算量。
[Abstract]:This paper presents an effective identification method for Mongolian ancient books . According to the recognition result and the font knowledge , the weights of the editing operations are assigned to the two models , and the noise channel model is simplified in combination with the identification method to reduce the calculation amount .
【學位授予單位】:內蒙古大學
【學位級別】:博士
【學位授予年份】:2016
【分類號】:TP391.43
【參考文獻】
相關期刊論文 前6條
1 魏宏喜;高光來;;基于Word Spotting技術的蒙古文古籍圖像檢索中的特征選擇[J];計算機應用;2011年11期
2 魏宏喜;高光來;;一種基于連通域的蒙古文文檔圖像版面分析方法[J];內蒙古大學學報(自然科學版);2007年05期
3 魏宏喜;高光來;;蒙文文檔圖像的傾斜檢測方法[J];內蒙古大學學報(自然科學版);2007年04期
4 魏宏喜;高光來;;印刷體蒙古文字識別中蒙古文字特征的選擇[J];內蒙古大學學報(自然科學版);2006年06期
5 李振宏,高光來;印刷體蒙古文文字識別中常用特征的獲取[J];微機發(fā)展;2003年11期
6 李偉,高光來,侯宏旭,李振宏;印刷體蒙古文字識別技術中切分方法的設計與實現[J];內蒙古大學學報(自然科學版);2003年03期
相關博士學位論文 前1條
1 魏宏喜;蒙古文古籍圖像檢索技術研究[D];內蒙古大學;2012年
相關碩士學位論文 前8條
1 王霈s,
本文編號:1378659
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1378659.html
最近更新
教材專著