天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 信息工程論文 >

脫機中文手寫文檔檢索關鍵技術研究

發(fā)布時間:2016-08-08 14:18

  本文關鍵詞:脫機中文手寫文檔檢索關鍵技術研究,由筆耕文化傳播整理發(fā)布。


《武漢大學》 2013年

脫機中文手寫文檔檢索關鍵技術研究

黃亮  

【摘要】:隨著計算機和網(wǎng)絡技術的迅速發(fā)展以及各種數(shù)字化設備的出現(xiàn),越來越多的紙質(zhì)文檔需要被轉(zhuǎn)化為圖像格式的電子文檔,以方便存儲、傳輸和編輯。與此同時,文檔圖像的信息獲取成為計算機智能技術的研究熱點,脫機手寫文檔的識別和檢索更是技術難點。文檔識別技術雖然取得了很大的進步,但是受識別精度的影響,不能夠正確識別的詞語就無法找到,導致召回率不夠高。而關鍵詞檢索技術是在不需要對文檔進行精確識別的情況下,計算關鍵詞和文檔中候選詞之間的相似度,通過調(diào)節(jié)相似度的閾值來平衡召回率和精度,這樣做可以找到更多有用的信息。本文對脫機手寫文檔檢索的兩個關鍵問題進行了深入的研究:手寫文本行分割和關鍵詞檢索。 本文在這方面的主要工作和貢獻如下: (1)為了更好地提取手寫文檔中的文本行,本文提出了一種基于圖聚類融合準則的文本行分割算法。該算法利用自適應游程平滑算法和最小張樹聚類算法的文本行分割結(jié)果構(gòu)造文檔結(jié)構(gòu)圖,該文檔圖中的各頂點與文檔圖像的聯(lián)通部件一一對應,而文檔圖中的邊表示其連接的兩定點所代表的的聯(lián)通部件可能處于同一文本行。給出了基于誤操作代價的文檔圖邊的權值的評價準則,然后利用誤操作(這里的誤操作主要有兩種類型:誤分裂和誤合并)代價最小化準則對文檔圖的邊進行自動刪除,以達到對同行的聯(lián)通部件進行聚類以提取文本行的目的。同時利用基于監(jiān)督學習的策略優(yōu)化文檔圖的邊上權值函數(shù)中的參數(shù)。在HIT-MW數(shù)據(jù)庫上的實驗結(jié)果為召回率99.31%、錯誤率0.94%。該實驗結(jié)果充分表明了本算法的有效性和正確性。 (2)對自適應游程平滑算法和最小張樹聚類算法進行改進。對自適應游程平滑算法的改進主要有以下三點:(a)利用基于監(jiān)督學習的方法對游程平滑規(guī)則中經(jīng)驗參數(shù)優(yōu)化;(b)利用投影法對平滑后圖像中包含行間粘連的聯(lián)通部件進行切分;(c)利用一系列經(jīng)驗規(guī)則對較短的文本行片段進行合并。對最小張樹聚類算法的改進主要有以下兩點:(a)擴充了用于距離測度學習的特征空間,進一步提高了距離測度的判別能力;(b)利用描述相鄰聯(lián)通部件幾何位置信息的特征訓練的線性SVM對生成的最小張樹進行預剪枝。從實驗結(jié)果看,這些改進都提高了各自算法的性能并降低了計算復雜度。 (3)基于貝葉斯決策(Bayesian decision)理論,本文給出了基于統(tǒng)計模型并融合多種上下文信息的關鍵詞檢索方法,提出了三種檢索模型: (a)單字檢索模型。該模型利用單字候選模式的字符分類器信息和一元幾何上下文信息來判定其字符類別標記是否是待查詢關鍵詞的某個單字文本。 (b)詞匹配模型。該模型利用詞內(nèi)各單字文本對應的圖像候選模式的字符分類器信息和一元幾何上下文以及相鄰單字候選模式之間的二元幾何上下文信息來檢索待查詢關鍵詞的圖像候選模式。 (c)擴展的詞匹配模型。該模型利用詞外擴展的單字候選模式與詞內(nèi)首尾單字候選模式之間的二元幾何上下文信息、以及二元文法語言上下文信息對由上述詞匹配模型得到的詞候選模式進行過濾,進一步提高系統(tǒng)的檢索精度。 (d)為了克服詞長對上述模型(單字檢索模型除外)的影響提出了基于詞長歸一化的修正;最后,為了更好的平衡多種上下文模型,給出了一種基于兩類交叉熵最小化學習準則,自動學習檢索模型中各種上下文信息的融合權重。在實驗中,與基于文本識別的檢索方法進行了比較,該文本識別方法的切分-識別路徑評價準則也是融合了上述多種上下文信息,并利用字符準確率最大化學習準則,自動學習識別路徑評價準則函數(shù)中各種融合權重。從實驗結(jié)果來看,在進行關鍵詞檢索時,本文的方法與基于識別后文本搜索的方法相比,在設置適當?shù)拈撝禃r,能得到更高的召回率。 從在CASIA-HWDB數(shù)據(jù)庫上進行的實驗來看,該方法取得了較理想的效果。

【關鍵詞】:
【學位授予單位】:武漢大學
【學位級別】:博士
【學位授予年份】:2013
【分類號】:TP391.41
【目錄】:

下載全文 更多同類文獻

CAJ全文下載

(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)

CAJViewer閱讀器支持CAJ、PDF文件格式


【參考文獻】

中國期刊全文數(shù)據(jù)庫 前3條

1 丁曉青;漢字識別研究的回顧[J];電子學報;2002年09期

2 高學;金連文;尹俊勛;;一種基于筆畫密度的彈性網(wǎng)格特征提取方法[J];模式識別與人工智能;2002年03期

3 陳友斌,丁曉青,吳佑壽;一種手寫漢字特征抽取的新方法[J];信號處理;1998年02期

【共引文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 許高程;張文君;王衛(wèi)紅;;支持向量機技術在遙感影像滑坡體提取中的應用[J];安徽農(nóng)業(yè)科學;2009年06期

2 管翠萍;;藥物靶標G蛋白偶聯(lián)受體的識別預測[J];安徽農(nóng)業(yè)科學;2010年24期

3 劉婷婷;;基于支持向量機的水稻紋枯病識別研究[J];安徽農(nóng)業(yè)科學;2011年28期

4 高闖;王立東;周世宇;;基于支持矢量機的宮頸細胞分類[J];遼寧科技大學學報;2009年03期

5 汪廷華;田盛豐;黃厚寬;廖年冬;;樣本屬性重要度的支持向量機方法[J];北京交通大學學報;2007年05期

6 尚磊;劉風進;;基于支持向量機的手寫體數(shù)字識別[J];兵工自動化;2007年03期

7 胡淑燕;鄭鋼鐵;;應用支持向量機的眼瞼參數(shù)疲勞預測[J];北京航空航天大學學報;2009年08期

8 王自強;段愛玲;張德賢;;基于自適應核函數(shù)的支持向量數(shù)據(jù)描述算法[J];北京化工大學學報(自然科學版);2008年02期

9 陳增照;楊揚;董才林;何秀玲;;支持向量機動態(tài)學習方法及其在票據(jù)識別中的應用[J];北京科技大學學報;2006年02期

10 郭輝;劉賀平;王玲;;基于最小二乘支持向量機對偶優(yōu)化問題的核偏最小二乘[J];北京科技大學學報;2006年08期

中國重要會議論文全文數(shù)據(jù)庫 前10條

1 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中國科學院地質(zhì)與地球物理研究所第11屆(2011年度)學術年會論文集(下)[C];2012年

2 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六屆中國控制會議論文集[C];2007年

3 呂蓬;柳亦兵;馬強;魏于凡;;支持向量機在齒輪智能故障診斷中的應用研究[A];第二十六屆中國控制會議論文集[C];2007年

4 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七屆中國控制會議論文集[C];2008年

5 蔣少華;桂衛(wèi)華;陽春華;唐朝暉;蔣朝輝;;基于主元分析與支持向量機的方法及其在密閉鼓風爐過程監(jiān)控診斷中的應用[A];第二十七屆中國控制會議論文集[C];2008年

6 王海豐;李壯;任洪娥;趙鵬;;基于非下采樣Contourlet變換和SVM的紋理圖像分割算法[A];第二十九屆中國控制會議論文集[C];2010年

7 ;Image Classification with Ant Colony Based Support Vector Machine[A];中國自動化學會控制理論專業(yè)委員會A卷[C];2011年

8 晉朝勃;胡剛強;史廣智;李玉陽;;一種采用支持向量機的水中目標識別方法[A];中國聲學學會水聲學分會2011年全國水聲學學術會議論文集[C];2011年

9 劉英林;劉洪鵬;査星云;宋揚;;基于SVM的熱軋鋼卷性能分析[A];中國計量協(xié)會冶金分會2012年會暨能源計量與節(jié)能降耗經(jīng)驗交流會論文集[C];2012年

10 戴明洋;楊大利;徐明星;;語音情感識別中UBM訓練集的組成研究[A];第十一屆全國人機語音通訊學術會議論文集(一)[C];2011年

中國博士學位論文全文數(shù)據(jù)庫 前10條

1 趙瑩;半監(jiān)督支持向量機學習算法研究[D];哈爾濱工程大學;2010年

2 殷志偉;基于統(tǒng)計學習理論的分類方法研究[D];哈爾濱工程大學;2009年

3 柏堅;非線性數(shù)學地質(zhì)模型研究及在滇東南金礦成礦預測中的應用[D];中國地質(zhì)大學(北京);2010年

4 姚志明;基于步態(tài)觸覺信息的身份識別研究[D];中國科學技術大學;2010年

5 陳志國;基于群體智能的機器視覺的關鍵技術研究[D];江南大學;2010年

6 張目;高技術企業(yè)信用風險影響因素及評價方法研究[D];電子科技大學;2010年

7 宋國明;基于提升小波及SVM優(yōu)化的模擬電路智能故障診斷方法研究[D];電子科技大學;2010年

8 劉建明;古代壁畫圖像保護與智能修復技術研究[D];浙江大學;2010年

9 渠瑜;基于SVM的高不平衡分類技術研究及其在電信業(yè)的應用[D];浙江大學;2010年

10 李卓;圖像信息隱藏與隱寫分析算法的研究[D];浙江大學;2010年

中國碩士學位論文全文數(shù)據(jù)庫 前10條

1 朱杰;一種基于聚類的支持向量機反問題求解算法[D];河北大學;2007年

2 李金華;基于SVM的多類文本分類研究[D];山東科技大學;2010年

3 江達秀;基于HMAX模型的人臉表情識別研究[D];浙江理工大學;2010年

4 李朋勇;基于全矢高階譜的故障診斷方法及其應用研究[D];鄭州大學;2010年

5 劉松;基于OCSVM和主動學習的DDOS攻擊分布式檢測系統(tǒng)[D];鄭州大學;2010年

6 方宇;小波支持向量機在交通流預測中的應用研究[D];大連理工大學;2010年

7 梁懷志;基于嵌入式的車型分類系統(tǒng)的設計與實現(xiàn)[D];大連理工大學;2010年

8 李林;基于可靠性的TBM刀盤輕量化設計[D];大連理工大學;2010年

9 李艷萍;基于自主學習的移動機器人質(zhì)心偏移控制策略[D];大連理工大學;2010年

10 梅麗;人類啟動子識別算法研究[D];遼寧師范大學;2010年

【二級參考文獻】

中國期刊全文數(shù)據(jù)庫 前4條

1 丁曉青,吳佑壽;模式識別統(tǒng)一熵理論[J];電子學報;1993年08期

2 李元祥,丁曉青,劉長松;基于HMM的漢語文本識別后處理研究[J];中文信息學報;1999年04期

3 陳明,丁曉青,梁健;復雜中文報紙的版面分析、理解和重構(gòu)[J];清華大學學報(自然科學版);2001年01期

4 陳友斌,丁曉青,吳佑壽;一種手寫漢字特征抽取的新方法[J];信號處理;1998年02期

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 唐瓊;袁順波;;國外少兒搜索引擎比較研究[J];圖書館雜志;2005年11期

2 石運華;主題詞檢索與關鍵詞檢索[J];圖書館論壇;1985年01期

3 熊忠陽;李春玲;張玉芳;;一種基于領域本體的混合信息檢索模型[J];計算機工程;2008年21期

4 孫清玉;;有效的信息檢索技術——全文檢索[J];情報探索;2010年02期

5 趙俊杰;;一種用于關鍵詞檢索的快速字符串精確匹配算法[J];計算機系統(tǒng)應用;2010年02期

6 朱小平;;關鍵詞檢索技術與應用技巧[J];咸寧學院學報;2006年04期

7 潘瑞冰;;基于概念控制的自然語言檢索優(yōu)化[J];農(nóng)業(yè)圖書情報學刊;2007年07期

8 潘文;劉增良;周廣煥;;一種基于自動化和動態(tài)加載技術實現(xiàn)對Office文檔進行關鍵詞檢索[J];計算機應用與軟件;2008年04期

9 廖鳳;張建勇;;Keyword Cloud在文獻檢索中的應用研究[J];圖書館雜志;2010年09期

10 王霅煜;涂惠燕;;基于內(nèi)容的語音課件關鍵詞檢索系統(tǒng):設計與實現(xiàn)[J];計算機應用與軟件;2011年04期

中國重要會議論文全文數(shù)據(jù)庫 前10條

1 劉喜平;萬常選;劉德喜;;基于語義返回XML關鍵詞檢索結(jié)果[A];NDBC2010第27屆中國數(shù)據(jù)庫學術會議論文集(B輯)[C];2010年

2 秦秉玉;王存真;;脫機指標的評價[A];中國危重病醫(yī)學大會-2011暨北京醫(yī)學會重癥醫(yī)學年會匯編[C];2011年

3 余晉;鄧志鴻;唐世渭;;XMLSearch:通用XML文檔檢索系統(tǒng)[A];第二十四屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2007年

4 田卓民;;機械通氣治療中的挑戰(zhàn)脫機病人[A];2003年全國危重病急救醫(yī)學學術會議論文集[C];2003年

5 周卓;;機械通氣治療急性重度心力衰竭患者BNP動態(tài)變化及意義[A];2009年浙江省檢驗醫(yī)學學術年會論文匯編[C];2009年

6 吳振東;史殿習;丁博;王懷民;;上下文態(tài)勢感知框架的研究與實現(xiàn)[A];第七屆和諧人機環(huán)境聯(lián)合學術會議(HHME2011)論文集【oral】[C];2011年

7 李求實;王秋月;王珊;;平衡IO和CPU的XML關鍵詞檢索技術[A];第26屆中國數(shù)據(jù)庫學術會議論文集(A輯)[C];2009年

8 劉勘;劉萍;;一種對學術論文關鍵詞權值的動態(tài)調(diào)整方法[A];第二十四屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2007年

9 向永清;鄧志鴻;于航;高寧;;面向XML文檔的二級索引技術及其在XML關鍵詞檢索中的應用研究[A];第26屆中國數(shù)據(jù)庫學術會議論文集(B輯)[C];2009年

10 畢文靜;沈華偉;劉悅;許洪波;程學旗;;基于企業(yè)環(huán)境的專家檢索研究[A];第五屆全國信息檢索學術會議論文集[C];2009年

中國重要報紙全文數(shù)據(jù)庫 前10條

1 廣西 梁志強;[N];電腦報;2002年

2 ;[N];中國新聞出版報;2003年

3 湖北 趙葳;[N];中國電腦教育報;2001年

4 清華大學計算機系 王克宏 劉英群;[N];計算機世界;2003年

5 文晨;[N];中國新聞出版報;2006年

6 本版編輯董娟 張一君;[N];中國經(jīng)營報;2006年

7 本報記者 劉麗麗;[N];計算機世界;2008年

8 曹玉林 湯松泉;[N];農(nóng)民日報;2003年

9 廣東 孫其雄;[N];電子報;2005年

10 王政;[N];電腦商報;2006年

中國博士學位論文全文數(shù)據(jù)庫 前10條

1 黃亮;脫機中文手寫文檔檢索關鍵技術研究[D];武漢大學;2013年

2 李寶祥;語音關鍵詞檢索若干問題的研究[D];北京郵電大學;2013年

3 田大增;視覺文檔圖像識別預處理[D];河北大學;2007年

4 黎方正;關系數(shù)據(jù)庫的關鍵詞檢索技術研究[D];中南大學;2010年

5 蔡柯柯;基于查詢特征上下文的檢索模型研究[D];浙江大學;2007年

6 王玉祥;業(yè)務上下文的處理機制及其預測理論、關鍵技術研究[D];北京郵電大學;2010年

7 魏宏喜;蒙古文古籍圖像檢索技術研究[D];內(nèi)蒙古大學;2012年

8 周暉;高分辨率遙感圖像的層次化分析方法[D];國防科學技術大學;2010年

9 劉喜平;XML文檔搜索中的查詢處理技術研究[D];江西財經(jīng)大學;2010年

10 姜輝;Smartcare等通氣模式對慢性阻塞性肺病患者呼吸力學的影響[D];中國人民解放軍軍醫(yī)進修學院;2005年

中國碩士學位論文全文數(shù)據(jù)庫 前10條

1 李化;基于圖像內(nèi)容的文檔檢索方法研究[D];延邊大學;2010年

2 付興剛;基于筆畫距離的手寫文檔檢索算法研究[D];哈爾濱工業(yè)大學;2009年

3 金鑫;多媒體文檔檢索研究[D];西安電子科技大學;2012年

4 陸明明;基于詞格的語音文檔檢索技術研究[D];解放軍信息工程大學;2012年

5 范曄斐;蒙漢英混排文檔圖像的文種識別研究[D];內(nèi)蒙古大學;2013年

6 黨興;復雜的中文文檔圖像版面分析研究[D];蘇州大學;2010年

7 張國良;基于改進詞袋的多媒體文檔檢索研究[D];西安電子科技大學;2013年

8 張小恒;聯(lián)機結(jié)構(gòu)化手寫文檔和手勢設計[D];西北大學;2007年

9 戴剛;基于使用控制和上下文的模糊訪問控制模型研究[D];重慶大學;2009年

10 石愛萍;基于語義距離的Web頁面關鍵詞獲取研究[D];江蘇科技大學;2011年


  本文關鍵詞:脫機中文手寫文檔檢索關鍵技術研究,,由筆耕文化傳播整理發(fā)布。



本文編號:88578

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/88578.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶b56ee***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com