基于新型CNN實例分割算法的文本行分析關(guān)鍵技術(shù)研究
發(fā)布時間:2021-01-18 16:53
對文檔圖像的自動處理能大大減輕人的勞動。文檔圖像的文本行分割是字符識別、關(guān)鍵詞檢索等文檔分析和識別系統(tǒng)的重要部分,是提升字符識別效果的關(guān)鍵,對文檔的數(shù)字化存儲來說意義非凡。對于無約束的手寫文檔圖像,其文本行之間的交疊,文本字符大小不一、以及文本行不同的傾斜角度和不同程度的彎曲等,都給手寫文檔行的分割造成了困難,因此,無約束文檔圖像的文本行分割仍然是一個值得研究的問題。近年來,深度學(xué)習(xí)技術(shù)在圖像分割等領(lǐng)域取得了令人矚目的成就;诰矸e神經(jīng)網(wǎng)絡(luò)的圖像分割方法猶如雨后春筍般大量涌現(xiàn)。針對手寫文檔圖像的文本行分割,本文提出兩種基于深度卷積神經(jīng)網(wǎng)絡(luò)的文本行分割方法,結(jié)合后處理操作,能夠有效地處理文本行分割中存在的粘連、傾斜及字符大小不一等問題。本文主要工作如下:第一,提出一種基于語義分割的文本行提取方法,將文檔圖像分為文本主體區(qū)域和背景區(qū)域,主干網(wǎng)絡(luò)采用經(jīng)典的VGG16,通過增加批量歸一化層及采用空洞卷積對其進行改進,用跳躍連接的方式結(jié)合淺層特征信息,構(gòu)建了用于語義分割的全卷積網(wǎng)絡(luò),對卷積網(wǎng)絡(luò)輸出的概率圖進行二值化,得到不同文本行的文本主體區(qū)域,結(jié)合提取的結(jié)果,依據(jù)最近鄰原則對文本連通部件進行分...
【文章來源】:西安理工大學(xué)陜西省
【文章頁數(shù)】:66 頁
【學(xué)位級別】:碩士
【部分圖文】:
文檔內(nèi)容提取的一般過程
文檔圖像預(yù)處理與卷積神經(jīng)網(wǎng)絡(luò)介紹72文檔圖像預(yù)處理與卷積神經(jīng)網(wǎng)絡(luò)介紹文檔圖像的二值化在文檔圖像的自動處理過程中意義非凡,是文檔分析系統(tǒng)的重要預(yù)處理步驟。歷史文檔在保存的過程中會受到人為或者外界因素的影響而出現(xiàn)退化,例如,古籍文獻會遭受非人為因素的侵蝕和造成文檔質(zhì)量低下,例如現(xiàn)墨水?dāng)U散、退色、起皺等現(xiàn)象。在將文檔掃描為圖像的過程中,圖像的扭曲,或者由于光照的因素而產(chǎn)生對比度變化以及燈光變化產(chǎn)生的噪聲等都會造成掃描圖像的質(zhì)量下降。不同原因造成的低質(zhì)量文檔圖像如圖2-1所示。本章主要介紹卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)及文檔圖像的預(yù)處理方法,并給出文本行分割算法的評價標(biāo)準(zhǔn)。圖2-1低質(zhì)量文檔圖像Figure2-1Degradeddocumentimages2.1卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)2.1.1卷積神經(jīng)網(wǎng)絡(luò)整體結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,CNN)主要用來處理時間序列、圖像等具有網(wǎng)格結(jié)構(gòu)的數(shù)據(jù)[41]。上世紀(jì)80年代就有相關(guān)學(xué)者展開了這方面的研究,YannLeCun等人構(gòu)建的LeNet-5是現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)的雛形。GPU等硬件設(shè)備的更新發(fā)展以及許多深度學(xué)習(xí)開源框架的出現(xiàn)為卷積網(wǎng)絡(luò)的應(yīng)用提供了基矗2012年,著名的AlexNet的提出再次提升了其關(guān)注度,AlesNet的貢獻在于采用了ReLu,該網(wǎng)絡(luò)獲得了ILSVRC的第一名,從那以后,深度學(xué)習(xí)技術(shù)開始在許多領(lǐng)域嶄露頭角,屢屢在各種計算機視覺比賽中
西安理工大學(xué)碩士學(xué)位論文8獲得令人矚目的成績。如圖2-2所示為一個標(biāo)準(zhǔn)的卷積神經(jīng)網(wǎng)絡(luò),輸入圖像通過一系列的卷積、激活以及池化操作,最后利用全連接層進行分類。首先對神經(jīng)網(wǎng)絡(luò)進行簡單介紹。圖2-2標(biāo)準(zhǔn)卷積神經(jīng)網(wǎng)絡(luò)Figure2-2Astandardconvolutionalneuralnetwork(1)神經(jīng)網(wǎng)絡(luò)(neuralnetwork)該模型的目標(biāo)是通過學(xué)習(xí)參數(shù)的值,來近似某個函數(shù)。圖2-3所示為一個人工神經(jīng)元模型,該模型包含n個輸入12,...nxxx,n個權(quán)值12,...nwww,b和y分別表示偏置和輸出。該神經(jīng)元接收一個向量作為輸入,得到一個標(biāo)量輸出,其計算如式(2.1)所示,其中f()表示激活函數(shù),W和X分別為表示權(quán)值和輸入。圖2-3人工神經(jīng)元模型Figure2-3Modelofartificialneuron()()TiiiyfWXbfwxb(2.1)圖2-4所示的多層神經(jīng)網(wǎng)絡(luò),最左側(cè)為輸入層神經(jīng)元,第二層和第三層為隱層,最右側(cè)為輸出層神經(jīng)元。每一層的輸入輸出均可看作向量。具有一個隱含層的神經(jīng)網(wǎng)絡(luò)稱之為淺層神經(jīng)網(wǎng)絡(luò),具有一個以上隱含層的神經(jīng)網(wǎng)絡(luò)稱之為深度神經(jīng)網(wǎng)絡(luò)。分類網(wǎng)絡(luò)一般包含特征提取功能和分類功能,分別由卷積層和全連接層來實現(xiàn)相應(yīng)的功能。此外,全連接神經(jīng)網(wǎng)絡(luò)也可單獨用于分類任務(wù)。
【參考文獻】:
期刊論文
[1]基于深度學(xué)習(xí)的語義分割問題研究綜述[J]. 張祥甫,劉健,石章松,吳中紅,王智. 激光與光電子學(xué)進展. 2019(15)
[2]回歸——聚類聯(lián)合框架下的手寫文本行提取[J]. 朱健菲,應(yīng)自爐,陳鵬飛. 中國圖象圖形學(xué)報. 2018(08)
[3]基于高階相關(guān)聚類的脫機手寫文本行分割[J]. 殷亞林,劉愛民,周祥東. 華中師范大學(xué)學(xué)報(自然科學(xué)版). 2017(01)
[4]基于圖聚類的脫機手寫文檔圖像文本行分割[J]. 黃亮,殷飛,陳慶虎. 華中科技大學(xué)學(xué)報(自然科學(xué)版). 2014(03)
[5]基于分段式前景涂抹和背景細(xì)化的文本行分割[J]. 易曉芳,卡米力·木依丁,艾斯卡爾·艾木都拉. 計算機工程. 2013(05)
碩士論文
[1]基于圖論的掃描圖像文本行分割與矯正[D]. 鐘巧.湖南大學(xué) 2017
本文編號:2985301
【文章來源】:西安理工大學(xué)陜西省
【文章頁數(shù)】:66 頁
【學(xué)位級別】:碩士
【部分圖文】:
文檔內(nèi)容提取的一般過程
文檔圖像預(yù)處理與卷積神經(jīng)網(wǎng)絡(luò)介紹72文檔圖像預(yù)處理與卷積神經(jīng)網(wǎng)絡(luò)介紹文檔圖像的二值化在文檔圖像的自動處理過程中意義非凡,是文檔分析系統(tǒng)的重要預(yù)處理步驟。歷史文檔在保存的過程中會受到人為或者外界因素的影響而出現(xiàn)退化,例如,古籍文獻會遭受非人為因素的侵蝕和造成文檔質(zhì)量低下,例如現(xiàn)墨水?dāng)U散、退色、起皺等現(xiàn)象。在將文檔掃描為圖像的過程中,圖像的扭曲,或者由于光照的因素而產(chǎn)生對比度變化以及燈光變化產(chǎn)生的噪聲等都會造成掃描圖像的質(zhì)量下降。不同原因造成的低質(zhì)量文檔圖像如圖2-1所示。本章主要介紹卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)及文檔圖像的預(yù)處理方法,并給出文本行分割算法的評價標(biāo)準(zhǔn)。圖2-1低質(zhì)量文檔圖像Figure2-1Degradeddocumentimages2.1卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)2.1.1卷積神經(jīng)網(wǎng)絡(luò)整體結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,CNN)主要用來處理時間序列、圖像等具有網(wǎng)格結(jié)構(gòu)的數(shù)據(jù)[41]。上世紀(jì)80年代就有相關(guān)學(xué)者展開了這方面的研究,YannLeCun等人構(gòu)建的LeNet-5是現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)的雛形。GPU等硬件設(shè)備的更新發(fā)展以及許多深度學(xué)習(xí)開源框架的出現(xiàn)為卷積網(wǎng)絡(luò)的應(yīng)用提供了基矗2012年,著名的AlexNet的提出再次提升了其關(guān)注度,AlesNet的貢獻在于采用了ReLu,該網(wǎng)絡(luò)獲得了ILSVRC的第一名,從那以后,深度學(xué)習(xí)技術(shù)開始在許多領(lǐng)域嶄露頭角,屢屢在各種計算機視覺比賽中
西安理工大學(xué)碩士學(xué)位論文8獲得令人矚目的成績。如圖2-2所示為一個標(biāo)準(zhǔn)的卷積神經(jīng)網(wǎng)絡(luò),輸入圖像通過一系列的卷積、激活以及池化操作,最后利用全連接層進行分類。首先對神經(jīng)網(wǎng)絡(luò)進行簡單介紹。圖2-2標(biāo)準(zhǔn)卷積神經(jīng)網(wǎng)絡(luò)Figure2-2Astandardconvolutionalneuralnetwork(1)神經(jīng)網(wǎng)絡(luò)(neuralnetwork)該模型的目標(biāo)是通過學(xué)習(xí)參數(shù)的值,來近似某個函數(shù)。圖2-3所示為一個人工神經(jīng)元模型,該模型包含n個輸入12,...nxxx,n個權(quán)值12,...nwww,b和y分別表示偏置和輸出。該神經(jīng)元接收一個向量作為輸入,得到一個標(biāo)量輸出,其計算如式(2.1)所示,其中f()表示激活函數(shù),W和X分別為表示權(quán)值和輸入。圖2-3人工神經(jīng)元模型Figure2-3Modelofartificialneuron()()TiiiyfWXbfwxb(2.1)圖2-4所示的多層神經(jīng)網(wǎng)絡(luò),最左側(cè)為輸入層神經(jīng)元,第二層和第三層為隱層,最右側(cè)為輸出層神經(jīng)元。每一層的輸入輸出均可看作向量。具有一個隱含層的神經(jīng)網(wǎng)絡(luò)稱之為淺層神經(jīng)網(wǎng)絡(luò),具有一個以上隱含層的神經(jīng)網(wǎng)絡(luò)稱之為深度神經(jīng)網(wǎng)絡(luò)。分類網(wǎng)絡(luò)一般包含特征提取功能和分類功能,分別由卷積層和全連接層來實現(xiàn)相應(yīng)的功能。此外,全連接神經(jīng)網(wǎng)絡(luò)也可單獨用于分類任務(wù)。
【參考文獻】:
期刊論文
[1]基于深度學(xué)習(xí)的語義分割問題研究綜述[J]. 張祥甫,劉健,石章松,吳中紅,王智. 激光與光電子學(xué)進展. 2019(15)
[2]回歸——聚類聯(lián)合框架下的手寫文本行提取[J]. 朱健菲,應(yīng)自爐,陳鵬飛. 中國圖象圖形學(xué)報. 2018(08)
[3]基于高階相關(guān)聚類的脫機手寫文本行分割[J]. 殷亞林,劉愛民,周祥東. 華中師范大學(xué)學(xué)報(自然科學(xué)版). 2017(01)
[4]基于圖聚類的脫機手寫文檔圖像文本行分割[J]. 黃亮,殷飛,陳慶虎. 華中科技大學(xué)學(xué)報(自然科學(xué)版). 2014(03)
[5]基于分段式前景涂抹和背景細(xì)化的文本行分割[J]. 易曉芳,卡米力·木依丁,艾斯卡爾·艾木都拉. 計算機工程. 2013(05)
碩士論文
[1]基于圖論的掃描圖像文本行分割與矯正[D]. 鐘巧.湖南大學(xué) 2017
本文編號:2985301
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/2985301.html
最近更新
教材專著