基于端到端可訓(xùn)練神經(jīng)網(wǎng)絡(luò)的手寫化學(xué)方程式識別
發(fā)布時間:2021-12-17 23:04
隨著互聯(lián)網(wǎng)與人工智能的快速發(fā)展,教育信息化已經(jīng)開始影響并改變傳統(tǒng)教育方式,在線解答等人機(jī)交互的場景越來越普遍,手寫識別問題成為了計算機(jī)視覺領(lǐng)域的一個研究方向。對于人類來說識別手寫字符是一件很簡單的事,但這對于計算機(jī)而言非常復(fù)雜。近年來,深度卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展給計算機(jī)視覺領(lǐng)域帶來了革命性的變化,卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)合在基于圖像的序列識別問題中取得了巨大的成功,推動了手寫識別領(lǐng)域的進(jìn)展。目前針對手寫識別方面的研究主要集中在英文字符、數(shù)字和漢字上,并已在這些領(lǐng)域取得好成績,然而這些識別只局限于一維空間上,由于復(fù)雜的二維空間結(jié)構(gòu)和長度原因,手寫化學(xué)公式的識別仍然是一項艱巨的任務(wù)。解決該問題,一方面可以促進(jìn)手寫化學(xué)方程式識別的發(fā)展,另一方面可以應(yīng)用于在線解答,例如作為教學(xué)輔助手段快速批改作業(yè),實現(xiàn)化學(xué)方程式快速錄入計算機(jī)等等。本文針對離線手寫化學(xué)方程式識別主要做了以下工作:(1)基于電子筆錄入的數(shù)據(jù)樣本采集,由于目前沒有公開的手寫化學(xué)方程式數(shù)據(jù)集,因此我們手動收集了一個新的數(shù)據(jù)集,包括6586個手寫化學(xué)方程式樣本。(2)提出了基于端到端神經(jīng)網(wǎng)絡(luò)的離線手寫化學(xué)方程式識別的訓(xùn)練方法,采用C...
【文章來源】:華中師范大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1.2信息數(shù)字化的主要途徑??對手寫識別的研宄開始于20世紀(jì)中葉,隨著手寫板硬件的出現(xiàn),手寫識別技??術(shù)成為了一個研宄方向
寫識別在化學(xué)領(lǐng)域的研宄開始于上世紀(jì)八十年代末。目前針對該方面的研??宄,從數(shù)據(jù)來源來看,處理對象分為離線手寫化學(xué)文檔、聯(lián)機(jī)手寫化學(xué)文檔及印??刷體化學(xué)文檔三類。其中有關(guān)離線手寫化學(xué)文檔的研究是最少的。印刷體文檔的??字形比較統(tǒng)一,格式相對規(guī)范,識別難度低了很多,目前己有較為成熟的方法。??而聯(lián)機(jī)文檔已知一些筆順信息及時間上的信息,相對而言難度也較低。本文研宄??的內(nèi)容為離線手寫化學(xué)方程式識別。??化學(xué)常見的文本表達(dá)形式有四種,分別是化學(xué)元素,化學(xué)分子,化學(xué)結(jié)構(gòu)式??和化學(xué)方程式,如圖1.3。由于復(fù)雜的空間結(jié)構(gòu)和上下文關(guān)系,化學(xué)方程式識別面??臨著巨大挑戰(zhàn)。近年來,這一領(lǐng)域受到了研究人員的關(guān)注,已出版的著作主要集??中在化學(xué)符號識別,化學(xué)結(jié)構(gòu)式識別和化學(xué)方程式識別。??化學(xué)符號識別方面,文獻(xiàn)提出了聯(lián)機(jī)手寫化學(xué)符號識別的不同方法。文??獻(xiàn)[11]的解決方案基于隱馬爾可夫模型(HMM),它每個符號構(gòu)建HMM,并提取??11維局部特征。隨后文獻(xiàn)[1()]通過提出一個新的兩階段分類器來改進(jìn)原始方法。第??一階段是粗分類,第二階段使用支持向量機(jī)(SVM)用于區(qū)分有機(jī)和非有機(jī)環(huán)符??號,然后采用HMM進(jìn)行細(xì)粒度識別。文獻(xiàn)[12]提出了一種用于聯(lián)機(jī)手寫化學(xué)符號??識別的支持向量機(jī)-彈性匹配(SVM-EM)方法。??化學(xué)元素? ̄|?|?化學(xué)式??H?C?Mg?Ca?FeO?NRj?IhO?C〇2??N?〇?Mn?Cu?Mn〇2?〇3?CH4?Na2S??(a)化學(xué)元素?(b)化學(xué)式??ch3??(S??HCl?+?Na2C03?=?NaCl?+?NaHC03?(c)??化學(xué)結(jié)構(gòu)式?(d)化學(xué)方程式?
碩士學(xué)位論文??MASTER'S?THESIS??不一,字符重疊的嚴(yán)重情況不一,筆劃的相對位置也不一樣。此外,輸入中不可??避免地會出現(xiàn)斷字和粘連字符;另一方面,基于電子手寫筆的輸入也受各種書寫??風(fēng)格的影響,以及由于各種人為原因而造成不可避免的隨機(jī)噪聲,這使得計算機(jī)??識別變得異常困難。圖1.4說明了化學(xué)方程式2A1?+?3S么A12S3的五種不同書寫樣??式,這表明了這項任務(wù)的挑戰(zhàn)。??ZAH35??圖1.4五種不同字體書寫的相同化學(xué)方程式??(2)結(jié)構(gòu)復(fù)雜、長度不一??手寫化學(xué)方程式識別的第二個困難在于化學(xué)方程式復(fù)雜的空間結(jié)構(gòu)。它們具??有各種長度,例如方程式H_2S?+?2FeCl_3?—?S丨+?2FeCl_2?+?2HC1具有28個字符,??而方程式11_2?+?F_2?—?2HF僅具有11個字符(我們用字符表示下標(biāo))。此外,??由于化學(xué)方程式是二維空間結(jié)構(gòu)分布,存在特殊的空間信息下標(biāo),也給識別也帶??了相當(dāng)?shù)睦щy。??(3)符號數(shù)量多、相似符號多??表示化學(xué)物質(zhì)的化學(xué)符號理論上來說不能窮舉,即使將它們劃分為獨立的符??號,也有上百個之多。本文討論的僅包括無機(jī)化學(xué)方程式,其中包括數(shù)字、英文??字符,以及形式多樣的符號,比如加熱符號“>、氣體符號“t”以及沉淀符號等??等。識別模型需要正確辨識這些基本符號,才能滿足在實際應(yīng)用中的需要;瘜W(xué)??方程式識別是一個大規(guī)模的模式分類問題,可以說,大規(guī)模的符號數(shù)量是造成化??學(xué)方程式識別困難的主要原因之一。同時,在化學(xué)符號集合中存在大量的相似符??號組,如無機(jī)符號“a”、“(”、“r”、“v”,之間難以區(qū)分。這些相似符號的存??在,嚴(yán)重干擾了
【參考文獻(xiàn)】:
期刊論文
[1]基于雙向長短時記憶-聯(lián)結(jié)時序分類和加權(quán)有限狀態(tài)轉(zhuǎn)換器的端到端中文語音識別系統(tǒng)[J]. 姚煜,RYAD Chellali. 計算機(jī)應(yīng)用. 2018(09)
[2]生物特征識別技術(shù)綜述[J]. 本刊編輯部. 安防科技. 2007(05)
博士論文
[1]聯(lián)機(jī)手寫化學(xué)公式處理關(guān)鍵問題研究[D]. 楊巨峰.南開大學(xué) 2009
碩士論文
[1]基于深度神經(jīng)網(wǎng)絡(luò)的圖像邊緣檢測算法研究[D]. 覃禹舜.西南交通大學(xué) 2019
[2]基于深度學(xué)習(xí)的聯(lián)機(jī)蒙古文手寫識別系統(tǒng)研究[D]. 李敏.內(nèi)蒙古大學(xué) 2019
[3]基于WPF的初中化學(xué)仿真實驗工具的設(shè)計與開發(fā)[D]. 玄德.華中師范大學(xué) 2014
[4]基于神經(jīng)網(wǎng)絡(luò)的在線手寫體Pitman速記的識別[D]. 邾銘.浙江大學(xué) 2003
本文編號:3541125
【文章來源】:華中師范大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1.2信息數(shù)字化的主要途徑??對手寫識別的研宄開始于20世紀(jì)中葉,隨著手寫板硬件的出現(xiàn),手寫識別技??術(shù)成為了一個研宄方向
寫識別在化學(xué)領(lǐng)域的研宄開始于上世紀(jì)八十年代末。目前針對該方面的研??宄,從數(shù)據(jù)來源來看,處理對象分為離線手寫化學(xué)文檔、聯(lián)機(jī)手寫化學(xué)文檔及印??刷體化學(xué)文檔三類。其中有關(guān)離線手寫化學(xué)文檔的研究是最少的。印刷體文檔的??字形比較統(tǒng)一,格式相對規(guī)范,識別難度低了很多,目前己有較為成熟的方法。??而聯(lián)機(jī)文檔已知一些筆順信息及時間上的信息,相對而言難度也較低。本文研宄??的內(nèi)容為離線手寫化學(xué)方程式識別。??化學(xué)常見的文本表達(dá)形式有四種,分別是化學(xué)元素,化學(xué)分子,化學(xué)結(jié)構(gòu)式??和化學(xué)方程式,如圖1.3。由于復(fù)雜的空間結(jié)構(gòu)和上下文關(guān)系,化學(xué)方程式識別面??臨著巨大挑戰(zhàn)。近年來,這一領(lǐng)域受到了研究人員的關(guān)注,已出版的著作主要集??中在化學(xué)符號識別,化學(xué)結(jié)構(gòu)式識別和化學(xué)方程式識別。??化學(xué)符號識別方面,文獻(xiàn)提出了聯(lián)機(jī)手寫化學(xué)符號識別的不同方法。文??獻(xiàn)[11]的解決方案基于隱馬爾可夫模型(HMM),它每個符號構(gòu)建HMM,并提取??11維局部特征。隨后文獻(xiàn)[1()]通過提出一個新的兩階段分類器來改進(jìn)原始方法。第??一階段是粗分類,第二階段使用支持向量機(jī)(SVM)用于區(qū)分有機(jī)和非有機(jī)環(huán)符??號,然后采用HMM進(jìn)行細(xì)粒度識別。文獻(xiàn)[12]提出了一種用于聯(lián)機(jī)手寫化學(xué)符號??識別的支持向量機(jī)-彈性匹配(SVM-EM)方法。??化學(xué)元素? ̄|?|?化學(xué)式??H?C?Mg?Ca?FeO?NRj?IhO?C〇2??N?〇?Mn?Cu?Mn〇2?〇3?CH4?Na2S??(a)化學(xué)元素?(b)化學(xué)式??ch3??(S??HCl?+?Na2C03?=?NaCl?+?NaHC03?(c)??化學(xué)結(jié)構(gòu)式?(d)化學(xué)方程式?
碩士學(xué)位論文??MASTER'S?THESIS??不一,字符重疊的嚴(yán)重情況不一,筆劃的相對位置也不一樣。此外,輸入中不可??避免地會出現(xiàn)斷字和粘連字符;另一方面,基于電子手寫筆的輸入也受各種書寫??風(fēng)格的影響,以及由于各種人為原因而造成不可避免的隨機(jī)噪聲,這使得計算機(jī)??識別變得異常困難。圖1.4說明了化學(xué)方程式2A1?+?3S么A12S3的五種不同書寫樣??式,這表明了這項任務(wù)的挑戰(zhàn)。??ZAH35??圖1.4五種不同字體書寫的相同化學(xué)方程式??(2)結(jié)構(gòu)復(fù)雜、長度不一??手寫化學(xué)方程式識別的第二個困難在于化學(xué)方程式復(fù)雜的空間結(jié)構(gòu)。它們具??有各種長度,例如方程式H_2S?+?2FeCl_3?—?S丨+?2FeCl_2?+?2HC1具有28個字符,??而方程式11_2?+?F_2?—?2HF僅具有11個字符(我們用字符表示下標(biāo))。此外,??由于化學(xué)方程式是二維空間結(jié)構(gòu)分布,存在特殊的空間信息下標(biāo),也給識別也帶??了相當(dāng)?shù)睦щy。??(3)符號數(shù)量多、相似符號多??表示化學(xué)物質(zhì)的化學(xué)符號理論上來說不能窮舉,即使將它們劃分為獨立的符??號,也有上百個之多。本文討論的僅包括無機(jī)化學(xué)方程式,其中包括數(shù)字、英文??字符,以及形式多樣的符號,比如加熱符號“>、氣體符號“t”以及沉淀符號等??等。識別模型需要正確辨識這些基本符號,才能滿足在實際應(yīng)用中的需要;瘜W(xué)??方程式識別是一個大規(guī)模的模式分類問題,可以說,大規(guī)模的符號數(shù)量是造成化??學(xué)方程式識別困難的主要原因之一。同時,在化學(xué)符號集合中存在大量的相似符??號組,如無機(jī)符號“a”、“(”、“r”、“v”,之間難以區(qū)分。這些相似符號的存??在,嚴(yán)重干擾了
【參考文獻(xiàn)】:
期刊論文
[1]基于雙向長短時記憶-聯(lián)結(jié)時序分類和加權(quán)有限狀態(tài)轉(zhuǎn)換器的端到端中文語音識別系統(tǒng)[J]. 姚煜,RYAD Chellali. 計算機(jī)應(yīng)用. 2018(09)
[2]生物特征識別技術(shù)綜述[J]. 本刊編輯部. 安防科技. 2007(05)
博士論文
[1]聯(lián)機(jī)手寫化學(xué)公式處理關(guān)鍵問題研究[D]. 楊巨峰.南開大學(xué) 2009
碩士論文
[1]基于深度神經(jīng)網(wǎng)絡(luò)的圖像邊緣檢測算法研究[D]. 覃禹舜.西南交通大學(xué) 2019
[2]基于深度學(xué)習(xí)的聯(lián)機(jī)蒙古文手寫識別系統(tǒng)研究[D]. 李敏.內(nèi)蒙古大學(xué) 2019
[3]基于WPF的初中化學(xué)仿真實驗工具的設(shè)計與開發(fā)[D]. 玄德.華中師范大學(xué) 2014
[4]基于神經(jīng)網(wǎng)絡(luò)的在線手寫體Pitman速記的識別[D]. 邾銘.浙江大學(xué) 2003
本文編號:3541125
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3541125.html
最近更新
教材專著