基于深度學習的圖像數(shù)據(jù)清洗方法研究
發(fā)布時間:2021-12-30 23:55
近年來,信息化社會不斷發(fā)展,人工智能在越來越多的方面滲透到我們的生活當中。隨著卷積神經(jīng)網(wǎng)絡(luò)相關(guān)理論的提出和不斷完善,傳統(tǒng)模式識別難以自動提取圖像自有特征的缺點被很好地彌補。新的模型的學習能力更強,對圖像特征的把握更好,使得基于卷積神經(jīng)網(wǎng)絡(luò)的模型在目標檢測、人臉識別、圖像識別甚至自然語言處理上都取得了良好的效果。與此同時,數(shù)據(jù)清洗相關(guān)產(chǎn)業(yè)隨著互聯(lián)網(wǎng)信息數(shù)量的持續(xù)爆炸增長應(yīng)運而生,但是相關(guān)產(chǎn)業(yè)中對于圖像數(shù)據(jù)清洗的研究仍舊很少。如何針對來自互聯(lián)網(wǎng)的圖像數(shù)據(jù)進行清洗,以提高數(shù)據(jù)質(zhì)量,進而得到優(yōu)質(zhì)訓(xùn)練集來提高卷積神經(jīng)網(wǎng)絡(luò)的識別效果,是一個值得研究且有重要意義的課題。針對該問題,本文在介紹了卷積神經(jīng)網(wǎng)絡(luò)目前發(fā)展和數(shù)據(jù)清洗的行業(yè)現(xiàn)狀后,提出了一種針對互聯(lián)網(wǎng)圖像數(shù)據(jù)的清洗方法,主要成果如下:(1)提出了一種評價圖像數(shù)據(jù)集質(zhì)量的方法。對于不同的數(shù)據(jù)集,將其通過同樣的方式隨機制作訓(xùn)練集和測試集,并通過同一CNN網(wǎng)絡(luò)結(jié)構(gòu)進行網(wǎng)絡(luò)參數(shù)優(yōu)化訓(xùn)練,根據(jù)訓(xùn)練迭代結(jié)束時的網(wǎng)絡(luò)測試識別率判定該數(shù)據(jù)集質(zhì)量的高低。(2)提出了一種低識別率圖像數(shù)據(jù)的清洗方法。這里低識別率是指數(shù)據(jù)集標注錯誤相對較多。每次使用某數(shù)據(jù)集訓(xùn)練出的C...
【文章來源】:北京工業(yè)大學北京市 211工程院校
【文章頁數(shù)】:46 頁
【學位級別】:碩士
【部分圖文】:
LeNet結(jié)構(gòu)圖
第 3 章 圖像清洗方法及實驗結(jié)果分析第 3 章 圖像清洗方法及實驗結(jié)果分析為了利用 CNN 實現(xiàn)一個植物花卉識別系統(tǒng),本文從互聯(lián)網(wǎng)爬取了十余萬張圖片,構(gòu)建了一個植物花卉數(shù)據(jù)集,并針對于該數(shù)據(jù)集圖像所存在的問題,設(shè)計了低識別率和少數(shù)類別兩種清洗方法。而且,通過清洗前和清洗后的對比實驗,驗證了該方法的有效性。3.1 圖像數(shù)據(jù)集的問題描述本文從互聯(lián)網(wǎng)爬取下了十余萬張植物花卉圖片,共計七百余類,部分如圖 3-1所示。
Figure 3-1 Example of image data然而,該數(shù)據(jù)集中的圖像存在一些問題,以圖 3-2 所示“虎刺梅”為例:有的圖片標簽與內(nèi)容不相符合,如圖3-2(a);有的圖片所示植物花卉主體不夠突出,辨識度低,如圖 3-2(b);還有的圖片含有較為明顯的文字信息,對植物花卉主體造成了一定的干擾,如圖 3-2(c)。這些圖片與同類中其他圖片相比,不利于 CNN進行分類訓(xùn)練,本文稱之為“低識別率”數(shù)據(jù),需要對其進行清洗。
【參考文獻】:
期刊論文
[1]基于人工免疫系統(tǒng)的反垃圾郵件過濾機制[J]. 胡可,張家樹. 計算機應(yīng)用. 2005(11)
[2]一種可交互的數(shù)據(jù)清洗系統(tǒng)[J]. 王詠梅,陳家琪,耿玉良. 計算機工程與設(shè)計. 2005(04)
本文編號:3559215
【文章來源】:北京工業(yè)大學北京市 211工程院校
【文章頁數(shù)】:46 頁
【學位級別】:碩士
【部分圖文】:
LeNet結(jié)構(gòu)圖
第 3 章 圖像清洗方法及實驗結(jié)果分析第 3 章 圖像清洗方法及實驗結(jié)果分析為了利用 CNN 實現(xiàn)一個植物花卉識別系統(tǒng),本文從互聯(lián)網(wǎng)爬取了十余萬張圖片,構(gòu)建了一個植物花卉數(shù)據(jù)集,并針對于該數(shù)據(jù)集圖像所存在的問題,設(shè)計了低識別率和少數(shù)類別兩種清洗方法。而且,通過清洗前和清洗后的對比實驗,驗證了該方法的有效性。3.1 圖像數(shù)據(jù)集的問題描述本文從互聯(lián)網(wǎng)爬取下了十余萬張植物花卉圖片,共計七百余類,部分如圖 3-1所示。
Figure 3-1 Example of image data然而,該數(shù)據(jù)集中的圖像存在一些問題,以圖 3-2 所示“虎刺梅”為例:有的圖片標簽與內(nèi)容不相符合,如圖3-2(a);有的圖片所示植物花卉主體不夠突出,辨識度低,如圖 3-2(b);還有的圖片含有較為明顯的文字信息,對植物花卉主體造成了一定的干擾,如圖 3-2(c)。這些圖片與同類中其他圖片相比,不利于 CNN進行分類訓(xùn)練,本文稱之為“低識別率”數(shù)據(jù),需要對其進行清洗。
【參考文獻】:
期刊論文
[1]基于人工免疫系統(tǒng)的反垃圾郵件過濾機制[J]. 胡可,張家樹. 計算機應(yīng)用. 2005(11)
[2]一種可交互的數(shù)據(jù)清洗系統(tǒng)[J]. 王詠梅,陳家琪,耿玉良. 計算機工程與設(shè)計. 2005(04)
本文編號:3559215
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3559215.html
最近更新
教材專著