基于噪音Oracle的模型未知錯誤識別研究
【學位單位】:華東師范大學
【學位級別】:碩士
【學位年份】:2019
【中圖分類】:TP301.6
【部分圖文】:
雖然深度學習在很多任務上能表現出比傳統算法更好的性能,但這類數據驅動技術往往需要大量高質量、有標簽數據才能獲得較好的效果。然而,很多任務的數據采集以及標注難度都很困難,比如圖1-1中所示的醫(yī)療診斷任務。在這些任務中經常會發(fā)生收集到的訓練數據覆蓋不全面的問題,這種問題會導致訓練集和真實部署環(huán)境數據之間存在采樣偏差問題(Sampling Bias Problem),而且這種采樣偏差問題往往很難發(fā)現;谶@些有偏差數據集訓練出來的模型在真實環(huán)境中的預測性能沒有實驗環(huán)境下好。在所有模型預測錯誤的樣本中,一部分會被模型給予較低的置信度,這類樣本被稱作為模型的已知錯誤(Known Unknowns)[2][18],即模型已經知道其預測結果可能是錯誤的樣本。這類模型已知錯誤通常是訓練集里含有但數量不多的樣本[2],在預測階段模型無法肯定其預測結果是一定正確的。在模型預測錯誤的樣本中,還有一小部分是模型給予很高的置信度
目的是向訓練集中添加在模型分類邊界處的樣本,使新模型能夠學到更好的分類邊界,減少已知錯誤的數量來提升準確率。另外,在一些高風險任務中,往往會對模型預測置信度不高的樣本進行人工標注以避免重大事故的發(fā)生。比如,視頻網站對用戶上傳的投稿審核流程一般是先模型預測,然后通過設置閾值把一些置信度低的稿件讓審核人員人工檢查一遍,降低這些已知錯誤帶來的風險。雖然模型的未知錯誤數量相對于已知錯誤往往較少,但由于它們不能通過設置置信度閾值的方法篩選出來,因此在這些高風險任務中危害更大。假如在圖1-1的醫(yī)療診斷系統中,當模型對一位潛在患者給出健康診斷同時給予非常高的置信度。這種情況下,由于對診斷模型的信任,醫(yī)生往往不會再讓該患者進行進一步的分析和審查,最終導致災難性的后果。因此,對模型的未知錯誤進行識別和分析是一件非常有價值且迫切的任務。
往往都是假設未知錯誤聚集在特征空間上的一些確定區(qū)域[18]。比如,一個貓狗圖片分類模型(圖1-3),由于訓練集里缺少白皮膚狗的圖片,因此模型將很多白皮膚狗圖片識別錯誤,其中一些置信度高的樣本就成為了模型的未知錯誤。這些圖片在一些高階特征空間上具有一定的相似性(比如都具有相似顏色的皮膚)。而如果僅僅是在低階特征空間上,如用原始像素作為特征向量來進行距離計算,那么識別算法很難捕捉到這些高階抽象信息。
【相似文獻】
相關期刊論文 前10條
1 張劍;;ORACLE字符集遷移及亂碼問題的解析[J];赤子(上中旬);2016年22期
2 赫春曉;;一種基于Oracle的街景分布式數據庫實現方法[J];現代測繪;2017年05期
3 宋巖;;基于服務器端的鉆井工程計算的研究與運用——Oracle鉆井數據庫[J];科技創(chuàng)新與應用;2017年26期
4 冼志生;;虛擬技術在Oracle數據庫備份中的應用[J];信息化建設;2015年12期
5 杜戰(zhàn)偉;;探討Oracle數據庫管理之控制文件[J];電子測試;2016年10期
6 白天;楊志和;邱自華;;Oracle數據庫系統及應用課程教學改革探索[J];湖南理工學院學報(自然科學版);2016年03期
7 李璐璐;;Oracle數據庫優(yōu)化方法分析[J];硅谷;2014年24期
8 楊瑩;;基于Oracle數據庫大數據的檢索優(yōu)化分析與設計[J];數碼世界;2017年04期
9 沈一通;;基于oracle日志挖掘的增量同步方案的設計[J];數碼世界;2017年06期
10 楊彥聰;武媛;;Oracle在學生管理系統中的應用[J];信息通信;2014年05期
相關博士學位論文 前1條
1 石躍勇;參數個數發(fā)散下具有oracle性質的SICA懲罰估計[D];武漢大學;2013年
相關碩士學位論文 前10條
1 鄭波;基于噪音Oracle的模型未知錯誤識別研究[D];華東師范大學;2019年
2 孟津平;Oracle數據庫下的系統性能調整與優(yōu)化的研究[D];長春理工大學;2018年
3 秦巖;基于Oracle商務套件的寧夏移動公司ERP系統的應用研究[D];寧夏大學;2014年
4 朱文瑩;基于Oracle三層結構的動車組關鍵配件管理模塊的設計[D];華南理工大學;2013年
5 柯欣;ORACLE中國公司戰(zhàn)略管理探析[D];西南財經大學;2010年
6 陳永亮;Oracle環(huán)境下數據遷移技術研究與實現[D];北方工業(yè)大學;2011年
7 莊海燕;數據庫加密技術及其在Oracle中的應用[D];鄭州大學;2006年
8 張巖;基于Oracle的高速公路收費系統數據庫設計及應用[D];東南大學;2005年
9 韓峰;基于Oracle的電力營銷數據倉庫的設計與實現[D];山東大學;2007年
10 呂洪敏;基于Oracle數據倉庫應用技術的研究與實現[D];武漢科技大學;2007年
本文編號:2848092
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2848092.html