針對機器學習中殘缺數(shù)據(jù)的近似補全方法
本文關(guān)鍵詞: 機器學習 殘缺項 二次規(guī)劃 補全方法 出處:《西安交通大學學報》2017年10期 論文類型:期刊論文
【摘要】:針對機器學習中含殘缺項的數(shù)據(jù)不能被有效利用,導致分類和回歸準確率不高的問題,提出了一種近似補全方法——k-ANNO方法。給定殘缺的數(shù)據(jù)樣本,該方法首先通過離線構(gòu)建的圖結(jié)構(gòu)來近似搜索與該樣本最接近的k個近鄰頂點,然后采用快速二次規(guī)劃估計各近鄰的最優(yōu)權(quán)重,最后基于權(quán)重值來補全樣本中的殘缺項,用戶可以根據(jù)實際需求在補全效率與準確性之間折中。k-ANNO方法較好地解決了機器學習中普遍存在的數(shù)據(jù)殘缺問題,有效抑制了數(shù)據(jù)殘缺對分類和回歸精度的干擾。利用多份公開數(shù)據(jù)集評估了k-ANNO方法的補全效果,結(jié)果表明:當加速比在2~10之間時,k-ANNO方法的分類錯誤率比已有的均值補全、C均值補全、自組織映射補全方法低1%~4%,回歸均方根誤差比已有方法低約0.5~2.0;當樣本規(guī)模為4 000時,在不同加速比參數(shù)下,k-ANNO方法的計算效率比樸素k近鄰方法高約35%~320%。
[Abstract]:In order to solve the problem that the data with incomplete items can not be used effectively in machine learning, which leads to the low accuracy of classification and regression, an approximate complement method, k-ANNO method, is proposed, and the incomplete data samples are given. In this method, the nearest nearest vertices to the sample are approximately searched by the graph structure constructed offline, and then the optimal weights of each nearest neighbor are estimated by the fast quadratic programming. Finally, the incomplete items in the whole sample are compensated based on the weight value. According to the actual requirements, users can make a compromise between complete efficiency and accuracy. The method can solve the problem of data incomplete in machine learning. The interference of incomplete data on classification and regression accuracy is effectively suppressed. The complement effect of k-ANNO method is evaluated by using a number of open datasets. The results show that the acceleration ratio is between 2 ~ 10. The classification error rate of k-ANNO method is 1 / 4 lower than that of the existing method, and the root mean square error of regression is about 0.52.0 lower than that of the existing method. When the sample size is 4 000, the computational efficiency of the KANNO method is about 35% higher than that of the simple k nearest neighbor method under different speedup parameters.
【作者單位】: 盲信號處理重點實驗室;
【基金】:國家自然科學基金資助項目(U1536105)
【分類號】:TP181
【正文快照】: 機器學習是一種挖掘數(shù)據(jù)中潛在規(guī)律的有效方法,能夠?qū)ρ芯繉ο蟮奈粗悇e或數(shù)值進行預測,因而被廣泛應用在計算機視覺、智能家居[1]、問卷分析[2]、基因組分析[3]等領(lǐng)域。當機器學習方法的輸入數(shù)據(jù)包含殘缺項時,許多機器學習方法的預測精度會急劇下降,導致漏檢、虛警甚至模型
【相似文獻】
相關(guān)期刊論文 前10條
1 夏潤海,王開顏;機器學習與智能決策支持系統(tǒng)[J];濰坊學院學報;2003年02期
2 張明玉,倪志偉;基于機器學習的智能決策支持系統(tǒng)[J];淮南師范學院學報;2005年03期
3 楊凌霄;武建平;;機器學習方法在人臉檢測中的應用[J];計算機與數(shù)字工程;2008年03期
4 ;第十一屆中國機器學習會議[J];智能系統(tǒng)學報;2008年02期
5 ;第14屆中國機器學習會議[J];智能系統(tǒng)學報;2012年06期
6 費宗銘;呂建;王志堅;陳道蓄;徐家福;;機器學習[J];計算機科學;1991年01期
7 趙沁平;魏華;王軍玲;;機器學習技術(shù)與機器學習系統(tǒng)[J];計算機科學;1993年05期
8 姚敏;機器學習及其發(fā)展方向[J];計算機時代;1994年04期
9 ;第31屆機器學習國際會議(英文)[J];智能系統(tǒng)學報;2014年01期
10 黃海濱;機器學習及其主要策略[J];河池師范高等?茖W校學報(自然科學版);2000年04期
相關(guān)會議論文 前10條
1 王玨;;歸納機器學習[A];2001年中國智能自動化會議論文集(上冊)[C];2001年
2 吳滄浦;;智能系統(tǒng)與機器學習的新領(lǐng)域[A];西部大開發(fā) 科教先行與可持續(xù)發(fā)展——中國科協(xié)2000年學術(shù)年會文集[C];2000年
3 周晴杰;徐立鴻;吳啟迪;;機器學習串級結(jié)構(gòu)的初步探討[A];1998年中國控制會議論文集[C];1998年
4 李剛;郭崇慧;林鴻飛;楊志豪;唐煥文;;基于詞典法和機器學習法相結(jié)合的蛋白質(zhì)名識別[A];大連理工大學生物醫(yī)學工程學術(shù)論文集(第2卷)[C];2005年
5 蔡健平;林世平;;基于機器學習的詞語和句子極性分析[A];第三屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2007年
6 黃金鐵;李景銀;周建常;;對高爐爐況評價模型參數(shù)的機器學習——一個三類線性模式分類器的實現(xiàn)[A];1995中國控制與決策學術(shù)年會論文集[C];1995年
7 程國建;蔡磊;潘華賢;;核向量機在大規(guī)模機器學習中的應用[A];第十一屆中國青年信息與管理學者大會論文集[C];2009年
8 張鈸;張鈴;;統(tǒng)計學習理論及其應用[A];2001年中國智能自動化會議論文集(上冊)[C];2001年
9 周川;林學,
本文編號:1484967
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/1484967.html