面向異常數(shù)據(jù)的魯棒真值發(fā)現(xiàn)算法及其應(yīng)用
發(fā)布時(shí)間:2021-11-06 20:15
在這個(gè)信息爆炸的時(shí)代,與某個(gè)特定實(shí)體相關(guān)的信息往往會(huì)由多個(gè)不同的數(shù)據(jù)源提供,比如:不同氣象觀測(cè)部門對(duì)同一地區(qū)的氣象要素描述,放射性成像的醫(yī)學(xué)圖像分割閾值等。但是,傳感器的觀測(cè)誤差,放射性藥物的注射計(jì)量偏差,這些都會(huì)使不同數(shù)據(jù)源對(duì)特定實(shí)體的相關(guān)信息描述產(chǎn)生不同的偏差。因此,真值發(fā)現(xiàn)旨在從多個(gè)存在偏差和沖突的數(shù)據(jù)源中提取出最為可信的信息。近年來(lái),真值發(fā)現(xiàn)得到了學(xué)術(shù)和企業(yè)界的廣泛關(guān)注,傳統(tǒng)的真值發(fā)現(xiàn)模型往往卻依賴于這樣的假設(shè):高可靠度的數(shù)據(jù)源不可能產(chǎn)生大誤差的觀測(cè)值,即使低可靠度的數(shù)據(jù)源產(chǎn)生的觀測(cè)誤差也在一個(gè)確定的范圍內(nèi)。然而,結(jié)合大量的實(shí)際應(yīng)用中的數(shù)據(jù)集,這種假設(shè)往往不成立:即使位于城市中心的高可靠度氣象觀測(cè)站也可能因?yàn)槲锢砥茐亩蟼鞔笳`差的異常值,一批次的藥用實(shí)驗(yàn)大鼠中可能因?yàn)樗幬锊荒褪艿膫(gè)體而使實(shí)驗(yàn)產(chǎn)生的圖像分割閾值不適用。這種促使傳統(tǒng)的真值發(fā)現(xiàn)模型中假設(shè)不成立的數(shù)據(jù),在已有的真值發(fā)現(xiàn)文獻(xiàn)中被稱為異常數(shù)據(jù),需要通過(guò)人工進(jìn)行預(yù)去除。為此,本文擬研究面向異常數(shù)據(jù)的魯棒真值發(fā)現(xiàn)算法及其應(yīng)用,本文主要貢獻(xiàn)如下:首先,針對(duì)多個(gè)可靠度的真值確實(shí)存在的情況,核密度估計(jì)方法總結(jié)了多個(gè)真值的候選觀測(cè)值。...
【文章來(lái)源】:湘潭大學(xué)湖南省
【文章頁(yè)數(shù)】:64 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
氣象數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果性能對(duì)比
B 收斂速率在測(cè)量方法的性能表現(xiàn)時(shí),還需要考慮該算法的收斂速度的快慢。本次實(shí)驗(yàn)將在股票數(shù)據(jù)集上進(jìn)行 LLR 方法的算法收斂速度測(cè)試。如圖 3.3 所示, 源 2、3、和 5 的可靠度不斷增加,而源 1 的權(quán)重則會(huì)減小,直到收斂。源權(quán)重在第三次迭代結(jié)束時(shí)達(dá)到穩(wěn)定階段。因此,所提出的算法能夠快速地收斂。
股票數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果性能對(duì)比
【參考文獻(xiàn)】:
期刊論文
[1]一種高效的大數(shù)據(jù)增量真值發(fā)現(xiàn)算法[J]. 譚龍,張曉琪,賈立,李建中,王宏志. 哈爾濱工程大學(xué)學(xué)報(bào). 2019(04)
[2]關(guān)聯(lián)數(shù)據(jù)沖突消解方法研究[J]. 何緋娟,劉文強(qiáng),繆相林,許大煒. 計(jì)算機(jī)技術(shù)與發(fā)展. 2018(11)
[3]基于EM算法的多真值發(fā)現(xiàn)問(wèn)題研究[J]. 陳超,崔紅霞. 渤海大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(03)
[4]A Multi-dimensional Trust-aware Cloud Service Selection Mechanism Based on Evidential Reasoning Approach[J]. Wen-Juan Fan,Shan-Lin Yang,Harry Perros,Jun Pei. International Journal of Automation and Computing. 2015(02)
碩士論文
[1]Web數(shù)據(jù)集成中基于貝葉斯模型的真值發(fā)現(xiàn)研究[D]. 余東.東北大學(xué) 2015
[2]劣質(zhì)數(shù)據(jù)上真值發(fā)現(xiàn)關(guān)鍵技術(shù)研究[D]. 王玉龍.哈爾濱工業(yè)大學(xué) 2014
本文編號(hào):3480455
【文章來(lái)源】:湘潭大學(xué)湖南省
【文章頁(yè)數(shù)】:64 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
氣象數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果性能對(duì)比
B 收斂速率在測(cè)量方法的性能表現(xiàn)時(shí),還需要考慮該算法的收斂速度的快慢。本次實(shí)驗(yàn)將在股票數(shù)據(jù)集上進(jìn)行 LLR 方法的算法收斂速度測(cè)試。如圖 3.3 所示, 源 2、3、和 5 的可靠度不斷增加,而源 1 的權(quán)重則會(huì)減小,直到收斂。源權(quán)重在第三次迭代結(jié)束時(shí)達(dá)到穩(wěn)定階段。因此,所提出的算法能夠快速地收斂。
股票數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果性能對(duì)比
【參考文獻(xiàn)】:
期刊論文
[1]一種高效的大數(shù)據(jù)增量真值發(fā)現(xiàn)算法[J]. 譚龍,張曉琪,賈立,李建中,王宏志. 哈爾濱工程大學(xué)學(xué)報(bào). 2019(04)
[2]關(guān)聯(lián)數(shù)據(jù)沖突消解方法研究[J]. 何緋娟,劉文強(qiáng),繆相林,許大煒. 計(jì)算機(jī)技術(shù)與發(fā)展. 2018(11)
[3]基于EM算法的多真值發(fā)現(xiàn)問(wèn)題研究[J]. 陳超,崔紅霞. 渤海大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(03)
[4]A Multi-dimensional Trust-aware Cloud Service Selection Mechanism Based on Evidential Reasoning Approach[J]. Wen-Juan Fan,Shan-Lin Yang,Harry Perros,Jun Pei. International Journal of Automation and Computing. 2015(02)
碩士論文
[1]Web數(shù)據(jù)集成中基于貝葉斯模型的真值發(fā)現(xiàn)研究[D]. 余東.東北大學(xué) 2015
[2]劣質(zhì)數(shù)據(jù)上真值發(fā)現(xiàn)關(guān)鍵技術(shù)研究[D]. 王玉龍.哈爾濱工業(yè)大學(xué) 2014
本文編號(hào):3480455
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3480455.html
最近更新
教材專著