基于信任模型的魯棒眾包數(shù)據(jù)分析方法及應(yīng)用
發(fā)布時(shí)間:2021-01-21 13:17
眾包是互聯(lián)網(wǎng)大發(fā)展趨勢下衍生的一種非常流行的新型商業(yè)模式,企業(yè)將過去由員工執(zhí)行的任務(wù)分配出去,以自由自愿的形式外包給非特定的(通常是大型的)大眾志愿者來完成,遵從開放式的集思廣益的思想來獲得最優(yōu)質(zhì)的任務(wù)結(jié)果。志愿者在付出了自己的努力,完成任務(wù)之后,可以獲得不小的報(bào)酬。這就是眾包在當(dāng)前互聯(lián)網(wǎng)時(shí)代下為軟件業(yè)和服務(wù)業(yè)提供的全新勞務(wù)分包模式。大量志愿者得益于眾包提供的工作模式,獲得了不小的報(bào)酬。但是,在這一過程中,有些志愿者并沒有認(rèn)真地完成任務(wù),為了騙取傭金,使利益最大化,往往會提供虛假數(shù)據(jù),一旦將這類志愿者提供的數(shù)據(jù)采納使用,將會給企業(yè)帶來重大損失。因此,對眾包任務(wù)結(jié)果質(zhì)量的評估篩選是一項(xiàng)具有挑戰(zhàn)性的工作。目前,國內(nèi)外對于眾包質(zhì)量的控制研究還處于初始階段。針對以上存在的問題,本文對眾包數(shù)據(jù)質(zhì)量評估進(jìn)行研究,提出了一些有效的方法,以達(dá)到獲取高質(zhì)量眾包數(shù)據(jù)的目的,主要包括以下幾個(gè)方面:(1)本文對眾包的發(fā)展歷程進(jìn)行了研究,并對現(xiàn)存的眾包數(shù)據(jù)質(zhì)量評估方法進(jìn)行了分析總結(jié);本文對貝葉斯算法模型進(jìn)行了研究,并對貝葉斯算法模型在不同情況下的應(yīng)用進(jìn)行了綜述與分析。(2)本文提出了一種基于信任模型的魯棒眾包數(shù)...
【文章來源】:南京郵電大學(xué)江蘇省
【文章頁數(shù)】:58 頁
【學(xué)位級別】:碩士
【部分圖文】:
貝塔分布概率密度圖
南京郵電大學(xué)專業(yè)學(xué)位碩士研究生學(xué)位論文第一章緒論5圖1.1貝塔分布概率密度圖圖1.1展示了在α和β值不同時(shí),通過貝塔分布得出的不同概率密度函數(shù)分布圖,觀察上圖可以發(fā)現(xiàn),貝塔分布的形狀雖然多種多樣,但是都在區(qū)間[0-1]內(nèi)。因此,貝塔分布特別適合為某個(gè)事件發(fā)生或者成功的概率建立模型,并且,當(dāng)α=1、β=1時(shí),貝塔分布是一個(gè)均勻分布。貝塔分布也廣泛地應(yīng)用于求某事件發(fā)生的先驗(yàn)概率,下面以預(yù)測運(yùn)動員棒球擊球率為例對貝塔分布進(jìn)行簡要介紹。圖1.2為貝塔分布先驗(yàn)示意圖。圖1.2貝塔分布先驗(yàn)示意圖圖1.2展示了貝塔分布作為先驗(yàn)時(shí)的概率模型圖。如圖所示,參數(shù)θ代表的是該名運(yùn)動員擊球率的分布(這里的θ既代表一個(gè)分布,也表示該分布的參數(shù)。因?yàn)樵诟怕蕡D模型中,通常用某個(gè)分布的參數(shù)來代替說明某個(gè)模型),也就是說,這里的θ代表的是該名運(yùn)動員擊球成功的概率。假設(shè)該名運(yùn)動員在整個(gè)賽季中一共擊打了n次球,擊中的次數(shù)是x,這是一個(gè)二項(xiàng)分布,即。要推導(dǎo)出θ分布并估算θ的值,利用貝葉斯求后驗(yàn)概率:
南京郵電大學(xué)專業(yè)學(xué)位碩士研究生學(xué)位論文第一章緒論6。公式中,是常數(shù),代表的是數(shù)據(jù)結(jié)果。分子的第一項(xiàng)是二項(xiàng)分布,分子的第二項(xiàng)即是貝塔分布所代表的先驗(yàn)概率的結(jié)果。(b)投票一致性策略所謂投票一致性策略(VotingConsistencyStrategy,簡稱VCS)[7][8],指的是大部分人認(rèn)為正確的結(jié)果即為正確的結(jié)果。在數(shù)據(jù)分析中,將所有數(shù)據(jù)聚合處理,得出數(shù)據(jù)的均值,均值數(shù)據(jù)就是一致性數(shù)據(jù),將每一份數(shù)據(jù)和均值數(shù)據(jù)對比,即得出符合要求的數(shù)據(jù)。本文采用的數(shù)據(jù)分析方法包含了投票一致性規(guī)則,將工作者提交的任務(wù)結(jié)果數(shù)據(jù)聚合處理,得出一致性數(shù)據(jù)。雇主根據(jù)自己對任務(wù)結(jié)果數(shù)據(jù)精度的需求設(shè)定閾值,將眾包工作者提交的任務(wù)結(jié)果與一致性數(shù)據(jù)的差距和設(shè)定的閾值做對比,判別工作者提交的任務(wù)結(jié)果數(shù)據(jù)是否達(dá)到要求,方法流程如下圖1.3所示。圖1.3投票一致性規(guī)則示意圖圖1.3中所示的數(shù)據(jù)預(yù)處理[65],就是將眾包工作者們提供的任務(wù)結(jié)果數(shù)據(jù)整理到一起。第二步中的得出一致性數(shù)據(jù),是指對處理好的數(shù)據(jù)采取投票規(guī)則得出一致性數(shù)據(jù)。第三步中涉及到的設(shè)計(jì)閾值,是雇主根據(jù)自己對任務(wù)精度的需求,設(shè)計(jì)出誤差范圍。第四步的數(shù)據(jù)對比,是以第三步設(shè)計(jì)出的閾值為參照,將工作者在此次任務(wù)中提交的任務(wù)結(jié)果數(shù)據(jù)和設(shè)計(jì)好的閾值作對比。如果工作者提供的結(jié)果數(shù)據(jù)和一致性數(shù)據(jù)之間的誤差大于閾值,則表明工作者在此次任務(wù)中提交的任務(wù)結(jié)果無法滿足雇主需求,應(yīng)該排除。如果工作者提供的結(jié)果數(shù)據(jù)
【參考文獻(xiàn)】:
期刊論文
[1]平臺-社群商業(yè)模式構(gòu)建及其動態(tài)演變路徑——基于海爾、小米和豬八戒網(wǎng)平臺組織的案例研究[J]. 宋立豐,宋遠(yuǎn)方,馮紹雯. 經(jīng)濟(jì)管理. 2020(03)
[2]新媒體傳播中的數(shù)據(jù)造假與治理[J]. 郗芙蓉,杜秋. 傳媒. 2020(03)
[3]大數(shù)據(jù)背景下數(shù)據(jù)預(yù)處理方法研究[J]. 周黨生. 山東化工. 2020(01)
[4]基于豬八戒網(wǎng)“互聯(lián)網(wǎng)+雙創(chuàng)”平臺背景下藝術(shù)設(shè)計(jì)改革研究[J]. 楊通明. 品牌研究. 2019(14)
[5]豬八戒網(wǎng)商業(yè)模式發(fā)展及轉(zhuǎn)型研究[J]. 林冠穎. 商業(yè)經(jīng)濟(jì). 2019(08)
[6]基于多項(xiàng)式樸素貝葉斯算法的垃圾郵件過濾器的設(shè)計(jì)與實(shí)現(xiàn)[J]. 李騰飛. 科技資訊. 2018(33)
[7]考慮工作者信譽(yù)的眾包質(zhì)量EM評估方法[J]. 仲秋雁,劉志娟. 科技管理研究. 2018(21)
[8]國內(nèi)眾包平臺發(fā)展的限制要素與發(fā)展策略[J]. 李超民,侯倩. 成都行政學(xué)院學(xué)報(bào). 2018(05)
[9]基于k-means++的多分類器選擇分類研究[J]. 熊霖,唐萬梅. 重慶師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(06)
[10]基于動態(tài)粒子群優(yōu)化與K均值聚類的圖像分割算法[J]. 阮威. 信息技術(shù). 2018(10)
碩士論文
[1]基于最大似然估計(jì)的眾包質(zhì)量控制優(yōu)化方法研究[D]. 鄭妙.山東大學(xué) 2019
[2]基于不確定任務(wù)環(huán)境的眾包用戶行為分析及調(diào)度策略研究[D]. 江雨.華東師范大學(xué) 2018
[3]基于可信度的眾包協(xié)同測試及其算法實(shí)現(xiàn)[D]. 肖江輝.大連海事大學(xué) 2015
本文編號:2991236
【文章來源】:南京郵電大學(xué)江蘇省
【文章頁數(shù)】:58 頁
【學(xué)位級別】:碩士
【部分圖文】:
貝塔分布概率密度圖
南京郵電大學(xué)專業(yè)學(xué)位碩士研究生學(xué)位論文第一章緒論5圖1.1貝塔分布概率密度圖圖1.1展示了在α和β值不同時(shí),通過貝塔分布得出的不同概率密度函數(shù)分布圖,觀察上圖可以發(fā)現(xiàn),貝塔分布的形狀雖然多種多樣,但是都在區(qū)間[0-1]內(nèi)。因此,貝塔分布特別適合為某個(gè)事件發(fā)生或者成功的概率建立模型,并且,當(dāng)α=1、β=1時(shí),貝塔分布是一個(gè)均勻分布。貝塔分布也廣泛地應(yīng)用于求某事件發(fā)生的先驗(yàn)概率,下面以預(yù)測運(yùn)動員棒球擊球率為例對貝塔分布進(jìn)行簡要介紹。圖1.2為貝塔分布先驗(yàn)示意圖。圖1.2貝塔分布先驗(yàn)示意圖圖1.2展示了貝塔分布作為先驗(yàn)時(shí)的概率模型圖。如圖所示,參數(shù)θ代表的是該名運(yùn)動員擊球率的分布(這里的θ既代表一個(gè)分布,也表示該分布的參數(shù)。因?yàn)樵诟怕蕡D模型中,通常用某個(gè)分布的參數(shù)來代替說明某個(gè)模型),也就是說,這里的θ代表的是該名運(yùn)動員擊球成功的概率。假設(shè)該名運(yùn)動員在整個(gè)賽季中一共擊打了n次球,擊中的次數(shù)是x,這是一個(gè)二項(xiàng)分布,即。要推導(dǎo)出θ分布并估算θ的值,利用貝葉斯求后驗(yàn)概率:
南京郵電大學(xué)專業(yè)學(xué)位碩士研究生學(xué)位論文第一章緒論6。公式中,是常數(shù),代表的是數(shù)據(jù)結(jié)果。分子的第一項(xiàng)是二項(xiàng)分布,分子的第二項(xiàng)即是貝塔分布所代表的先驗(yàn)概率的結(jié)果。(b)投票一致性策略所謂投票一致性策略(VotingConsistencyStrategy,簡稱VCS)[7][8],指的是大部分人認(rèn)為正確的結(jié)果即為正確的結(jié)果。在數(shù)據(jù)分析中,將所有數(shù)據(jù)聚合處理,得出數(shù)據(jù)的均值,均值數(shù)據(jù)就是一致性數(shù)據(jù),將每一份數(shù)據(jù)和均值數(shù)據(jù)對比,即得出符合要求的數(shù)據(jù)。本文采用的數(shù)據(jù)分析方法包含了投票一致性規(guī)則,將工作者提交的任務(wù)結(jié)果數(shù)據(jù)聚合處理,得出一致性數(shù)據(jù)。雇主根據(jù)自己對任務(wù)結(jié)果數(shù)據(jù)精度的需求設(shè)定閾值,將眾包工作者提交的任務(wù)結(jié)果與一致性數(shù)據(jù)的差距和設(shè)定的閾值做對比,判別工作者提交的任務(wù)結(jié)果數(shù)據(jù)是否達(dá)到要求,方法流程如下圖1.3所示。圖1.3投票一致性規(guī)則示意圖圖1.3中所示的數(shù)據(jù)預(yù)處理[65],就是將眾包工作者們提供的任務(wù)結(jié)果數(shù)據(jù)整理到一起。第二步中的得出一致性數(shù)據(jù),是指對處理好的數(shù)據(jù)采取投票規(guī)則得出一致性數(shù)據(jù)。第三步中涉及到的設(shè)計(jì)閾值,是雇主根據(jù)自己對任務(wù)精度的需求,設(shè)計(jì)出誤差范圍。第四步的數(shù)據(jù)對比,是以第三步設(shè)計(jì)出的閾值為參照,將工作者在此次任務(wù)中提交的任務(wù)結(jié)果數(shù)據(jù)和設(shè)計(jì)好的閾值作對比。如果工作者提供的結(jié)果數(shù)據(jù)和一致性數(shù)據(jù)之間的誤差大于閾值,則表明工作者在此次任務(wù)中提交的任務(wù)結(jié)果無法滿足雇主需求,應(yīng)該排除。如果工作者提供的結(jié)果數(shù)據(jù)
【參考文獻(xiàn)】:
期刊論文
[1]平臺-社群商業(yè)模式構(gòu)建及其動態(tài)演變路徑——基于海爾、小米和豬八戒網(wǎng)平臺組織的案例研究[J]. 宋立豐,宋遠(yuǎn)方,馮紹雯. 經(jīng)濟(jì)管理. 2020(03)
[2]新媒體傳播中的數(shù)據(jù)造假與治理[J]. 郗芙蓉,杜秋. 傳媒. 2020(03)
[3]大數(shù)據(jù)背景下數(shù)據(jù)預(yù)處理方法研究[J]. 周黨生. 山東化工. 2020(01)
[4]基于豬八戒網(wǎng)“互聯(lián)網(wǎng)+雙創(chuàng)”平臺背景下藝術(shù)設(shè)計(jì)改革研究[J]. 楊通明. 品牌研究. 2019(14)
[5]豬八戒網(wǎng)商業(yè)模式發(fā)展及轉(zhuǎn)型研究[J]. 林冠穎. 商業(yè)經(jīng)濟(jì). 2019(08)
[6]基于多項(xiàng)式樸素貝葉斯算法的垃圾郵件過濾器的設(shè)計(jì)與實(shí)現(xiàn)[J]. 李騰飛. 科技資訊. 2018(33)
[7]考慮工作者信譽(yù)的眾包質(zhì)量EM評估方法[J]. 仲秋雁,劉志娟. 科技管理研究. 2018(21)
[8]國內(nèi)眾包平臺發(fā)展的限制要素與發(fā)展策略[J]. 李超民,侯倩. 成都行政學(xué)院學(xué)報(bào). 2018(05)
[9]基于k-means++的多分類器選擇分類研究[J]. 熊霖,唐萬梅. 重慶師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(06)
[10]基于動態(tài)粒子群優(yōu)化與K均值聚類的圖像分割算法[J]. 阮威. 信息技術(shù). 2018(10)
碩士論文
[1]基于最大似然估計(jì)的眾包質(zhì)量控制優(yōu)化方法研究[D]. 鄭妙.山東大學(xué) 2019
[2]基于不確定任務(wù)環(huán)境的眾包用戶行為分析及調(diào)度策略研究[D]. 江雨.華東師范大學(xué) 2018
[3]基于可信度的眾包協(xié)同測試及其算法實(shí)現(xiàn)[D]. 肖江輝.大連海事大學(xué) 2015
本文編號:2991236
本文鏈接:http://sikaile.net/guanlilunwen/xiangmuguanli/2991236.html
最近更新
教材專著