眾包系統(tǒng)中基于參與者互評的數(shù)據(jù)質(zhì)量控制研究
發(fā)布時(shí)間:2021-10-30 17:32
利用大眾的力量和智慧來解決一些復(fù)雜問題的眾包系統(tǒng)和應(yīng)用獲得飛速的發(fā)展,而大規(guī)模參與者提供的數(shù)據(jù)質(zhì)量參差不齊,使得質(zhì)量控制成為眾包平臺面臨的一項(xiàng)巨大挑戰(zhàn)。同伴/參與者互評(peer grading)作為眾包技術(shù)的一個(gè)特殊應(yīng)用,能夠極大地改善參與者的提交質(zhì)量,是質(zhì)量控制的一種重要方式。但是,因?yàn)閰⑴c者缺乏認(rèn)真評價(jià)的動(dòng)力、受自身專業(yè)能力的限制或是惡意打低分等,導(dǎo)致了提供的評分不準(zhǔn)確或是隨意評分的情況。本文基于同伴互評,并將MOOCs作為典型的應(yīng)用環(huán)境,設(shè)計(jì)并實(shí)現(xiàn)適用于解決開放型任務(wù)(例如文章寫作或圖形設(shè)計(jì))的同伴互評方案,也就是基于參與者互評的數(shù)據(jù)質(zhì)量控制方法,并且與現(xiàn)有的一些同伴互評方案進(jìn)行對比。論文的主要貢獻(xiàn)如下:(1)首先提出了一個(gè)教師輔助的的同伴互評方案,RankwithTA。不同于簡單的聚合方法,RankwithTA方案執(zhí)行一系列的迭代,每次迭代由兩個(gè)更新步驟組成:(i)根據(jù)評價(jià)者給出的評分與被評價(jià)者推測出來的聚合成績之間的差異更新評價(jià)者評分的可靠性(準(zhǔn)確性);(ii)基于評價(jià)者的可靠性以加權(quán)的方式更新每個(gè)被評價(jià)者提交的質(zhì)量(即被評價(jià)者的成績)。此外,RankwithTA方案還利用...
【文章來源】:南京郵電大學(xué)江蘇省
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【部分圖文】:
Amazon Mechanical Turk 平臺的網(wǎng)頁
CrowdGrader系統(tǒng)
我們選擇四個(gè)同伴互評的練習(xí),這些同伴互評結(jié)果的統(tǒng)計(jì)數(shù)據(jù)如表 3.2 所示。表 3.2:四個(gè)練習(xí)的同伴互評結(jié)果統(tǒng)計(jì)練習(xí) 1 練習(xí) 2 練習(xí) 3 練習(xí) 4提交的數(shù)量 74 77 74 74TA 評價(jià)的數(shù)量 74 77 74 74同伴互評的數(shù)量 349 420 401 377我們將 RankWithTA 方案與兩種種基線方法進(jìn)行比較:平均值和 PeerRank。我們還是均方根誤差(RMSE)來衡量估計(jì)的聚合成績與實(shí)際成績的偏差。圖 3.6 顯示了我們的方法和其他兩種方法PeerRank 和均值方法的性能。在這個(gè)實(shí)驗(yàn)中們使用 TA 給出的 10 個(gè)成績來校準(zhǔn)學(xué)生的打分。結(jié)果表明,我們提出的方法雖然比 PeerR現(xiàn)更好,但是卻不如均值方法。原因可能是在 RankwithTA 方案中,將學(xué)生的成績(即學(xué)成任務(wù)的能力)看作是學(xué)生評價(jià)其他人的能力,這在實(shí)際中是不太可行的。比如,在現(xiàn)課環(huán)境下,學(xué)生盡管本身成績優(yōu)異,但是他可能會給別人故意打低分或是很隨意地打分時(shí)他自身的成績和他給別人評分的能力就嚴(yán)重不相符。
本文編號:3467134
【文章來源】:南京郵電大學(xué)江蘇省
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【部分圖文】:
Amazon Mechanical Turk 平臺的網(wǎng)頁
CrowdGrader系統(tǒng)
我們選擇四個(gè)同伴互評的練習(xí),這些同伴互評結(jié)果的統(tǒng)計(jì)數(shù)據(jù)如表 3.2 所示。表 3.2:四個(gè)練習(xí)的同伴互評結(jié)果統(tǒng)計(jì)練習(xí) 1 練習(xí) 2 練習(xí) 3 練習(xí) 4提交的數(shù)量 74 77 74 74TA 評價(jià)的數(shù)量 74 77 74 74同伴互評的數(shù)量 349 420 401 377我們將 RankWithTA 方案與兩種種基線方法進(jìn)行比較:平均值和 PeerRank。我們還是均方根誤差(RMSE)來衡量估計(jì)的聚合成績與實(shí)際成績的偏差。圖 3.6 顯示了我們的方法和其他兩種方法PeerRank 和均值方法的性能。在這個(gè)實(shí)驗(yàn)中們使用 TA 給出的 10 個(gè)成績來校準(zhǔn)學(xué)生的打分。結(jié)果表明,我們提出的方法雖然比 PeerR現(xiàn)更好,但是卻不如均值方法。原因可能是在 RankwithTA 方案中,將學(xué)生的成績(即學(xué)成任務(wù)的能力)看作是學(xué)生評價(jià)其他人的能力,這在實(shí)際中是不太可行的。比如,在現(xiàn)課環(huán)境下,學(xué)生盡管本身成績優(yōu)異,但是他可能會給別人故意打低分或是很隨意地打分時(shí)他自身的成績和他給別人評分的能力就嚴(yán)重不相符。
本文編號:3467134
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3467134.html
最近更新
教材專著