Web2.0環(huán)境下用戶創(chuàng)作內(nèi)容信任分析
發(fā)布時(shí)間:2019-11-20 04:20
【摘要】:當(dāng)今的社會(huì)正處于互聯(lián)網(wǎng)的時(shí)代,技術(shù)飛速發(fā)展。隨著互聯(lián)網(wǎng)進(jìn)入Web2.0時(shí)代,普通的用戶獲得了網(wǎng)絡(luò)中的話語(yǔ)權(quán)。Web2.0網(wǎng)站中信息的時(shí)效性與多樣性,更使得很多人將互聯(lián)網(wǎng),特別是Web2.0網(wǎng)站,作為自己獲取信息的首要途徑。 然而,話語(yǔ)權(quán)的放開也帶來(lái)了一系列的問(wèn)題。由于Web2.0網(wǎng)站中,信息的發(fā)布沒有人把關(guān)或監(jiān)管,造成了Web2.0網(wǎng)站中的信息具有不確定性。這種不確定性表現(xiàn)在兩個(gè)方面,第一個(gè)方面是用戶身份的不確定性,用戶的虛擬身份與用戶的現(xiàn)實(shí)身份難以對(duì)應(yīng)。第二個(gè)方面是信息的不確定性,微博等Web2.0網(wǎng)站中存在著一些謠言和不實(shí)信息,信息的可信度難以判斷。而不實(shí)信息的傳播,又會(huì)帶來(lái)不良的影響。 面對(duì)Web2.0網(wǎng)站中信息的不確定性,本文針對(duì)用戶創(chuàng)作內(nèi)容進(jìn)行信任分析,主要成果包括: 1.數(shù)據(jù)的采集。本研究針對(duì)在線論壇和微博這兩種Web2.0時(shí)代的代表網(wǎng)站,.進(jìn)行了相關(guān)的數(shù)據(jù)采集。根據(jù)研究的需要,從采集到的頁(yè)面中,抽取了需要的信息。根據(jù)后續(xù)分析的需要,采取了合適的方式進(jìn)行了數(shù)據(jù)的組織與存儲(chǔ)。 2.針對(duì)一個(gè)用戶在Web2.0網(wǎng)站中可能使用多個(gè)虛擬賬戶的情況,提出了一種基于多維相似度的用戶多虛擬身份識(shí)別算法。利用在線論壇數(shù)據(jù)集,對(duì)提出算法的效果進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,本研究提出的算法能夠有效的識(shí)別出用戶的多個(gè)虛擬身份。 3.針對(duì)Web2.0網(wǎng)站中存在的虛假、不實(shí)的信息,提出了針對(duì)用戶創(chuàng)作內(nèi)容的信任分析方法。首先,利用采集到的微博數(shù)據(jù),針對(duì)正常微博與不實(shí)微博,進(jìn)行特征對(duì)比分析,得到了差異較大的幾種特征。隨后,利用多種分類算法,對(duì)微博是否可信進(jìn)行了識(shí)別。經(jīng)過(guò)實(shí)驗(yàn)的驗(yàn)證,得到了較好的結(jié)果。隨后,在基于分類算法的用戶創(chuàng)作內(nèi)容信任分析方法的基礎(chǔ)上,利用基于情感分析的方法對(duì)實(shí)驗(yàn)的效果進(jìn)行了進(jìn)一步改進(jìn),實(shí)驗(yàn)的準(zhǔn)確率得到了進(jìn)一步提升。
【圖文】:
33 </body> </htmi>圖2-2 北郵人論壇網(wǎng)頁(yè)代碼例.不足以滿足需求,需要多次的數(shù)據(jù)采集。然而,若每次都采集所有的數(shù)據(jù),會(huì)造成大量重復(fù)的工作,造成T間和資源的浪費(fèi)。因此,需要一種增量式的數(shù)據(jù)采集方法。在經(jīng)典版頁(yè)面中,帖子中的每一個(gè)樓層都具有一個(gè)ID。利用這個(gè)ID,我們可以判斷一個(gè)樓層是否己經(jīng)被抓取過(guò)。將所有已經(jīng)被抓取的頁(yè)面放入一個(gè)SET中,每次獲S蔚鉸ゲ鉏D時(shí)進(jìn)行判斷,如果該樓層已經(jīng)被抓取過(guò),則不獲取具體的樓層頁(yè)面,以節(jié)省時(shí)間。每次抓取過(guò)程完成后,將該SET寫入磁盤之中,以便下次抓取過(guò)程使jjj。然而
圖3.2(a)展示了真灰“馬甲”賬戶與人工“馬甲”賬戶共78個(gè)待檢測(cè)賬戶的實(shí)驗(yàn)結(jié)果隨閾值的變化。.圖中的橫軸代表了閾值/。觀察準(zhǔn)確率、召回率等值的變化,當(dāng)閾值在0.7左右時(shí),,F(xiàn)1-measure能夠取得較好的值,表示該閾值時(shí)準(zhǔn)確率,召回率能夠取得比較平均的結(jié)果。.具體觀察尋找到的相似度最高的候選賬戶之后發(fā)現(xiàn),對(duì)于28個(gè)真實(shí).“馬甲”賬戶與50個(gè)人:r. “馬甲”賬戶,與其相似度最高的候選賬戶均是實(shí)際的“馬甲”賬戶,并不存在非“馬甲”賬戶具有最高的相似度的情況。準(zhǔn)確率的變化完全由于閾值的變化造成的。閾值過(guò)低時(shí),可能誤將沒有“馬甲”的賬戶判斷為存在“馬甲”。而閾值過(guò)高時(shí),有可能誤將存在“馬甲”的賬戶判斷為沒有“馬甲”。這從一定程度上說(shuō)明了算法的有效性。隨后,.纖對(duì)72個(gè)無(wú)“馬甲”賬戶的識(shí)別效果進(jìn)行實(shí)驗(yàn)。從圖3.2(b)中可以看出,其準(zhǔn)確率與召回率的走勢(shì)與“馬甲”賬戶相反。在_值為0.8上下時(shí),能取得最高的F1-measure 值 d圖3-3展示了整體準(zhǔn)確率隨曊值的變化,總體準(zhǔn)確率在閾值為0.7到0.8的范圍
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP393.092
【圖文】:
33 </body> </htmi>圖2-2 北郵人論壇網(wǎng)頁(yè)代碼例.不足以滿足需求,需要多次的數(shù)據(jù)采集。然而,若每次都采集所有的數(shù)據(jù),會(huì)造成大量重復(fù)的工作,造成T間和資源的浪費(fèi)。因此,需要一種增量式的數(shù)據(jù)采集方法。在經(jīng)典版頁(yè)面中,帖子中的每一個(gè)樓層都具有一個(gè)ID。利用這個(gè)ID,我們可以判斷一個(gè)樓層是否己經(jīng)被抓取過(guò)。將所有已經(jīng)被抓取的頁(yè)面放入一個(gè)SET中,每次獲S蔚鉸ゲ鉏D時(shí)進(jìn)行判斷,如果該樓層已經(jīng)被抓取過(guò),則不獲取具體的樓層頁(yè)面,以節(jié)省時(shí)間。每次抓取過(guò)程完成后,將該SET寫入磁盤之中,以便下次抓取過(guò)程使jjj。然而
圖3.2(a)展示了真灰“馬甲”賬戶與人工“馬甲”賬戶共78個(gè)待檢測(cè)賬戶的實(shí)驗(yàn)結(jié)果隨閾值的變化。.圖中的橫軸代表了閾值/。觀察準(zhǔn)確率、召回率等值的變化,當(dāng)閾值在0.7左右時(shí),,F(xiàn)1-measure能夠取得較好的值,表示該閾值時(shí)準(zhǔn)確率,召回率能夠取得比較平均的結(jié)果。.具體觀察尋找到的相似度最高的候選賬戶之后發(fā)現(xiàn),對(duì)于28個(gè)真實(shí).“馬甲”賬戶與50個(gè)人:r. “馬甲”賬戶,與其相似度最高的候選賬戶均是實(shí)際的“馬甲”賬戶,并不存在非“馬甲”賬戶具有最高的相似度的情況。準(zhǔn)確率的變化完全由于閾值的變化造成的。閾值過(guò)低時(shí),可能誤將沒有“馬甲”的賬戶判斷為存在“馬甲”。而閾值過(guò)高時(shí),有可能誤將存在“馬甲”的賬戶判斷為沒有“馬甲”。這從一定程度上說(shuō)明了算法的有效性。隨后,.纖對(duì)72個(gè)無(wú)“馬甲”賬戶的識(shí)別效果進(jìn)行實(shí)驗(yàn)。從圖3.2(b)中可以看出,其準(zhǔn)確率與召回率的走勢(shì)與“馬甲”賬戶相反。在_值為0.8上下時(shí),能取得最高的F1-measure 值 d圖3-3展示了整體準(zhǔn)確率隨曊值的變化,總體準(zhǔn)確率在閾值為0.7到0.8的范圍
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP393.092
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李淑領(lǐng);;網(wǎng)絡(luò)社區(qū)中的虛擬身份挖掘[J];滄州師范?茖W(xué)校學(xué)報(bào);2008年03期
2 李楠楠;張寧;周濤;;人類通信模式中基于時(shí)間統(tǒng)計(jì)的實(shí)證研究[J];復(fù)雜系統(tǒng)與復(fù)雜性科學(xué);2008年03期
3 葉楓;吳善濱;;基于評(píng)價(jià)者過(guò)濾的個(gè)性化信任模型[J];管理工程學(xué)報(bào);2012年03期
4 吳強(qiáng);梁繼民;楊萬(wàn)海;;Web日志挖掘預(yù)處理中的用戶識(shí)別技術(shù)[J];計(jì)算機(jī)科學(xué);2002年04期
5 李利,王秀峰;Web應(yīng)用中識(shí)別用戶身份的一種方式[J];計(jì)算技術(shù)與自動(dòng)化;2004年03期
6 周茜,趙明生,扈e
本文編號(hào):2563395
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2563395.html
最近更新
教材專著