用戶信譽(yù)度與用戶生成內(nèi)容質(zhì)量評(píng)估模型研究
本文選題:戶信譽(yù)度 + 用戶生成內(nèi)容質(zhì)量 ; 參考:《清華大學(xué)》2014年碩士論文
【摘要】:Web2.0的到來(lái)促進(jìn)了戶成內(nèi)容的繁榮發(fā)展,在促進(jìn)知識(shí)傳播與解決信息不對(duì)等的同時(shí),同時(shí)也產(chǎn)了戶惡意破壞他編輯的內(nèi)容、偽造虛假評(píng)論、不尊重版權(quán)上傳他成果等問(wèn)題。這些問(wèn)題的產(chǎn)使得對(duì)戶信譽(yù)度與戶成內(nèi)容質(zhì)量的評(píng)估成為必須。 本先闡述了數(shù)據(jù)的獲取、預(yù)處理與特征的抽取。我們以英維基百科作為知識(shí)分享類站的代表進(jìn)研究,下載了英維基百科的數(shù)據(jù),針對(duì)維基百科的章與作者的特點(diǎn),我們抽取了量特征。我們隨機(jī)抽取了3個(gè)類作為三個(gè)數(shù)據(jù)集,以數(shù)據(jù)集下的章與章的作者作為研究對(duì)象,并對(duì)章質(zhì)量與作者的信譽(yù)度進(jìn)標(biāo)注,得到標(biāo)準(zhǔn)數(shù)據(jù)集。我們以亞馬遜評(píng)論作為商務(wù)評(píng)論站的代表進(jìn) 研究,下載了亞馬遜的評(píng)論數(shù)據(jù),并隨機(jī)的選取電產(chǎn)品下的評(píng)論與評(píng)論者作為研究對(duì)象,先對(duì)數(shù)據(jù)集進(jìn)預(yù)處理解決數(shù)據(jù)稀疏性問(wèn)題,針對(duì)亞馬遜評(píng)論和評(píng)論者的特點(diǎn),,抽取了量特征,并通過(guò)標(biāo)注對(duì)評(píng)論與評(píng)論者進(jìn)標(biāo)注,得到標(biāo)準(zhǔn)數(shù)據(jù)集。 在維基百科中,我們提出了雙翼因圖模型,該模型利我們所抽取的特征集,將作者的信譽(yù)度與章質(zhì)量的估測(cè)結(jié)合在統(tǒng)的模型中解決。我們通過(guò)L-BFGS算法對(duì)模型進(jìn)學(xué)習(xí),從獲得各個(gè)因的權(quán)重,并在測(cè)試集上對(duì)章質(zhì)量與作者的信譽(yù)度進(jìn)估測(cè)以驗(yàn)證模型的正確性,我們選取了個(gè)模型作為基準(zhǔn)法與我們的法進(jìn)較,實(shí)驗(yàn)顯我們的法在準(zhǔn)確率和綜合評(píng)價(jià)指標(biāo)F1上都有較提。在亞馬遜評(píng)論中,我們提出了評(píng)論因圖模型,來(lái)檢測(cè)評(píng)論中的虛假評(píng)論者與虛假評(píng)論,該模型將檢測(cè)虛假評(píng)論者和虛假評(píng)論結(jié)合在統(tǒng)的模型中解決。我們通過(guò)L-BFGS算法對(duì)模型進(jìn)學(xué)習(xí),獲得各個(gè)因的權(quán)重,并在測(cè)試集中檢測(cè)虛假評(píng)論與虛假評(píng)論者以驗(yàn)證模型的正確性,我們還選取了個(gè)模型作為基準(zhǔn)法與我們的法進(jìn)較,我們的法在準(zhǔn)確率和F1上都有較提。章最后總結(jié)了本主要作,并提出今后研究向的重點(diǎn)。
[Abstract]:The arrival of Web2.0 promotes the prosperity and development of Hucheng content. While promoting the dissemination of knowledge and solving the problem of unequal information, it also produces problems such as malicious destruction of his edited content, falsification of false comments and disrespect for copyright uploading of his work. These problems make it necessary to evaluate the reputation and content quality. This paper first describes the data acquisition, preprocessing and feature extraction. We take Wikipedia as the representative of knowledge sharing site and download the data of Wikipedia. According to the characteristics of Wikipedia chapter and author we extract quantitative features. We randomly select three classes as three data sets, take the author of chapter and chapter under the data set as the research object, and annotate the quality of chapter and the reputation of the author, and get the standard data set. We use Amazon Review as the representative of the Business Review Station. The research, download Amazon's comment data, and randomly select the comments and reviewers under the electrical products as the research object, first preprocess the data set to solve the problem of data sparsity, according to the characteristics of Amazon comments and reviewers, The quantitative features are extracted and the standard data set is obtained by annotating comments and commenters. In Wikipedia, we propose a biplane factor-graph model, which combines the author's reputation and chapter quality estimation in a unified model. We use the L-BFGS algorithm to study the model, get the weight of each factor, and estimate the chapter quality and the author's reputation on the test set to verify the correctness of the model. We select a model as the benchmark method to compare with our method. The experiment shows that our method is better in accuracy and comprehensive evaluation index F _ 1. In Amazon comments, we propose a review-cause-graph model to detect false reviewers and false comments, which combines the detection of false reviewers and false comments in a unified model. We use the L-BFGS algorithm to learn the model, get the weight of each factor, and test the false comments and the false commenters in the test set to verify the correctness of the model. We also choose a model as the benchmark method to compare with our method. Our method is more accurate and F1. At the end of the chapter, the main works are summarized, and the key points of the future research are put forward.
【學(xué)位授予單位】:清華大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP393.09;TP391.1
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王東雷;;基于單純形算法的優(yōu)化設(shè)計(jì)與實(shí)現(xiàn)[J];安徽農(nóng)業(yè)科學(xué);2007年36期
2 ;A Preliminary Application of the Differential Evolution Algorithm to Calculate the CNOP[J];Atmospheric and Oceanic Science Letters;2009年06期
3 柯逍;李紹滋;陳錦秀;;Recognition of Chinese Organization Name Using Co-training[J];Journal of Donghua University(English Edition);2010年02期
4 江愛(ài)朋;邵之江;方學(xué)毅;鄭小青;錢積新;;基于有限存儲(chǔ)的簡(jiǎn)約空間序列二次規(guī)劃算法研究[J];電路與系統(tǒng)學(xué)報(bào);2007年05期
5 朱仁祥;吳樂(lè)南;;最低誤碼率非線性均衡器的快速自適應(yīng)學(xué)習(xí)算法[J];電路與系統(tǒng)學(xué)報(bào);2012年02期
6 朱克云;具約束條件的四維變分資料同化問(wèn)題(英文)[J];Advances in Atmospheric Sciences;2001年06期
7 穆穆 ,段晚鎖 ,王家城;數(shù)值天氣預(yù)報(bào)和氣候預(yù)測(cè)的可預(yù)報(bào)性問(wèn)題(英文)[J];Advances in Atmospheric Sciences;2002年02期
8 匡正,王斌,楊華林;GPS資料同化中一種快速優(yōu)化算法(英文)[J];Advances in Atmospheric Sciences;2003年03期
9 張曉艷,王斌,季仲貞,肖慶農(nóng),張昕;四維變分同化方法在臺(tái)風(fēng)初始化及其數(shù)值模擬中的應(yīng)用——對(duì)9608號(hào)(Herb)臺(tái)風(fēng)的研究結(jié)果(英)[J];Advances in Atmospheric Sciences;2003年04期
10 張昕,劉月巍,王斌,季仲貞;Parallel Computing of a Variational Data Assimilation Model for GPS/MET Observation Using the Ray-Tracing Method[J];Advances in Atmospheric Sciences;2004年02期
相關(guān)會(huì)議論文 前10條
1 馬驥;朱慕華;肖桐;朱靖波;;面向移進(jìn)-歸約句法分析器的單模型系統(tǒng)融合算法[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
2 穆穆;王家城;;非線性全局及局部最優(yōu)擾動(dòng)和第一類可預(yù)報(bào)性[A];自然、工業(yè)與流動(dòng)——第六屆全國(guó)流體力學(xué)學(xué)術(shù)會(huì)議論文集[C];2001年
3 ;Chapter 9 Full Space and Subspace Methods for Large Scale Image Restoration[A];中國(guó)科學(xué)院地質(zhì)與地球物理研究所第十屆(2010年度)學(xué)術(shù)年會(huì)論文集(中)[C];2011年
4 王周宏;;符號(hào)幾何規(guī)劃的全局解方法[A];中國(guó)運(yùn)籌學(xué)會(huì)第七屆學(xué)術(shù)交流會(huì)論文集(上卷)[C];2004年
5 楊月婷;紀(jì)穎;王大力;;改進(jìn)的有限內(nèi)存BFGS算法的二次終止性質(zhì)[A];中國(guó)運(yùn)籌學(xué)會(huì)第七屆學(xué)術(shù)交流會(huì)論文集(下卷)[C];2004年
6 劉洪偉;;基于一種新的共軛下降法的函數(shù)最小化(英文)[A];中國(guó)運(yùn)籌學(xué)會(huì)第九屆學(xué)術(shù)交流會(huì)論文集[C];2008年
7 潘寧;郁凡;;用一維變分法校正衛(wèi)星資料反演濕度的試驗(yàn)研究[A];全國(guó)優(yōu)秀青年氣象科技工作者學(xué)術(shù)研討會(huì)論文集[C];2006年
8 周育鋒;韓志剛;王云峰;;ATOVS資料在臺(tái)風(fēng)初值化方案中的四維變分同化應(yīng)用[A];中國(guó)氣象學(xué)會(huì)2006年年會(huì)“災(zāi)害性天氣系統(tǒng)的活動(dòng)及其預(yù)報(bào)技術(shù)”分會(huì)場(chǎng)論文集[C];2006年
9 ;Tropical Cyclone Initialization with Dynamical Retrieval from a modified UWPBL Model[A];第七屆全國(guó)優(yōu)秀青年氣象科技工作者學(xué)術(shù)研討會(huì)論文集[C];2010年
10 折閃電;郭巖;夏天;程學(xué)旗;;A CRF-based Feature Selection Algorithm for Web Information Extraction[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
相關(guān)博士學(xué)位論文 前10條
1 常旭;低維碳納米材料和冰納米管的結(jié)構(gòu)與物性的數(shù)值模擬研究[D];南京大學(xué);2010年
2 王軍;數(shù)字幾何處理若干關(guān)鍵技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2011年
3 劉浩;大規(guī)模非線性方程組和無(wú)約束優(yōu)化方法研究[D];南京航空航天大學(xué);2008年
4 陸曉平;錐模型信賴域算法研究[D];南京航空航天大學(xué);2008年
5 羅芳;意見(jiàn)挖掘中若干關(guān)鍵問(wèn)題研究[D];武漢理工大學(xué);2011年
6 張愛(ài)軍;最優(yōu)變分伴隨方法及在近岸水位資料同化中的應(yīng)用[D];中國(guó)科學(xué)院海洋研究所;2000年
7 韓桂軍;伴隨法在潮汐和海溫?cái)?shù)值計(jì)算中的應(yīng)用研究[D];中國(guó)科學(xué)院海洋研究所;2001年
8 時(shí)貞軍;約束優(yōu)化問(wèn)題的參數(shù)控制算法研究[D];大連理工大學(xué);2002年
9 連淑君;共軛梯度算法的全局收斂性研究[D];大連理工大學(xué);2004年
10 許小永;四維變分和集合卡爾曼濾波同化多普勒雷達(dá)資料的方法及其反演暴雨中尺度結(jié)構(gòu)的研究[D];南京信息工程大學(xué);2005年
相關(guān)碩士學(xué)位論文 前10條
1 呂晨;搜索競(jìng)價(jià)廣告關(guān)鍵詞優(yōu)化問(wèn)題研究[D];山東科技大學(xué);2010年
2 王東亮;基于條件隨機(jī)場(chǎng)模型的中文人名識(shí)別的研究[D];大連理工大學(xué);2010年
3 紅霞;基于層疊條件隨機(jī)場(chǎng)的中文機(jī)構(gòu)名識(shí)別的研究[D];大連理工大學(xué);2010年
4 孫義杰;進(jìn)化策略算法研究及其在氣象優(yōu)化問(wèn)題中的應(yīng)用[D];南京信息工程大學(xué);2011年
5 唐飛;雷達(dá)反射率資料質(zhì)量控制及其在GRAPES三維變分同化中的應(yīng)用[D];南京信息工程大學(xué);2011年
6 燕成玉;強(qiáng)降水過(guò)程中多普勒雷達(dá)特征分析及風(fēng)場(chǎng)反演[D];南京信息工程大學(xué);2011年
7 陳永靜;社會(huì)情感優(yōu)化算法在團(tuán)簇結(jié)構(gòu)優(yōu)化中的應(yīng)用研究[D];太原科技大學(xué);2011年
8 劉亞妮;搜索競(jìng)價(jià)廣告關(guān)鍵詞優(yōu)化算法與實(shí)驗(yàn)[D];電子科技大學(xué);2011年
9 劉奚洋;POSS有機(jī)無(wú)機(jī)納米雜化材料的壓痕模擬[D];哈爾濱工業(yè)大學(xué);2010年
10 何超;捷聯(lián)慣性導(dǎo)航系統(tǒng)MEMS傳感器誤差補(bǔ)償[D];哈爾濱工業(yè)大學(xué);2010年
本文編號(hào):1927922
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1927922.html