天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于可信度傳遞的商品垃圾評論檢測研究

發(fā)布時間:2018-04-23 00:04

  本文選題:文本挖掘 + 垃圾評論檢測。 參考:《重慶大學》2016年碩士論文


【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)已經(jīng)對人們表達自己和與他人互動的方式產(chǎn)生了巨大的影響。在線評論在今天的電子商務(wù)中起到至關(guān)重要的作用,消費者常常會通過網(wǎng)絡(luò)查看商品或者商店的評論信息,然后做出購買決策。但是由于網(wǎng)絡(luò)中存在著大量的垃圾評論,消費者會被誤導甚至購買質(zhì)量低下的商品,嚴重影響購物體驗,商家也會因為惡意評論而名譽受損。因此,近年來垃圾評論的智能化檢測已成為一個研究熱點。本文系統(tǒng)地總結(jié)并論述了垃圾評論檢測領(lǐng)域的發(fā)展現(xiàn)狀,分析了該領(lǐng)域相關(guān)算法和技術(shù)。針對傳統(tǒng)基于人工標注的算法性能評價體系工作量大、不利于計算機處理等問題,本文提出使用兩個識偽度指標來度量檢測算法的性能。主要思想是比較檢測前后的數(shù)據(jù)樣本在推薦系統(tǒng)準確度和評論正反饋率上的差異,這種方法為觀察垃圾評論檢測的效果提供了新的視角,可以作為傳統(tǒng)評價體系的補充。本文使用可信度得分作為度量評論、評論者、商品可信程度的指標,通過分析影響評論可信度的關(guān)鍵因素,從中抽取了評論文本的長度、屬性覆蓋率、時間分布三個特征計算評論初始可信度得分。此外,本文在屬性詞典的提取中巧妙的將詞頻統(tǒng)計方法與主題詞模型進行融合,并使用成熟的第三方工具word2vec構(gòu)建提取模型,實驗表明,本算法能獲取更加豐富而準確的屬性詞典。受評論關(guān)系圖和Web事實發(fā)現(xiàn)的啟發(fā),本文發(fā)現(xiàn)了評論、評論者、商品三者之間可信度的相互影響關(guān)系,而之前的研究者多把三者作為單一研究對象,忽略了它們之間的關(guān)系。因此本文提出了一種基于可信度傳遞的垃圾評論檢測算法,該算法將評論、評論者、商品抽象成圖模型,以評論初始可信度得分為基礎(chǔ),以三者構(gòu)成的網(wǎng)絡(luò)為線索,構(gòu)建計算評論、評論者、商品可信度得分的模型,修正評論可信度得分,排除可信度得分小于可信閾值的評論。實驗表明,此算法在準確率和召回率上都有一定的提升。
[Abstract]:With the development of Internet technology, the Internet has had a great impact on the way people express themselves and interact with others. Online reviews play a crucial role in today's e-commerce, and consumers often view reviews of goods or stores online and make purchase decisions. However, due to the existence of a large number of spam comments on the Internet, consumers will be misled or even buy goods of low quality, which will seriously affect the shopping experience, and the reputation of merchants will also be damaged by malicious comments. Therefore, the intelligent detection of spam reviews has become a research hotspot in recent years. This paper systematically summarizes and discusses the development of garbage comment detection field, and analyzes the relevant algorithms and technologies in this field. In order to solve the problem that the traditional performance evaluation system based on manual annotation is difficult to deal with by computer, this paper proposes to measure the performance of the detection algorithm by using two false recognition indexes. The main idea is to compare the difference between the accuracy of recommendation system and the positive feedback rate of comments before and after detection. This method provides a new perspective for observing the effect of garbage comment detection and can be used as a supplement to the traditional evaluation system. In this paper, the credibility score is used as an index to measure the credibility of a comment. By analyzing the key factors affecting the credibility of the comment, the author extracts the length of the comment text and the coverage of the attribute, by analyzing the key factors affecting the credibility of the comment. Three features of time distribution are used to calculate the initial reliability score of comments. In addition, in the extraction of attribute dictionary, this paper skillfully combines the word frequency statistics method with the thematic word model, and uses the mature third-party tool word2vec to construct the extraction model. The experiment shows that, This algorithm can obtain more abundant and accurate attribute dictionary. Inspired by the review diagram and the fact finding of Web, this paper finds the relationship between the credibility of the commentary, the reviewer and the commodity, but most of the previous researchers regarded the three as a single object of study, ignoring the relationship between them. Therefore, this paper proposes a spam comment detection algorithm based on credibility transfer. The algorithm abstracts comments, reviewers and commodities into graph models, based on the initial credibility score of comments, and takes the network composed of the three as a clue. A model for calculating the credibility of comments, reviewers and commodities is constructed, and the reliability score of comments is revised to exclude those whose credibility score is less than the trust threshold. Experiments show that the algorithm can improve the accuracy and recall rate.
【學位授予單位】:重慶大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.1

【相似文獻】

相關(guān)期刊論文 前10條

1 張雯雯;許鑫;;文本挖掘工具述評[J];圖書情報工作;2012年08期

2 邢鴻飛;;文本挖掘口角升溫[J];世界科學;2013年05期

3 蔣良孝,蔡之華;文本挖掘及其應(yīng)用[J];現(xiàn)代計算機(專業(yè)版);2003年02期

4 諶志群;張國煊;;文本挖掘研究進展[J];模式識別與人工智能;2005年01期

5 王娜;李云松;;基于概念格的文本挖掘[J];計算機技術(shù)與發(fā)展;2006年01期

6 黃維金;顧益軍;;刑偵檔案文本挖掘系統(tǒng)平臺中的文本精煉初探[J];中國人民公安大學學報(自然科學版);2006年02期

7 張燕;寒楓;楚紅濤;;文本挖掘簡述[J];中國電力教育;2006年S3期

8 韓春;田大鋼;;對股票市場信息的文本挖掘[J];中國高新技術(shù)企業(yè);2008年23期

9 程志;黃榮懷;;文本挖掘及其教育應(yīng)用[J];現(xiàn)代遠距離教育;2008年02期

10 鞏知樂;張德賢;;文本挖掘理論概述[J];福建電腦;2008年09期

相關(guān)會議論文 前10條

1 陳林;王曉華;李殿峗;文俊浩;;基于自增模式的文本挖掘研究[A];’2004計算機應(yīng)用技術(shù)交流會議論文集[C];2004年

2 王巍;楊武;張樂君;鄭軍;;支持網(wǎng)絡(luò)話題管理的文本挖掘算法分析[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(下冊)[C];2007年

3 王繼成;孫穎;張福炎;;文本挖掘-數(shù)據(jù)挖掘研究的新課題[A];第十六屆全國數(shù)據(jù)庫學術(shù)會議論文集[C];1999年

4 高飛;荊繼武;向繼;;文本挖掘系統(tǒng)的可視化方法研究[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(上冊)[C];2007年

5 朱強生;田英;周延泉;何華燦;;基于非負因子分析的模糊文本挖掘[A];2006通信理論與技術(shù)新進展——第十一屆全國青年通信學術(shù)會議論文集[C];2006年

6 錢程揚;龍毅;徐震;孫昊;;基于Web文本挖掘的地理位置信息重建技術(shù)[A];中國地理學會2007年學術(shù)年會論文摘要集[C];2007年

7 蔣子海;周斌;吳泉源;;基于UIMA AS的文本挖掘系統(tǒng)的性能分析與評估[A];全國計算機安全學術(shù)交流會論文集·第二十五卷[C];2010年

8 邱曉蕾;張聰超;;基于SVD和部分聚集分類的文本挖掘算法[A];第二屆全國信息檢索與內(nèi)容安全學術(shù)會議(NCIRCS-2005)論文集[C];2005年

9 武洪萍;周國祥;;Web文本挖掘研究[A];計算機技術(shù)與應(yīng)用進展·2007——全國第18屆計算機技術(shù)與應(yīng)用(CACIS)學術(shù)會議論文集[C];2007年

10 陳宇;王強;;聚類算法在Web文本挖掘中的應(yīng)用研究[A];2009全國計算機網(wǎng)絡(luò)與通信學術(shù)會議論文集[C];2009年

相關(guān)重要報紙文章 前4條

1 本報記者 施鵬;非結(jié)構(gòu)信息和文本挖掘[N];21世紀經(jīng)濟報道;2009年

2 周青 編譯;文本挖掘工具實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)價值[N];計算機世界;2004年

3 ;SAS公司收購Teragram 強化BI領(lǐng)域地位[N];計算機世界;2008年

4 ;用挖掘技術(shù)使學術(shù)資源利用效益最大化[N];中國計算機報;2007年

相關(guān)博士學位論文 前10條

1 曹奇敏;網(wǎng)絡(luò)信息文本挖掘若干問題研究[D];北京理工大學;2015年

2 陳虹樞;基于主題模型的專利文本挖掘方法及應(yīng)用研究[D];北京理工大學;2015年

3 李梅;文本挖掘中若干關(guān)鍵技術(shù)研究[D];西北農(nóng)林科技大學;2016年

4 袁鋒;中醫(yī)醫(yī)案文本挖掘的若干關(guān)鍵技術(shù)研究[D];山東師范大學;2016年

5 孫道軍;文本挖掘預(yù)處理相關(guān)基礎(chǔ)技術(shù)分析與應(yīng)用研究[D];北京郵電大學;2008年

6 周雪忠;文本挖掘在中醫(yī)藥中的若干應(yīng)用研究[D];浙江大學;2004年

7 王明春;基于粗糙集的數(shù)據(jù)及文本挖掘方法研究[D];天津大學;2005年

8 李芳;文本挖掘若干關(guān)鍵技術(shù)研究[D];北京化工大學;2010年

9 文翰;面向信息檢索的Web文本挖掘方法研究[D];華南理工大學;2012年

10 卜東波;聚類/分類理論研究及其在文本挖掘中的應(yīng)用[D];中國科學院研究生院(計算技術(shù)研究所);2000年

相關(guān)碩士學位論文 前10條

1 張馨允;基于Spark的Web文本挖掘系統(tǒng)的研究與實現(xiàn)[D];吉林大學;2016年

2 王釗;基于Hadoop的文本挖掘研究與應(yīng)用[D];廣東工業(yè)大學;2016年

3 黃建澍;面向人大代表議案處理的文本挖掘系統(tǒng)的設(shè)計與實現(xiàn)[D];中國科學院大學(工程管理與信息技術(shù)學院);2016年

4 徐奇釗;基于文本挖掘的文本情緒分類[D];云南財經(jīng)大學;2016年

5 鄒運懷;基于文本挖掘的道岔故障分類研究[D];北京交通大學;2016年

6 王萍;基于Web文本挖掘的電子商務(wù)專業(yè)人才市場需求研究[D];重慶工商大學;2016年

7 盛華;聚類分析在文本挖掘中的應(yīng)用與研究[D];江南大學;2016年

8 劉超;業(yè)界專家的媒體發(fā)言對公司股價影響的分析[D];上海師范大學;2016年

9 吳亞宇;基于文本挖掘的年報情感與上市公司業(yè)績的關(guān)系研究[D];中國地質(zhì)大學(北京);2016年

10 秦成磊;Web文本挖掘若干關(guān)鍵問題研究及其在機電產(chǎn)品在線評測中的應(yīng)用[D];上海應(yīng)用技術(shù)大學;2016年

,

本文編號:1789533

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/jingjilunwen/dianzishangwulunwen/1789533.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶5c0ad***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com