基于文本與用戶行為挖掘的虛假評(píng)論識(shí)別研究
發(fā)布時(shí)間:2020-04-23 15:54
【摘要】:在電子商務(wù)網(wǎng)站中消費(fèi)者對(duì)某一商品或商家進(jìn)行的在線評(píng)論通常是決定消費(fèi)者購(gòu)買某一產(chǎn)品或服務(wù)的關(guān)鍵性因素之一。一些不良商家出自于自身的利益去操控這些在線評(píng)論,所形成的大量虛假評(píng)論影響了消費(fèi)者的利益和電子商務(wù)的正常發(fā)展。因此檢測(cè)這些虛假評(píng)論成為了一項(xiàng)重要的任務(wù)。本文提出了一種基于文本與用戶行為挖掘的方法對(duì)虛假評(píng)論進(jìn)行了識(shí)別。本文主要完成了以下工作:(1)提取了有效的虛假評(píng)論識(shí)別特征。通過(guò)分析評(píng)論的文本及其語(yǔ)義提取了n-gram特征、詞性特征和LDA主題特征;通過(guò)分析用戶的異常行為和評(píng)論、評(píng)論者、商家之間的潛在關(guān)系提取了最大內(nèi)容相似度、積極評(píng)論比例、最大日評(píng)論數(shù)目、評(píng)分偏差、評(píng)分、評(píng)論文本長(zhǎng)度、評(píng)論者頻繁度和目標(biāo)項(xiàng)相似度等特征。(2)構(gòu)建了虛假評(píng)論檢測(cè)模型;谔崛〉奶卣鞣謩e構(gòu)建了評(píng)論文本特征指標(biāo)、評(píng)論語(yǔ)義特征指標(biāo)、用戶行為特征指標(biāo)和關(guān)系特征指標(biāo)等四類指標(biāo)并基于SVM和XGboost分類算法構(gòu)建了分類模型。(3)對(duì)模型進(jìn)行了實(shí)證分析。分別設(shè)計(jì)了基于評(píng)論文本特征指標(biāo)、基于評(píng)論語(yǔ)義特征指標(biāo)、基于用戶行為特征指標(biāo)、基于關(guān)系特征指標(biāo)和基于融合特征指標(biāo)的五類分類實(shí)驗(yàn)。最終通過(guò)實(shí)驗(yàn)驗(yàn)證了選取特征的合理性與構(gòu)建模型的有效性。本文關(guān)于虛假評(píng)論識(shí)別的研究結(jié)果,為虛假評(píng)論識(shí)別研究提供了一些新的思路與有效的識(shí)別方法,可以為虛假評(píng)論識(shí)別實(shí)踐工作提供一定的理論支持。
【圖文】:
17圖 3.2 Yelp 網(wǎng)站一條評(píng)論實(shí)例Figure 3.2 An example of a review on the Yelp website作為美國(guó)最大點(diǎn)評(píng)網(wǎng)站,Yelp 網(wǎng)站為了確保發(fā)布在 Yelp 上的用戶評(píng)論的可信度,它使過(guò)濾算法過(guò)濾網(wǎng)站中假的或者可疑的評(píng)論,并將它們列入過(guò)濾列表中。根據(jù) Yelp 首席執(zhí)行Jeremy Stoppelman 的說(shuō)法,Yelp 的過(guò)濾算法已經(jīng)很成熟。自 2005 年推出以來(lái),Yelp 一直過(guò)濾虛假評(píng)論。Yelp 也有足夠的信心將其過(guò)濾后的評(píng)論公開[12]。但由于商業(yè)機(jī)密不能把算公開。因此在本研究中使用了 Mukherjee 等[12]提供的部分 Yelp 數(shù)據(jù)集,把 Yelp 中過(guò)濾掉的據(jù)視為虛假評(píng)論,把未過(guò)濾掉的數(shù)據(jù)視為真實(shí)的評(píng)論,,從而獲得有標(biāo)注的數(shù)據(jù)集。
內(nèi)蒙古大學(xué)碩士學(xué)位論文各個(gè)商戶的簡(jiǎn)要介紹以及網(wǎng)友的點(diǎn)評(píng)、點(diǎn)評(píng)者給出的星級(jí)評(píng)分等內(nèi)容。以下圖 3.1 和圖 3.2 Yelp 網(wǎng)站的封面截圖和 Yelp 網(wǎng)站中某個(gè)用戶對(duì)某家餐廳的一次評(píng)論。
【學(xué)位授予單位】:內(nèi)蒙古大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:F713.36
本文編號(hào):2637899
【圖文】:
17圖 3.2 Yelp 網(wǎng)站一條評(píng)論實(shí)例Figure 3.2 An example of a review on the Yelp website作為美國(guó)最大點(diǎn)評(píng)網(wǎng)站,Yelp 網(wǎng)站為了確保發(fā)布在 Yelp 上的用戶評(píng)論的可信度,它使過(guò)濾算法過(guò)濾網(wǎng)站中假的或者可疑的評(píng)論,并將它們列入過(guò)濾列表中。根據(jù) Yelp 首席執(zhí)行Jeremy Stoppelman 的說(shuō)法,Yelp 的過(guò)濾算法已經(jīng)很成熟。自 2005 年推出以來(lái),Yelp 一直過(guò)濾虛假評(píng)論。Yelp 也有足夠的信心將其過(guò)濾后的評(píng)論公開[12]。但由于商業(yè)機(jī)密不能把算公開。因此在本研究中使用了 Mukherjee 等[12]提供的部分 Yelp 數(shù)據(jù)集,把 Yelp 中過(guò)濾掉的據(jù)視為虛假評(píng)論,把未過(guò)濾掉的數(shù)據(jù)視為真實(shí)的評(píng)論,,從而獲得有標(biāo)注的數(shù)據(jù)集。
內(nèi)蒙古大學(xué)碩士學(xué)位論文各個(gè)商戶的簡(jiǎn)要介紹以及網(wǎng)友的點(diǎn)評(píng)、點(diǎn)評(píng)者給出的星級(jí)評(píng)分等內(nèi)容。以下圖 3.1 和圖 3.2 Yelp 網(wǎng)站的封面截圖和 Yelp 網(wǎng)站中某個(gè)用戶對(duì)某家餐廳的一次評(píng)論。
【學(xué)位授予單位】:內(nèi)蒙古大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:F713.36
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 鄒曉輝;孫靜;;LDA主題模型[J];智能計(jì)算機(jī)與應(yīng)用;2014年05期
相關(guān)碩士學(xué)位論文 前7條
1 郭一方;LBSN中虛假評(píng)論群體檢測(cè)[D];東南大學(xué);2017年
2 李靜;基于卷積神經(jīng)網(wǎng)絡(luò)的虛假評(píng)論識(shí)別技術(shù)的研究[D];北京郵電大學(xué);2017年
3 侯婷婷;基于二部圖投影的虛假評(píng)論人群組檢測(cè)算法研究[D];沈陽(yáng)理工大學(xué);2016年
4 宋大為;基于圖聚類的虛假評(píng)論人群組檢測(cè)算法研究[D];沈陽(yáng)理工大學(xué);2016年
5 李準(zhǔn);基于評(píng)論特征的虛假評(píng)論者檢測(cè)[D];沈陽(yáng)理工大學(xué);2015年
6 宋海霞;融合內(nèi)容及行為的虛假評(píng)論檢測(cè)方法研究[D];昆明理工大學(xué);2014年
7 辛竹;文本分類中的特征提取算法研究與改進(jìn)[D];北京郵電大學(xué);2014年
本文編號(hào):2637899
本文鏈接:http://sikaile.net/jingjilunwen/guojimaoyilunwen/2637899.html
最近更新
教材專著