基于LDA與PW-Word2vec的虛假評論識別方法研究

發(fā)布時間：2021-06-02 21:06

　　信息科技的成熟為電子商務(wù)的蓬勃發(fā)展創(chuàng)建了條件,相對于線下實體店購物,越來越多的消費者更傾向于方便快捷的線上網(wǎng)絡(luò)購物。然而虛假評論的存在卻使得消費者無法對商品進行更加客觀的評估,侵害了消費者權(quán)益,同時也損害了部分誠信商家的利益。因此,本文基于Yelp在線評論數(shù)據(jù)集,使用LDA進行失衡處理,以及使用PW（Probability Weight）-Word2vec構(gòu)造評論特征向量,提出了一種基于LDA和PW-Word2vec的虛假評論檢測模型,主要研究內(nèi)容如下:（1）訓練詞向量字典:基于酒店和餐飲領(lǐng)域數(shù)據(jù),運用Word2vec模型完成了詞向量字典的訓練。（2）構(gòu)建LDA+Word2vec虛假評論檢測模型:針對實驗數(shù)據(jù)中真假評論數(shù)據(jù)量的不均衡問題,本文提出了LDA抽樣失衡處理的方法,使得真假評論數(shù)據(jù)量達到了一致,而后對該實驗數(shù)據(jù)進行評論特征向量的提取,構(gòu)建LDA+Word2vec虛假評論檢測模型。（3）構(gòu)建LDA+PW-Word2vec虛假評論檢測模型:LDA+Word2vec建模過程中,存在著評論文本信息損失的問題,基于此,本文又進一步提出了LDA+PW-Word2vec模型進行虛假評論的檢測...

【文章來源】：內(nèi)蒙古大學內(nèi)蒙古自治區(qū) 211工程院校

【文章頁數(shù)】：58 頁

【學位級別】：碩士

【部分圖文】：

webofscience上spam類論文數(shù)量趨勢圖

線性可分,凸二次規(guī)劃,分類算法

W(t+W(t+t)圖 2. 3 Skip-gram 模型Figure2.3 Skip-gram model2.3 分類算法，Support Vector Machine）[41]是一個二分類模型，在間隔最大化的條件下得以分割。SVM 可以歸為，如圖 2.4；2. 軟間隔最大線性 SVM；3. 依據(jù)核函型的 SVM 在理論求解中，都需要轉(zhuǎn)化為凸二次規(guī)劃

數(shù)據(jù)集

共計評論 788469 條。數(shù)據(jù)集中虛假評論標識為 Y，真實評論標識為 N。然而數(shù)據(jù)集中擁有大量帶有 NR 和 YR 標識的數(shù)據(jù)，它們是評估數(shù)據(jù)，不具備權(quán)威性，無法用來進行虛假評論檢測。故而在 Mukherjee 等人[10]的文章中，僅采用了 Y 和 N 標識的數(shù)據(jù)集，共計 64445條，其中虛假評論為 8035 條，真實評論為 56410 條。在本文的實驗中，將使用總的數(shù)據(jù)集即788469 條評論內(nèi)容進行詞向量字典的訓練，采用 Mukherjee 等人[10]的文章中所用的 64445 條真假評論數(shù)據(jù)集進行虛假評論檢測的方法研究。表 3.1 是對實驗中用到的 Yelp 數(shù)據(jù)集的統(tǒng)計，圖 3.1 為部分原始數(shù)據(jù)集的截圖。本文的實驗主要針對語義研究，故而僅使用其中的評論內(nèi)容 reviewContent 屬性和真假標識 flagged 屬性。表 3. 1 數(shù)據(jù)集統(tǒng)計表Table 3.1 Dataset statistics數(shù)據(jù)集虛假評論真實評論總的評論餐廳和酒店評論 8035 56410 64445

【參考文獻】：
期刊論文
[1]基于Word2Vec和LDA主題模型的Web服務(wù)聚類方法[J]. 肖巧翔,曹步清,張祥平,劉建勛,李晏新聞.  中南大學學報(自然科學版). 2018(12)
[2]基于word2vec和LDA的文本主題[J]. 徐守坤,周佳,李寧,石林.  計算機工程與設(shè)計. 2018(09)
[3]基于LDA和word2vec的英文作文跑題檢測[J]. 曲強,崔榮一,趙亞慧.  計算機應(yīng)用研究. 2019(02)
[4]基于主題模型和情感分析的垃圾評論識別方法研究[J]. 金相宏,李琳,鐘珞.  計算機科學. 2017(10)
[5]基于LF-LDA和Word2vec的文本表示模型研究[J]. 陳磊,李俊.  電子技術(shù). 2017(07)
[6]Word2vec的核心架構(gòu)及其應(yīng)用[J]. 熊富林,鄧怡豪,唐曉晟.  南京師范大學學報(工程技術(shù)版). 2015(01)

碩士論文
[1]領(lǐng)域關(guān)鍵詞抽�。航Y(jié)合LDA與Word2Vec[D]. 韋強申.貴州師范大學 2016
[2]基于LDA和Word2Vec的推薦算法研究[D]. 董文.北京郵電大學 2015

本文編號：3210752

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/jingjilunwen/guojimaoyilunwen/3210752.html

上一篇：一帶一路背景下中國對中亞五國出口商品結(jié)構(gòu)升級研究——基于顯性比較優(yōu)勢、技術(shù)附加值和質(zhì)量水平的分析
下一篇：中國與“一帶一路”沿線國家文化貿(mào)易總體格局與互補性研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于LDA與PW-Word2vec的虛假評論識別方法研究