基于LDA與PW-Word2vec的虛假評論識別方法研究
發(fā)布時間:2021-06-02 21:06
信息科技的成熟為電子商務(wù)的蓬勃發(fā)展創(chuàng)建了條件,相對于線下實體店購物,越來越多的消費者更傾向于方便快捷的線上網(wǎng)絡(luò)購物。然而虛假評論的存在卻使得消費者無法對商品進行更加客觀的評估,侵害了消費者權(quán)益,同時也損害了部分誠信商家的利益。因此,本文基于Yelp在線評論數(shù)據(jù)集,使用LDA進行失衡處理,以及使用PW(Probability Weight)-Word2vec構(gòu)造評論特征向量,提出了一種基于LDA和PW-Word2vec的虛假評論檢測模型,主要研究內(nèi)容如下:(1)訓練詞向量字典:基于酒店和餐飲領(lǐng)域數(shù)據(jù),運用Word2vec模型完成了詞向量字典的訓練。(2)構(gòu)建LDA+Word2vec虛假評論檢測模型:針對實驗數(shù)據(jù)中真假評論數(shù)據(jù)量的不均衡問題,本文提出了LDA抽樣失衡處理的方法,使得真假評論數(shù)據(jù)量達到了一致,而后對該實驗數(shù)據(jù)進行評論特征向量的提取,構(gòu)建LDA+Word2vec虛假評論檢測模型。(3)構(gòu)建LDA+PW-Word2vec虛假評論檢測模型:LDA+Word2vec建模過程中,存在著評論文本信息損失的問題,基于此,本文又進一步提出了LDA+PW-Word2vec模型進行虛假評論的檢測...
【文章來源】:內(nèi)蒙古大學內(nèi)蒙古自治區(qū) 211工程院校
【文章頁數(shù)】:58 頁
【學位級別】:碩士
【部分圖文】:
webofscience上spam類論文數(shù)量趨勢圖
W(t+W(t+t)圖 2. 3 Skip-gram 模型Figure2.3 Skip-gram model2.3 分類算法,Support Vector Machine)[41]是一個二分類模型,在間隔最大化的條件下得以分割。SVM 可以歸為,如圖 2.4;2. 軟間隔最大線性 SVM;3. 依據(jù)核函型的 SVM 在理論求解中,都需要轉(zhuǎn)化為凸二次規(guī)劃
共計評論 788469 條。數(shù)據(jù)集中虛假評論標識為 Y,真實評論標識為 N。然而數(shù)據(jù)集中擁有大量帶有 NR 和 YR 標識的數(shù)據(jù),它們是評估數(shù)據(jù),不具備權(quán)威性,無法用來進行虛假評論檢測。故而在 Mukherjee 等人[10]的文章中,僅采用了 Y 和 N 標識的數(shù)據(jù)集,共計 64445條,其中虛假評論為 8035 條,真實評論為 56410 條。在本文的實驗中,將使用總的數(shù)據(jù)集即788469 條評論內(nèi)容進行詞向量字典的訓練,采用 Mukherjee 等人[10]的文章中所用的 64445 條真假評論數(shù)據(jù)集進行虛假評論檢測的方法研究。表 3.1 是對實驗中用到的 Yelp 數(shù)據(jù)集的統(tǒng)計,圖 3.1 為部分原始數(shù)據(jù)集的截圖。本文的實驗主要針對語義研究,故而僅使用其中的評論內(nèi)容 reviewContent 屬性和真假標識 flagged 屬性。表 3. 1 數(shù)據(jù)集統(tǒng)計表Table 3.1 Dataset statistics數(shù)據(jù)集 虛假評論 真實評論 總的評論餐廳和酒店評論 8035 56410 64445
【參考文獻】:
期刊論文
[1]基于Word2Vec和LDA主題模型的Web服務(wù)聚類方法[J]. 肖巧翔,曹步清,張祥平,劉建勛,李晏新聞. 中南大學學報(自然科學版). 2018(12)
[2]基于word2vec和LDA的文本主題[J]. 徐守坤,周佳,李寧,石林. 計算機工程與設(shè)計. 2018(09)
[3]基于LDA和word2vec的英文作文跑題檢測[J]. 曲強,崔榮一,趙亞慧. 計算機應(yīng)用研究. 2019(02)
[4]基于主題模型和情感分析的垃圾評論識別方法研究[J]. 金相宏,李琳,鐘珞. 計算機科學. 2017(10)
[5]基于LF-LDA和Word2vec的文本表示模型研究[J]. 陳磊,李俊. 電子技術(shù). 2017(07)
[6]Word2vec的核心架構(gòu)及其應(yīng)用[J]. 熊富林,鄧怡豪,唐曉晟. 南京師范大學學報(工程技術(shù)版). 2015(01)
碩士論文
[1]領(lǐng)域關(guān)鍵詞抽。航Y(jié)合LDA與Word2Vec[D]. 韋強申.貴州師范大學 2016
[2]基于LDA和Word2Vec的推薦算法研究[D]. 董文.北京郵電大學 2015
本文編號:3210752
【文章來源】:內(nèi)蒙古大學內(nèi)蒙古自治區(qū) 211工程院校
【文章頁數(shù)】:58 頁
【學位級別】:碩士
【部分圖文】:
webofscience上spam類論文數(shù)量趨勢圖
W(t+W(t+t)圖 2. 3 Skip-gram 模型Figure2.3 Skip-gram model2.3 分類算法,Support Vector Machine)[41]是一個二分類模型,在間隔最大化的條件下得以分割。SVM 可以歸為,如圖 2.4;2. 軟間隔最大線性 SVM;3. 依據(jù)核函型的 SVM 在理論求解中,都需要轉(zhuǎn)化為凸二次規(guī)劃
共計評論 788469 條。數(shù)據(jù)集中虛假評論標識為 Y,真實評論標識為 N。然而數(shù)據(jù)集中擁有大量帶有 NR 和 YR 標識的數(shù)據(jù),它們是評估數(shù)據(jù),不具備權(quán)威性,無法用來進行虛假評論檢測。故而在 Mukherjee 等人[10]的文章中,僅采用了 Y 和 N 標識的數(shù)據(jù)集,共計 64445條,其中虛假評論為 8035 條,真實評論為 56410 條。在本文的實驗中,將使用總的數(shù)據(jù)集即788469 條評論內(nèi)容進行詞向量字典的訓練,采用 Mukherjee 等人[10]的文章中所用的 64445 條真假評論數(shù)據(jù)集進行虛假評論檢測的方法研究。表 3.1 是對實驗中用到的 Yelp 數(shù)據(jù)集的統(tǒng)計,圖 3.1 為部分原始數(shù)據(jù)集的截圖。本文的實驗主要針對語義研究,故而僅使用其中的評論內(nèi)容 reviewContent 屬性和真假標識 flagged 屬性。表 3. 1 數(shù)據(jù)集統(tǒng)計表Table 3.1 Dataset statistics數(shù)據(jù)集 虛假評論 真實評論 總的評論餐廳和酒店評論 8035 56410 64445
【參考文獻】:
期刊論文
[1]基于Word2Vec和LDA主題模型的Web服務(wù)聚類方法[J]. 肖巧翔,曹步清,張祥平,劉建勛,李晏新聞. 中南大學學報(自然科學版). 2018(12)
[2]基于word2vec和LDA的文本主題[J]. 徐守坤,周佳,李寧,石林. 計算機工程與設(shè)計. 2018(09)
[3]基于LDA和word2vec的英文作文跑題檢測[J]. 曲強,崔榮一,趙亞慧. 計算機應(yīng)用研究. 2019(02)
[4]基于主題模型和情感分析的垃圾評論識別方法研究[J]. 金相宏,李琳,鐘珞. 計算機科學. 2017(10)
[5]基于LF-LDA和Word2vec的文本表示模型研究[J]. 陳磊,李俊. 電子技術(shù). 2017(07)
[6]Word2vec的核心架構(gòu)及其應(yīng)用[J]. 熊富林,鄧怡豪,唐曉晟. 南京師范大學學報(工程技術(shù)版). 2015(01)
碩士論文
[1]領(lǐng)域關(guān)鍵詞抽。航Y(jié)合LDA與Word2Vec[D]. 韋強申.貴州師范大學 2016
[2]基于LDA和Word2Vec的推薦算法研究[D]. 董文.北京郵電大學 2015
本文編號:3210752
本文鏈接:http://sikaile.net/jingjilunwen/guojimaoyilunwen/3210752.html
最近更新
教材專著