基于LDA與PW-Word2vec的虛假評(píng)論識(shí)別方法研究
發(fā)布時(shí)間:2021-06-02 21:06
信息科技的成熟為電子商務(wù)的蓬勃發(fā)展創(chuàng)建了條件,相對(duì)于線下實(shí)體店購(gòu)物,越來(lái)越多的消費(fèi)者更傾向于方便快捷的線上網(wǎng)絡(luò)購(gòu)物。然而虛假評(píng)論的存在卻使得消費(fèi)者無(wú)法對(duì)商品進(jìn)行更加客觀的評(píng)估,侵害了消費(fèi)者權(quán)益,同時(shí)也損害了部分誠(chéng)信商家的利益。因此,本文基于Yelp在線評(píng)論數(shù)據(jù)集,使用LDA進(jìn)行失衡處理,以及使用PW(Probability Weight)-Word2vec構(gòu)造評(píng)論特征向量,提出了一種基于LDA和PW-Word2vec的虛假評(píng)論檢測(cè)模型,主要研究?jī)?nèi)容如下:(1)訓(xùn)練詞向量字典:基于酒店和餐飲領(lǐng)域數(shù)據(jù),運(yùn)用Word2vec模型完成了詞向量字典的訓(xùn)練。(2)構(gòu)建LDA+Word2vec虛假評(píng)論檢測(cè)模型:針對(duì)實(shí)驗(yàn)數(shù)據(jù)中真假評(píng)論數(shù)據(jù)量的不均衡問(wèn)題,本文提出了LDA抽樣失衡處理的方法,使得真假評(píng)論數(shù)據(jù)量達(dá)到了一致,而后對(duì)該實(shí)驗(yàn)數(shù)據(jù)進(jìn)行評(píng)論特征向量的提取,構(gòu)建LDA+Word2vec虛假評(píng)論檢測(cè)模型。(3)構(gòu)建LDA+PW-Word2vec虛假評(píng)論檢測(cè)模型:LDA+Word2vec建模過(guò)程中,存在著評(píng)論文本信息損失的問(wèn)題,基于此,本文又進(jìn)一步提出了LDA+PW-Word2vec模型進(jìn)行虛假評(píng)論的檢測(cè)...
【文章來(lái)源】:內(nèi)蒙古大學(xué)內(nèi)蒙古自治區(qū) 211工程院校
【文章頁(yè)數(shù)】:58 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
webofscience上spam類(lèi)論文數(shù)量趨勢(shì)圖
W(t+W(t+t)圖 2. 3 Skip-gram 模型Figure2.3 Skip-gram model2.3 分類(lèi)算法,Support Vector Machine)[41]是一個(gè)二分類(lèi)模型,在間隔最大化的條件下得以分割。SVM 可以歸為,如圖 2.4;2. 軟間隔最大線性 SVM;3. 依據(jù)核函型的 SVM 在理論求解中,都需要轉(zhuǎn)化為凸二次規(guī)劃
共計(jì)評(píng)論 788469 條。數(shù)據(jù)集中虛假評(píng)論標(biāo)識(shí)為 Y,真實(shí)評(píng)論標(biāo)識(shí)為 N。然而數(shù)據(jù)集中擁有大量帶有 NR 和 YR 標(biāo)識(shí)的數(shù)據(jù),它們是評(píng)估數(shù)據(jù),不具備權(quán)威性,無(wú)法用來(lái)進(jìn)行虛假評(píng)論檢測(cè)。故而在 Mukherjee 等人[10]的文章中,僅采用了 Y 和 N 標(biāo)識(shí)的數(shù)據(jù)集,共計(jì) 64445條,其中虛假評(píng)論為 8035 條,真實(shí)評(píng)論為 56410 條。在本文的實(shí)驗(yàn)中,將使用總的數(shù)據(jù)集即788469 條評(píng)論內(nèi)容進(jìn)行詞向量字典的訓(xùn)練,采用 Mukherjee 等人[10]的文章中所用的 64445 條真假評(píng)論數(shù)據(jù)集進(jìn)行虛假評(píng)論檢測(cè)的方法研究。表 3.1 是對(duì)實(shí)驗(yàn)中用到的 Yelp 數(shù)據(jù)集的統(tǒng)計(jì),圖 3.1 為部分原始數(shù)據(jù)集的截圖。本文的實(shí)驗(yàn)主要針對(duì)語(yǔ)義研究,故而僅使用其中的評(píng)論內(nèi)容 reviewContent 屬性和真假標(biāo)識(shí) flagged 屬性。表 3. 1 數(shù)據(jù)集統(tǒng)計(jì)表Table 3.1 Dataset statistics數(shù)據(jù)集 虛假評(píng)論 真實(shí)評(píng)論 總的評(píng)論餐廳和酒店評(píng)論 8035 56410 64445
【參考文獻(xiàn)】:
期刊論文
[1]基于Word2Vec和LDA主題模型的Web服務(wù)聚類(lèi)方法[J]. 肖巧翔,曹步清,張祥平,劉建勛,李晏新聞. 中南大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(12)
[2]基于word2vec和LDA的文本主題[J]. 徐守坤,周佳,李寧,石林. 計(jì)算機(jī)工程與設(shè)計(jì). 2018(09)
[3]基于LDA和word2vec的英文作文跑題檢測(cè)[J]. 曲強(qiáng),崔榮一,趙亞慧. 計(jì)算機(jī)應(yīng)用研究. 2019(02)
[4]基于主題模型和情感分析的垃圾評(píng)論識(shí)別方法研究[J]. 金相宏,李琳,鐘珞. 計(jì)算機(jī)科學(xué). 2017(10)
[5]基于LF-LDA和Word2vec的文本表示模型研究[J]. 陳磊,李俊. 電子技術(shù). 2017(07)
[6]Word2vec的核心架構(gòu)及其應(yīng)用[J]. 熊富林,鄧怡豪,唐曉晟. 南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版). 2015(01)
碩士論文
[1]領(lǐng)域關(guān)鍵詞抽。航Y(jié)合LDA與Word2Vec[D]. 韋強(qiáng)申.貴州師范大學(xué) 2016
[2]基于LDA和Word2Vec的推薦算法研究[D]. 董文.北京郵電大學(xué) 2015
本文編號(hào):3210752
【文章來(lái)源】:內(nèi)蒙古大學(xué)內(nèi)蒙古自治區(qū) 211工程院校
【文章頁(yè)數(shù)】:58 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
webofscience上spam類(lèi)論文數(shù)量趨勢(shì)圖
W(t+W(t+t)圖 2. 3 Skip-gram 模型Figure2.3 Skip-gram model2.3 分類(lèi)算法,Support Vector Machine)[41]是一個(gè)二分類(lèi)模型,在間隔最大化的條件下得以分割。SVM 可以歸為,如圖 2.4;2. 軟間隔最大線性 SVM;3. 依據(jù)核函型的 SVM 在理論求解中,都需要轉(zhuǎn)化為凸二次規(guī)劃
共計(jì)評(píng)論 788469 條。數(shù)據(jù)集中虛假評(píng)論標(biāo)識(shí)為 Y,真實(shí)評(píng)論標(biāo)識(shí)為 N。然而數(shù)據(jù)集中擁有大量帶有 NR 和 YR 標(biāo)識(shí)的數(shù)據(jù),它們是評(píng)估數(shù)據(jù),不具備權(quán)威性,無(wú)法用來(lái)進(jìn)行虛假評(píng)論檢測(cè)。故而在 Mukherjee 等人[10]的文章中,僅采用了 Y 和 N 標(biāo)識(shí)的數(shù)據(jù)集,共計(jì) 64445條,其中虛假評(píng)論為 8035 條,真實(shí)評(píng)論為 56410 條。在本文的實(shí)驗(yàn)中,將使用總的數(shù)據(jù)集即788469 條評(píng)論內(nèi)容進(jìn)行詞向量字典的訓(xùn)練,采用 Mukherjee 等人[10]的文章中所用的 64445 條真假評(píng)論數(shù)據(jù)集進(jìn)行虛假評(píng)論檢測(cè)的方法研究。表 3.1 是對(duì)實(shí)驗(yàn)中用到的 Yelp 數(shù)據(jù)集的統(tǒng)計(jì),圖 3.1 為部分原始數(shù)據(jù)集的截圖。本文的實(shí)驗(yàn)主要針對(duì)語(yǔ)義研究,故而僅使用其中的評(píng)論內(nèi)容 reviewContent 屬性和真假標(biāo)識(shí) flagged 屬性。表 3. 1 數(shù)據(jù)集統(tǒng)計(jì)表Table 3.1 Dataset statistics數(shù)據(jù)集 虛假評(píng)論 真實(shí)評(píng)論 總的評(píng)論餐廳和酒店評(píng)論 8035 56410 64445
【參考文獻(xiàn)】:
期刊論文
[1]基于Word2Vec和LDA主題模型的Web服務(wù)聚類(lèi)方法[J]. 肖巧翔,曹步清,張祥平,劉建勛,李晏新聞. 中南大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(12)
[2]基于word2vec和LDA的文本主題[J]. 徐守坤,周佳,李寧,石林. 計(jì)算機(jī)工程與設(shè)計(jì). 2018(09)
[3]基于LDA和word2vec的英文作文跑題檢測(cè)[J]. 曲強(qiáng),崔榮一,趙亞慧. 計(jì)算機(jī)應(yīng)用研究. 2019(02)
[4]基于主題模型和情感分析的垃圾評(píng)論識(shí)別方法研究[J]. 金相宏,李琳,鐘珞. 計(jì)算機(jī)科學(xué). 2017(10)
[5]基于LF-LDA和Word2vec的文本表示模型研究[J]. 陳磊,李俊. 電子技術(shù). 2017(07)
[6]Word2vec的核心架構(gòu)及其應(yīng)用[J]. 熊富林,鄧怡豪,唐曉晟. 南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版). 2015(01)
碩士論文
[1]領(lǐng)域關(guān)鍵詞抽。航Y(jié)合LDA與Word2Vec[D]. 韋強(qiáng)申.貴州師范大學(xué) 2016
[2]基于LDA和Word2Vec的推薦算法研究[D]. 董文.北京郵電大學(xué) 2015
本文編號(hào):3210752
本文鏈接:http://sikaile.net/jingjilunwen/guojimaoyilunwen/3210752.html
最近更新
教材專(zhuān)著