天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于LDA與PW-Word2vec的虛假評(píng)論識(shí)別方法研究

發(fā)布時(shí)間:2021-06-02 21:06
  信息科技的成熟為電子商務(wù)的蓬勃發(fā)展創(chuàng)建了條件,相對(duì)于線下實(shí)體店購(gòu)物,越來(lái)越多的消費(fèi)者更傾向于方便快捷的線上網(wǎng)絡(luò)購(gòu)物。然而虛假評(píng)論的存在卻使得消費(fèi)者無(wú)法對(duì)商品進(jìn)行更加客觀的評(píng)估,侵害了消費(fèi)者權(quán)益,同時(shí)也損害了部分誠(chéng)信商家的利益。因此,本文基于Yelp在線評(píng)論數(shù)據(jù)集,使用LDA進(jìn)行失衡處理,以及使用PW(Probability Weight)-Word2vec構(gòu)造評(píng)論特征向量,提出了一種基于LDA和PW-Word2vec的虛假評(píng)論檢測(cè)模型,主要研究?jī)?nèi)容如下:(1)訓(xùn)練詞向量字典:基于酒店和餐飲領(lǐng)域數(shù)據(jù),運(yùn)用Word2vec模型完成了詞向量字典的訓(xùn)練。(2)構(gòu)建LDA+Word2vec虛假評(píng)論檢測(cè)模型:針對(duì)實(shí)驗(yàn)數(shù)據(jù)中真假評(píng)論數(shù)據(jù)量的不均衡問(wèn)題,本文提出了LDA抽樣失衡處理的方法,使得真假評(píng)論數(shù)據(jù)量達(dá)到了一致,而后對(duì)該實(shí)驗(yàn)數(shù)據(jù)進(jìn)行評(píng)論特征向量的提取,構(gòu)建LDA+Word2vec虛假評(píng)論檢測(cè)模型。(3)構(gòu)建LDA+PW-Word2vec虛假評(píng)論檢測(cè)模型:LDA+Word2vec建模過(guò)程中,存在著評(píng)論文本信息損失的問(wèn)題,基于此,本文又進(jìn)一步提出了LDA+PW-Word2vec模型進(jìn)行虛假評(píng)論的檢測(cè)... 

【文章來(lái)源】:內(nèi)蒙古大學(xué)內(nèi)蒙古自治區(qū) 211工程院校

【文章頁(yè)數(shù)】:58 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于LDA與PW-Word2vec的虛假評(píng)論識(shí)別方法研究


webofscience上spam類(lèi)論文數(shù)量趨勢(shì)圖

線性可分,凸二次規(guī)劃,分類(lèi)算法


W(t+W(t+t)圖 2. 3 Skip-gram 模型Figure2.3 Skip-gram model2.3 分類(lèi)算法,Support Vector Machine)[41]是一個(gè)二分類(lèi)模型,在間隔最大化的條件下得以分割。SVM 可以歸為,如圖 2.4;2. 軟間隔最大線性 SVM;3. 依據(jù)核函型的 SVM 在理論求解中,都需要轉(zhuǎn)化為凸二次規(guī)劃

數(shù)據(jù)集


共計(jì)評(píng)論 788469 條。數(shù)據(jù)集中虛假評(píng)論標(biāo)識(shí)為 Y,真實(shí)評(píng)論標(biāo)識(shí)為 N。然而數(shù)據(jù)集中擁有大量帶有 NR 和 YR 標(biāo)識(shí)的數(shù)據(jù),它們是評(píng)估數(shù)據(jù),不具備權(quán)威性,無(wú)法用來(lái)進(jìn)行虛假評(píng)論檢測(cè)。故而在 Mukherjee 等人[10]的文章中,僅采用了 Y 和 N 標(biāo)識(shí)的數(shù)據(jù)集,共計(jì) 64445條,其中虛假評(píng)論為 8035 條,真實(shí)評(píng)論為 56410 條。在本文的實(shí)驗(yàn)中,將使用總的數(shù)據(jù)集即788469 條評(píng)論內(nèi)容進(jìn)行詞向量字典的訓(xùn)練,采用 Mukherjee 等人[10]的文章中所用的 64445 條真假評(píng)論數(shù)據(jù)集進(jìn)行虛假評(píng)論檢測(cè)的方法研究。表 3.1 是對(duì)實(shí)驗(yàn)中用到的 Yelp 數(shù)據(jù)集的統(tǒng)計(jì),圖 3.1 為部分原始數(shù)據(jù)集的截圖。本文的實(shí)驗(yàn)主要針對(duì)語(yǔ)義研究,故而僅使用其中的評(píng)論內(nèi)容 reviewContent 屬性和真假標(biāo)識(shí) flagged 屬性。表 3. 1 數(shù)據(jù)集統(tǒng)計(jì)表Table 3.1 Dataset statistics數(shù)據(jù)集 虛假評(píng)論 真實(shí)評(píng)論 總的評(píng)論餐廳和酒店評(píng)論 8035 56410 64445

【參考文獻(xiàn)】:
期刊論文
[1]基于Word2Vec和LDA主題模型的Web服務(wù)聚類(lèi)方法[J]. 肖巧翔,曹步清,張祥平,劉建勛,李晏新聞.  中南大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(12)
[2]基于word2vec和LDA的文本主題[J]. 徐守坤,周佳,李寧,石林.  計(jì)算機(jī)工程與設(shè)計(jì). 2018(09)
[3]基于LDA和word2vec的英文作文跑題檢測(cè)[J]. 曲強(qiáng),崔榮一,趙亞慧.  計(jì)算機(jī)應(yīng)用研究. 2019(02)
[4]基于主題模型和情感分析的垃圾評(píng)論識(shí)別方法研究[J]. 金相宏,李琳,鐘珞.  計(jì)算機(jī)科學(xué). 2017(10)
[5]基于LF-LDA和Word2vec的文本表示模型研究[J]. 陳磊,李俊.  電子技術(shù). 2017(07)
[6]Word2vec的核心架構(gòu)及其應(yīng)用[J]. 熊富林,鄧怡豪,唐曉晟.  南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版). 2015(01)

碩士論文
[1]領(lǐng)域關(guān)鍵詞抽。航Y(jié)合LDA與Word2Vec[D]. 韋強(qiáng)申.貴州師范大學(xué) 2016
[2]基于LDA和Word2Vec的推薦算法研究[D]. 董文.北京郵電大學(xué) 2015



本文編號(hào):3210752

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/jingjilunwen/guojimaoyilunwen/3210752.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)a705f***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
免费高清欧美一区二区视频| 中文字幕一二区在线观看| 亚洲熟妇中文字幕五十路| 九九热视频免费在线视频| 中文字幕无线码一区欧美| 国产成人精品午夜福利| 国产精品一区二区视频成人| 欧美日韩一级黄片免费观看| 中文字日产幕码三区国产| 亚洲中文字幕三区四区| 日韩不卡一区二区在线| 日韩免费av一区二区三区| 人妻偷人精品一区二区三区不卡| 免费在线观看欧美喷水黄片| 香港国产三级久久精品三级| 福利一区二区视频在线| 国产色偷丝袜麻豆亚洲| 欧美性高清一区二区三区视频 | 亚洲熟妇熟女久久精品| 国产女同精品一区二区| 久久99夜色精品噜噜亚洲av| 国产内射一级一片内射高清| 免费午夜福利不卡片在线 视频| 国产日韩欧美专区一区| 欧美熟妇一区二区在线| 国产精品久久香蕉国产线| 国产日韩欧美综合视频| 成年人黄片大全在线观看| 中文字幕乱码一区二区三区四区| 成年人免费看国产视频| 玩弄人妻少妇一区二区桃花| 国产精品不卡高清在线观看| 午夜国产精品国自产拍av| 国产精品人妻熟女毛片av久| 中文字幕亚洲精品乱码加勒比| 国产一级内片内射免费看| 国产免费无遮挡精品视频 | 亚洲熟女一区二区三四区| 男人大臿蕉香蕉大视频| 日本午夜免费观看视频| 亚洲第一视频少妇人妻系列 |