當(dāng)前位置：主頁(yè) > 經(jīng)濟(jì)論文 > 企業(yè)經(jīng)濟(jì)論文 >

基于改進(jìn)LDA的在線商城垃圾評(píng)論識(shí)別研究

發(fā)布時(shí)間：2021-03-26 17:22

　　隨著時(shí)代的發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為人們生活中必不可少的一部分,在線商城的出現(xiàn)也使得人們的購(gòu)物方式產(chǎn)生了巨大的變化,其產(chǎn)生的商品評(píng)論對(duì)消費(fèi)者選擇商品提供了重要的參考價(jià)值。然而垃圾評(píng)論的存在會(huì)使消費(fèi)者接受到錯(cuò)誤的商品信息,進(jìn)而影響消費(fèi)者的購(gòu)買體驗(yàn),同時(shí)也會(huì)造成商家信譽(yù)度的缺失。因此,垃圾評(píng)論識(shí)別已經(jīng)成為當(dāng)前在線商城發(fā)展過(guò)程中的重點(diǎn)問(wèn)題,也是當(dāng)下文本分類研究的熱點(diǎn)問(wèn)題。為此,本文在對(duì)在線商城評(píng)論數(shù)據(jù)進(jìn)行研究的基礎(chǔ)上,提出了一種改進(jìn)的LDA主題模型,探究依據(jù)評(píng)論文本的主題信息來(lái)識(shí)別垃圾評(píng)論的研究方法,使得在線商城能夠過(guò)濾無(wú)用或無(wú)效的垃圾評(píng)論,為消費(fèi)者鑒別商品質(zhì)量提供指導(dǎo),并為在線商城垃圾評(píng)論識(shí)別問(wèn)題提供一種解決辦法。結(jié)合LDA主題模型及垃圾評(píng)論識(shí)別的相關(guān)理論,本文以在線商城評(píng)論數(shù)據(jù)作為研究對(duì)象,首先借助網(wǎng)絡(luò)爬蟲技術(shù),設(shè)計(jì)了針對(duì)于在線商城評(píng)論數(shù)據(jù)的采集方案。并在此基礎(chǔ)上,利用中文分詞、停用詞過(guò)濾及關(guān)鍵詞提取等預(yù)處理方法對(duì)數(shù)據(jù)進(jìn)行整合,進(jìn)而借助文本表示方法完成了評(píng)論數(shù)據(jù)的降維操作。其次,探討了將LDA主題模型直接應(yīng)用于在線商城垃圾評(píng)論識(shí)別帶來(lái)的不利影響,基于此提出了改進(jìn)后的OMCR-LDA主題模型,借...

【文章來(lái)源】：西安理工大學(xué)陜西省

【文章頁(yè)數(shù)】：91 頁(yè)

【學(xué)位級(jí)別】：碩士

【部分圖文】：

商品搜索結(jié)果頁(yè)面

數(shù)據(jù),內(nèi)容,詞典,字符

西安理工大學(xué)碩士學(xué)位論文56圖5-3在線商城評(píng)論數(shù)據(jù)（部分）Figure5-3Onlinemallreviewdata(partial)如上圖5-3所示，通過(guò)觀察在線商城評(píng)論數(shù)據(jù)的特征發(fā)現(xiàn)，利用網(wǎng)絡(luò)爬蟲技術(shù)從在線商城中直接爬取數(shù)據(jù)會(huì)帶來(lái)一些問(wèn)題，例如爬取的數(shù)據(jù)中存在許多重復(fù)評(píng)論和臟數(shù)據(jù)的現(xiàn)象，經(jīng)過(guò)分析發(fā)現(xiàn)爬蟲獲得的在線商城評(píng)論數(shù)據(jù)具有如下特點(diǎn)：●文本短：有許多評(píng)論字符內(nèi)容太少；●語(yǔ)言不規(guī)范：會(huì)出現(xiàn)一些網(wǎng)絡(luò)用詞，符號(hào)，數(shù)字等；●無(wú)意義信息多：如只簡(jiǎn)單的進(jìn)行評(píng)論“好”、“可以”、“不錯(cuò)”等；●重復(fù)性大：部分用戶會(huì)復(fù)制粘貼別人的評(píng)論；●數(shù)據(jù)量大：針對(duì)研究的不同商品類型，可以獲得大量的評(píng)論數(shù)據(jù)。由于評(píng)論數(shù)據(jù)量較大，且評(píng)論長(zhǎng)短不一、內(nèi)容復(fù)雜，為了使評(píng)論數(shù)據(jù)在OMCR-LDA中的計(jì)算過(guò)程更為準(zhǔn)確，在此約定以下3個(gè)前提假設(shè)：①每次評(píng)論單獨(dú)發(fā)生，評(píng)論之間是相互獨(dú)立的；②評(píng)論者對(duì)一件商品至多進(jìn)行一次評(píng)論；③將信息量少的評(píng)論內(nèi)容也視為正常評(píng)論，后面會(huì)針對(duì)具體研究對(duì)字符過(guò)少的評(píng)論進(jìn)行剔除。根據(jù)以上前提假設(shè)，對(duì)爬取得到在線商城評(píng)論數(shù)據(jù)集可以展開進(jìn)一步的數(shù)據(jù)預(yù)處理操作。5.2.2實(shí)驗(yàn)數(shù)據(jù)預(yù)處理（1）中文分詞由于在線商城提供了非常自由的評(píng)論環(huán)境，且在網(wǎng)絡(luò)環(huán)境中很容易產(chǎn)生網(wǎng)絡(luò)新詞，為了減少詞語(yǔ)歧義，提升評(píng)論數(shù)據(jù)的分詞效果，本文經(jīng)過(guò)對(duì)所獲取的評(píng)論數(shù)據(jù)進(jìn)行分析及整理，通過(guò)統(tǒng)計(jì)的方式構(gòu)建了專門針對(duì)在線商城評(píng)論這種文本類型的自定義詞典，詞典內(nèi)容如下圖5-4所示：

詞典,詞庫(kù)

京東在線商城的垃圾評(píng)論識(shí)別實(shí)驗(yàn)及分析57圖5-4在線商城評(píng)論自定義詞典（部分）Figure5-4Customdictionaryforonlinemallreviews(partial)對(duì)在線商城評(píng)論數(shù)據(jù)進(jìn)行分詞操作時(shí)，正確識(shí)別新詞對(duì)分詞結(jié)果具有重要影響。根據(jù)構(gòu)建的自定義詞典，可以較好地解決新詞識(shí)別問(wèn)題，同時(shí)能夠保證關(guān)鍵詞不被拆分，也能夠有效解決利用Jieba的通用詞典庫(kù)無(wú)法識(shí)別新詞、造成詞語(yǔ)歧義的問(wèn)題。通過(guò)加載在線商城評(píng)論的自定義詞庫(kù)，與Jieba中的已有詞庫(kù)相結(jié)合，在分詞的過(guò)程中就可以依據(jù)以上分詞詞典使得分詞結(jié)果更加精確。借助編寫的Python程序來(lái)調(diào)用Jieba分詞庫(kù)，根據(jù)在線商城評(píng)論特點(diǎn)，采用精確模式實(shí)現(xiàn)的分詞結(jié)果如下圖5-5所示：圖5-5分詞結(jié)果（部分）Figure5-5Segmentationresult(partial)（2）停用詞過(guò)濾觀察以上分詞結(jié)果，發(fā)現(xiàn)評(píng)論中包含有較多語(yǔ)氣詞及無(wú)意義的詞，這些詞都屬于停用詞。根據(jù)第三章中停用詞過(guò)濾的研究方法，若要對(duì)這些詞匯進(jìn)行良好地剔除，需首先構(gòu)建一個(gè)停用詞表，它可以保證停用詞過(guò)濾的全面性和準(zhǔn)確性，并且結(jié)合了在線商城的評(píng)論特點(diǎn)，使得過(guò)濾效果得以提升，所構(gòu)建的停用詞表如表5-2所示：

【參考文獻(xiàn)】：
期刊論文
[1]基于改進(jìn)LDA的在線醫(yī)療評(píng)論主題挖掘[J]. 高慧穎,劉嘉唯,楊淑昕.  北京理工大學(xué)學(xué)報(bào). 2019(04)
[2]基于Word2Vec和LDA主題模型的Web服務(wù)聚類方法[J]. 肖巧翔,曹步清,張祥平,劉建勛,李晏新聞.  中南大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(12)
[3]垃圾商品評(píng)論檢測(cè)研究綜述[J]. 張圣,伍星,鄒東升.  計(jì)算機(jī)工程與科學(xué). 2018(11)
[4]基于word2vec和LDA的文本主題[J]. 徐守坤,周佳,李寧,石林.  計(jì)算機(jī)工程與設(shè)計(jì). 2018(09)
[5]基于LDA和word2vec的英文作文跑題檢測(cè)[J]. 曲強(qiáng),崔榮一,趙亞慧.  計(jì)算機(jī)應(yīng)用研究. 2019(02)
[6]LDA模型的優(yōu)化及其主題數(shù)量選擇研究——以科技文獻(xiàn)為例[J]. 王婷婷,韓滿,王宇.  數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2018(01)
[7]用戶在線評(píng)論數(shù)據(jù)采集策略研究[J]. 王聰鋆,張?jiān)?  信息與電腦(理論版). 2017(20)
[8]基于主題模型和情感分析的垃圾評(píng)論識(shí)別方法研究[J]. 金相宏,李琳,鐘珞.  計(jì)算機(jī)科學(xué). 2017(10)
[9]基于梯度核特征及N-gram模型的商品圖像句子標(biāo)注[J]. 張紅斌,姬東鴻,尹蘭,任亞峰.  計(jì)算機(jī)科學(xué). 2016(05)
[10]基于情感特征和用戶關(guān)系的虛假評(píng)論者的識(shí)別[J]. 邵珠峰,姬東鴻.  計(jì)算機(jī)應(yīng)用與軟件. 2016(05)

博士論文
[1]基于標(biāo)注和未標(biāo)注數(shù)椐的虛假評(píng)論識(shí)別研究[D]. 任亞峰.武漢大學(xué) 2015
[2]基于產(chǎn)品評(píng)論的情感分析研究[D]. 李方濤.清華大學(xué) 2011
[3]基于詞共現(xiàn)的文本主題挖掘模型和算法研究[D]. 常鵬.天津大學(xué) 2010

碩士論文
[1]基于LDA與PW-Word2vec的虛假評(píng)論識(shí)別方法研究[D]. 賈少華.內(nèi)蒙古大學(xué) 2019
[2]電商平臺(tái)購(gòu)物虛假評(píng)論識(shí)別研究[D]. 王禹.首都經(jīng)濟(jì)貿(mào)易大學(xué) 2018
[3]基于DBN模型的電子商務(wù)虛假評(píng)論識(shí)別[D]. 唐義杰.安徽財(cái)經(jīng)大學(xué) 2018
[4]整合視角下在線評(píng)論感知有用性形成機(jī)理：信息—顧客—產(chǎn)品的交互作用[D]. 趙曉虹.太原理工大學(xué) 2018
[5]第三方點(diǎn)評(píng)網(wǎng)站垃圾評(píng)論分類模型的構(gòu)建[D]. 吳琪.天津師范大學(xué) 2018
[6]基于爬蟲和LDA的新聞話題挖掘[D]. 曹牧原.河北大學(xué) 2018
[7]基于LDA的企業(yè)微博主題傳播效果分析[D]. 趙燕.華南理工大學(xué) 2018
[8]基于LDA的微博災(zāi)害信息聚合[D]. 李靜.武漢大學(xué) 2018
[9]基于非均衡數(shù)據(jù)分類方法的虛假評(píng)論檢測(cè)研究[D]. 周黎宇.合肥工業(yè)大學(xué) 2018
[10]基于Web質(zhì)量模型特征模型的垃圾評(píng)論特征分析與檢測(cè)[D]. 劉雪甜.西南交通大學(xué) 2017

本文編號(hào)：3101964

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/jingjilunwen/xmjj/3101964.html

上一篇：我國(guó)上市公司分拆上市的經(jīng)營(yíng)績(jī)效及其影響因素研究
下一篇：沭陽(yáng)木材加工企業(yè)員工職業(yè)生涯管理與工作滿意度、組織承諾研究

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于改進(jìn)LDA的在線商城垃圾評(píng)論識(shí)別研究