基于改進(jìn)LDA的在線商城垃圾評(píng)論識(shí)別研究
發(fā)布時(shí)間:2021-03-26 17:22
隨著時(shí)代的發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為人們生活中必不可少的一部分,在線商城的出現(xiàn)也使得人們的購(gòu)物方式產(chǎn)生了巨大的變化,其產(chǎn)生的商品評(píng)論對(duì)消費(fèi)者選擇商品提供了重要的參考價(jià)值。然而垃圾評(píng)論的存在會(huì)使消費(fèi)者接受到錯(cuò)誤的商品信息,進(jìn)而影響消費(fèi)者的購(gòu)買體驗(yàn),同時(shí)也會(huì)造成商家信譽(yù)度的缺失。因此,垃圾評(píng)論識(shí)別已經(jīng)成為當(dāng)前在線商城發(fā)展過(guò)程中的重點(diǎn)問(wèn)題,也是當(dāng)下文本分類研究的熱點(diǎn)問(wèn)題。為此,本文在對(duì)在線商城評(píng)論數(shù)據(jù)進(jìn)行研究的基礎(chǔ)上,提出了一種改進(jìn)的LDA主題模型,探究依據(jù)評(píng)論文本的主題信息來(lái)識(shí)別垃圾評(píng)論的研究方法,使得在線商城能夠過(guò)濾無(wú)用或無(wú)效的垃圾評(píng)論,為消費(fèi)者鑒別商品質(zhì)量提供指導(dǎo),并為在線商城垃圾評(píng)論識(shí)別問(wèn)題提供一種解決辦法。結(jié)合LDA主題模型及垃圾評(píng)論識(shí)別的相關(guān)理論,本文以在線商城評(píng)論數(shù)據(jù)作為研究對(duì)象,首先借助網(wǎng)絡(luò)爬蟲技術(shù),設(shè)計(jì)了針對(duì)于在線商城評(píng)論數(shù)據(jù)的采集方案。并在此基礎(chǔ)上,利用中文分詞、停用詞過(guò)濾及關(guān)鍵詞提取等預(yù)處理方法對(duì)數(shù)據(jù)進(jìn)行整合,進(jìn)而借助文本表示方法完成了評(píng)論數(shù)據(jù)的降維操作。其次,探討了將LDA主題模型直接應(yīng)用于在線商城垃圾評(píng)論識(shí)別帶來(lái)的不利影響,基于此提出了改進(jìn)后的OMCR-LDA主題模型,借...
【文章來(lái)源】:西安理工大學(xué)陜西省
【文章頁(yè)數(shù)】:91 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
商品搜索結(jié)果頁(yè)面
西安理工大學(xué)碩士學(xué)位論文56圖5-3在線商城評(píng)論數(shù)據(jù)(部分)Figure5-3Onlinemallreviewdata(partial)如上圖5-3所示,通過(guò)觀察在線商城評(píng)論數(shù)據(jù)的特征發(fā)現(xiàn),利用網(wǎng)絡(luò)爬蟲技術(shù)從在線商城中直接爬取數(shù)據(jù)會(huì)帶來(lái)一些問(wèn)題,例如爬取的數(shù)據(jù)中存在許多重復(fù)評(píng)論和臟數(shù)據(jù)的現(xiàn)象,經(jīng)過(guò)分析發(fā)現(xiàn)爬蟲獲得的在線商城評(píng)論數(shù)據(jù)具有如下特點(diǎn):●文本短:有許多評(píng)論字符內(nèi)容太少;●語(yǔ)言不規(guī)范:會(huì)出現(xiàn)一些網(wǎng)絡(luò)用詞,符號(hào),數(shù)字等;●無(wú)意義信息多:如只簡(jiǎn)單的進(jìn)行評(píng)論“好”、“可以”、“不錯(cuò)”等;●重復(fù)性大:部分用戶會(huì)復(fù)制粘貼別人的評(píng)論;●數(shù)據(jù)量大:針對(duì)研究的不同商品類型,可以獲得大量的評(píng)論數(shù)據(jù)。由于評(píng)論數(shù)據(jù)量較大,且評(píng)論長(zhǎng)短不一、內(nèi)容復(fù)雜,為了使評(píng)論數(shù)據(jù)在OMCR-LDA中的計(jì)算過(guò)程更為準(zhǔn)確,在此約定以下3個(gè)前提假設(shè):①每次評(píng)論單獨(dú)發(fā)生,評(píng)論之間是相互獨(dú)立的;②評(píng)論者對(duì)一件商品至多進(jìn)行一次評(píng)論;③將信息量少的評(píng)論內(nèi)容也視為正常評(píng)論,后面會(huì)針對(duì)具體研究對(duì)字符過(guò)少的評(píng)論進(jìn)行剔除。根據(jù)以上前提假設(shè),對(duì)爬取得到在線商城評(píng)論數(shù)據(jù)集可以展開進(jìn)一步的數(shù)據(jù)預(yù)處理操作。5.2.2實(shí)驗(yàn)數(shù)據(jù)預(yù)處理(1)中文分詞由于在線商城提供了非常自由的評(píng)論環(huán)境,且在網(wǎng)絡(luò)環(huán)境中很容易產(chǎn)生網(wǎng)絡(luò)新詞,為了減少詞語(yǔ)歧義,提升評(píng)論數(shù)據(jù)的分詞效果,本文經(jīng)過(guò)對(duì)所獲取的評(píng)論數(shù)據(jù)進(jìn)行分析及整理,通過(guò)統(tǒng)計(jì)的方式構(gòu)建了專門針對(duì)在線商城評(píng)論這種文本類型的自定義詞典,詞典內(nèi)容如下圖5-4所示:
京東在線商城的垃圾評(píng)論識(shí)別實(shí)驗(yàn)及分析57圖5-4在線商城評(píng)論自定義詞典(部分)Figure5-4Customdictionaryforonlinemallreviews(partial)對(duì)在線商城評(píng)論數(shù)據(jù)進(jìn)行分詞操作時(shí),正確識(shí)別新詞對(duì)分詞結(jié)果具有重要影響。根據(jù)構(gòu)建的自定義詞典,可以較好地解決新詞識(shí)別問(wèn)題,同時(shí)能夠保證關(guān)鍵詞不被拆分,也能夠有效解決利用Jieba的通用詞典庫(kù)無(wú)法識(shí)別新詞、造成詞語(yǔ)歧義的問(wèn)題。通過(guò)加載在線商城評(píng)論的自定義詞庫(kù),與Jieba中的已有詞庫(kù)相結(jié)合,在分詞的過(guò)程中就可以依據(jù)以上分詞詞典使得分詞結(jié)果更加精確。借助編寫的Python程序來(lái)調(diào)用Jieba分詞庫(kù),根據(jù)在線商城評(píng)論特點(diǎn),采用精確模式實(shí)現(xiàn)的分詞結(jié)果如下圖5-5所示:圖5-5分詞結(jié)果(部分)Figure5-5Segmentationresult(partial)(2)停用詞過(guò)濾觀察以上分詞結(jié)果,發(fā)現(xiàn)評(píng)論中包含有較多語(yǔ)氣詞及無(wú)意義的詞,這些詞都屬于停用詞。根據(jù)第三章中停用詞過(guò)濾的研究方法,若要對(duì)這些詞匯進(jìn)行良好地剔除,需首先構(gòu)建一個(gè)停用詞表,它可以保證停用詞過(guò)濾的全面性和準(zhǔn)確性,并且結(jié)合了在線商城的評(píng)論特點(diǎn),使得過(guò)濾效果得以提升,所構(gòu)建的停用詞表如表5-2所示:
【參考文獻(xiàn)】:
期刊論文
[1]基于改進(jìn)LDA的在線醫(yī)療評(píng)論主題挖掘[J]. 高慧穎,劉嘉唯,楊淑昕. 北京理工大學(xué)學(xué)報(bào). 2019(04)
[2]基于Word2Vec和LDA主題模型的Web服務(wù)聚類方法[J]. 肖巧翔,曹步清,張祥平,劉建勛,李晏新聞. 中南大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(12)
[3]垃圾商品評(píng)論檢測(cè)研究綜述[J]. 張圣,伍星,鄒東升. 計(jì)算機(jī)工程與科學(xué). 2018(11)
[4]基于word2vec和LDA的文本主題[J]. 徐守坤,周佳,李寧,石林. 計(jì)算機(jī)工程與設(shè)計(jì). 2018(09)
[5]基于LDA和word2vec的英文作文跑題檢測(cè)[J]. 曲強(qiáng),崔榮一,趙亞慧. 計(jì)算機(jī)應(yīng)用研究. 2019(02)
[6]LDA模型的優(yōu)化及其主題數(shù)量選擇研究——以科技文獻(xiàn)為例[J]. 王婷婷,韓滿,王宇. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2018(01)
[7]用戶在線評(píng)論數(shù)據(jù)采集策略研究[J]. 王聰鋆,張?jiān)? 信息與電腦(理論版). 2017(20)
[8]基于主題模型和情感分析的垃圾評(píng)論識(shí)別方法研究[J]. 金相宏,李琳,鐘珞. 計(jì)算機(jī)科學(xué). 2017(10)
[9]基于梯度核特征及N-gram模型的商品圖像句子標(biāo)注[J]. 張紅斌,姬東鴻,尹蘭,任亞峰. 計(jì)算機(jī)科學(xué). 2016(05)
[10]基于情感特征和用戶關(guān)系的虛假評(píng)論者的識(shí)別[J]. 邵珠峰,姬東鴻. 計(jì)算機(jī)應(yīng)用與軟件. 2016(05)
博士論文
[1]基于標(biāo)注和未標(biāo)注數(shù)椐的虛假評(píng)論識(shí)別研究[D]. 任亞峰.武漢大學(xué) 2015
[2]基于產(chǎn)品評(píng)論的情感分析研究[D]. 李方濤.清華大學(xué) 2011
[3]基于詞共現(xiàn)的文本主題挖掘模型和算法研究[D]. 常鵬.天津大學(xué) 2010
碩士論文
[1]基于LDA與PW-Word2vec的虛假評(píng)論識(shí)別方法研究[D]. 賈少華.內(nèi)蒙古大學(xué) 2019
[2]電商平臺(tái)購(gòu)物虛假評(píng)論識(shí)別研究[D]. 王禹.首都經(jīng)濟(jì)貿(mào)易大學(xué) 2018
[3]基于DBN模型的電子商務(wù)虛假評(píng)論識(shí)別[D]. 唐義杰.安徽財(cái)經(jīng)大學(xué) 2018
[4]整合視角下在線評(píng)論感知有用性形成機(jī)理:信息—顧客—產(chǎn)品的交互作用[D]. 趙曉虹.太原理工大學(xué) 2018
[5]第三方點(diǎn)評(píng)網(wǎng)站垃圾評(píng)論分類模型的構(gòu)建[D]. 吳琪.天津師范大學(xué) 2018
[6]基于爬蟲和LDA的新聞話題挖掘[D]. 曹牧原.河北大學(xué) 2018
[7]基于LDA的企業(yè)微博主題傳播效果分析[D]. 趙燕.華南理工大學(xué) 2018
[8]基于LDA的微博災(zāi)害信息聚合[D]. 李靜.武漢大學(xué) 2018
[9]基于非均衡數(shù)據(jù)分類方法的虛假評(píng)論檢測(cè)研究[D]. 周黎宇.合肥工業(yè)大學(xué) 2018
[10]基于Web質(zhì)量模型特征模型的垃圾評(píng)論特征分析與檢測(cè)[D]. 劉雪甜.西南交通大學(xué) 2017
本文編號(hào):3101964
【文章來(lái)源】:西安理工大學(xué)陜西省
【文章頁(yè)數(shù)】:91 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
商品搜索結(jié)果頁(yè)面
西安理工大學(xué)碩士學(xué)位論文56圖5-3在線商城評(píng)論數(shù)據(jù)(部分)Figure5-3Onlinemallreviewdata(partial)如上圖5-3所示,通過(guò)觀察在線商城評(píng)論數(shù)據(jù)的特征發(fā)現(xiàn),利用網(wǎng)絡(luò)爬蟲技術(shù)從在線商城中直接爬取數(shù)據(jù)會(huì)帶來(lái)一些問(wèn)題,例如爬取的數(shù)據(jù)中存在許多重復(fù)評(píng)論和臟數(shù)據(jù)的現(xiàn)象,經(jīng)過(guò)分析發(fā)現(xiàn)爬蟲獲得的在線商城評(píng)論數(shù)據(jù)具有如下特點(diǎn):●文本短:有許多評(píng)論字符內(nèi)容太少;●語(yǔ)言不規(guī)范:會(huì)出現(xiàn)一些網(wǎng)絡(luò)用詞,符號(hào),數(shù)字等;●無(wú)意義信息多:如只簡(jiǎn)單的進(jìn)行評(píng)論“好”、“可以”、“不錯(cuò)”等;●重復(fù)性大:部分用戶會(huì)復(fù)制粘貼別人的評(píng)論;●數(shù)據(jù)量大:針對(duì)研究的不同商品類型,可以獲得大量的評(píng)論數(shù)據(jù)。由于評(píng)論數(shù)據(jù)量較大,且評(píng)論長(zhǎng)短不一、內(nèi)容復(fù)雜,為了使評(píng)論數(shù)據(jù)在OMCR-LDA中的計(jì)算過(guò)程更為準(zhǔn)確,在此約定以下3個(gè)前提假設(shè):①每次評(píng)論單獨(dú)發(fā)生,評(píng)論之間是相互獨(dú)立的;②評(píng)論者對(duì)一件商品至多進(jìn)行一次評(píng)論;③將信息量少的評(píng)論內(nèi)容也視為正常評(píng)論,后面會(huì)針對(duì)具體研究對(duì)字符過(guò)少的評(píng)論進(jìn)行剔除。根據(jù)以上前提假設(shè),對(duì)爬取得到在線商城評(píng)論數(shù)據(jù)集可以展開進(jìn)一步的數(shù)據(jù)預(yù)處理操作。5.2.2實(shí)驗(yàn)數(shù)據(jù)預(yù)處理(1)中文分詞由于在線商城提供了非常自由的評(píng)論環(huán)境,且在網(wǎng)絡(luò)環(huán)境中很容易產(chǎn)生網(wǎng)絡(luò)新詞,為了減少詞語(yǔ)歧義,提升評(píng)論數(shù)據(jù)的分詞效果,本文經(jīng)過(guò)對(duì)所獲取的評(píng)論數(shù)據(jù)進(jìn)行分析及整理,通過(guò)統(tǒng)計(jì)的方式構(gòu)建了專門針對(duì)在線商城評(píng)論這種文本類型的自定義詞典,詞典內(nèi)容如下圖5-4所示:
京東在線商城的垃圾評(píng)論識(shí)別實(shí)驗(yàn)及分析57圖5-4在線商城評(píng)論自定義詞典(部分)Figure5-4Customdictionaryforonlinemallreviews(partial)對(duì)在線商城評(píng)論數(shù)據(jù)進(jìn)行分詞操作時(shí),正確識(shí)別新詞對(duì)分詞結(jié)果具有重要影響。根據(jù)構(gòu)建的自定義詞典,可以較好地解決新詞識(shí)別問(wèn)題,同時(shí)能夠保證關(guān)鍵詞不被拆分,也能夠有效解決利用Jieba的通用詞典庫(kù)無(wú)法識(shí)別新詞、造成詞語(yǔ)歧義的問(wèn)題。通過(guò)加載在線商城評(píng)論的自定義詞庫(kù),與Jieba中的已有詞庫(kù)相結(jié)合,在分詞的過(guò)程中就可以依據(jù)以上分詞詞典使得分詞結(jié)果更加精確。借助編寫的Python程序來(lái)調(diào)用Jieba分詞庫(kù),根據(jù)在線商城評(píng)論特點(diǎn),采用精確模式實(shí)現(xiàn)的分詞結(jié)果如下圖5-5所示:圖5-5分詞結(jié)果(部分)Figure5-5Segmentationresult(partial)(2)停用詞過(guò)濾觀察以上分詞結(jié)果,發(fā)現(xiàn)評(píng)論中包含有較多語(yǔ)氣詞及無(wú)意義的詞,這些詞都屬于停用詞。根據(jù)第三章中停用詞過(guò)濾的研究方法,若要對(duì)這些詞匯進(jìn)行良好地剔除,需首先構(gòu)建一個(gè)停用詞表,它可以保證停用詞過(guò)濾的全面性和準(zhǔn)確性,并且結(jié)合了在線商城的評(píng)論特點(diǎn),使得過(guò)濾效果得以提升,所構(gòu)建的停用詞表如表5-2所示:
【參考文獻(xiàn)】:
期刊論文
[1]基于改進(jìn)LDA的在線醫(yī)療評(píng)論主題挖掘[J]. 高慧穎,劉嘉唯,楊淑昕. 北京理工大學(xué)學(xué)報(bào). 2019(04)
[2]基于Word2Vec和LDA主題模型的Web服務(wù)聚類方法[J]. 肖巧翔,曹步清,張祥平,劉建勛,李晏新聞. 中南大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(12)
[3]垃圾商品評(píng)論檢測(cè)研究綜述[J]. 張圣,伍星,鄒東升. 計(jì)算機(jī)工程與科學(xué). 2018(11)
[4]基于word2vec和LDA的文本主題[J]. 徐守坤,周佳,李寧,石林. 計(jì)算機(jī)工程與設(shè)計(jì). 2018(09)
[5]基于LDA和word2vec的英文作文跑題檢測(cè)[J]. 曲強(qiáng),崔榮一,趙亞慧. 計(jì)算機(jī)應(yīng)用研究. 2019(02)
[6]LDA模型的優(yōu)化及其主題數(shù)量選擇研究——以科技文獻(xiàn)為例[J]. 王婷婷,韓滿,王宇. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2018(01)
[7]用戶在線評(píng)論數(shù)據(jù)采集策略研究[J]. 王聰鋆,張?jiān)? 信息與電腦(理論版). 2017(20)
[8]基于主題模型和情感分析的垃圾評(píng)論識(shí)別方法研究[J]. 金相宏,李琳,鐘珞. 計(jì)算機(jī)科學(xué). 2017(10)
[9]基于梯度核特征及N-gram模型的商品圖像句子標(biāo)注[J]. 張紅斌,姬東鴻,尹蘭,任亞峰. 計(jì)算機(jī)科學(xué). 2016(05)
[10]基于情感特征和用戶關(guān)系的虛假評(píng)論者的識(shí)別[J]. 邵珠峰,姬東鴻. 計(jì)算機(jī)應(yīng)用與軟件. 2016(05)
博士論文
[1]基于標(biāo)注和未標(biāo)注數(shù)椐的虛假評(píng)論識(shí)別研究[D]. 任亞峰.武漢大學(xué) 2015
[2]基于產(chǎn)品評(píng)論的情感分析研究[D]. 李方濤.清華大學(xué) 2011
[3]基于詞共現(xiàn)的文本主題挖掘模型和算法研究[D]. 常鵬.天津大學(xué) 2010
碩士論文
[1]基于LDA與PW-Word2vec的虛假評(píng)論識(shí)別方法研究[D]. 賈少華.內(nèi)蒙古大學(xué) 2019
[2]電商平臺(tái)購(gòu)物虛假評(píng)論識(shí)別研究[D]. 王禹.首都經(jīng)濟(jì)貿(mào)易大學(xué) 2018
[3]基于DBN模型的電子商務(wù)虛假評(píng)論識(shí)別[D]. 唐義杰.安徽財(cái)經(jīng)大學(xué) 2018
[4]整合視角下在線評(píng)論感知有用性形成機(jī)理:信息—顧客—產(chǎn)品的交互作用[D]. 趙曉虹.太原理工大學(xué) 2018
[5]第三方點(diǎn)評(píng)網(wǎng)站垃圾評(píng)論分類模型的構(gòu)建[D]. 吳琪.天津師范大學(xué) 2018
[6]基于爬蟲和LDA的新聞話題挖掘[D]. 曹牧原.河北大學(xué) 2018
[7]基于LDA的企業(yè)微博主題傳播效果分析[D]. 趙燕.華南理工大學(xué) 2018
[8]基于LDA的微博災(zāi)害信息聚合[D]. 李靜.武漢大學(xué) 2018
[9]基于非均衡數(shù)據(jù)分類方法的虛假評(píng)論檢測(cè)研究[D]. 周黎宇.合肥工業(yè)大學(xué) 2018
[10]基于Web質(zhì)量模型特征模型的垃圾評(píng)論特征分析與檢測(cè)[D]. 劉雪甜.西南交通大學(xué) 2017
本文編號(hào):3101964
本文鏈接:http://sikaile.net/jingjilunwen/xmjj/3101964.html
最近更新
教材專著