基于改進LDA的在線商城垃圾評論識別研究
發(fā)布時間:2021-03-26 17:22
隨著時代的發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為人們生活中必不可少的一部分,在線商城的出現(xiàn)也使得人們的購物方式產(chǎn)生了巨大的變化,其產(chǎn)生的商品評論對消費者選擇商品提供了重要的參考價值。然而垃圾評論的存在會使消費者接受到錯誤的商品信息,進而影響消費者的購買體驗,同時也會造成商家信譽度的缺失。因此,垃圾評論識別已經(jīng)成為當(dāng)前在線商城發(fā)展過程中的重點問題,也是當(dāng)下文本分類研究的熱點問題。為此,本文在對在線商城評論數(shù)據(jù)進行研究的基礎(chǔ)上,提出了一種改進的LDA主題模型,探究依據(jù)評論文本的主題信息來識別垃圾評論的研究方法,使得在線商城能夠過濾無用或無效的垃圾評論,為消費者鑒別商品質(zhì)量提供指導(dǎo),并為在線商城垃圾評論識別問題提供一種解決辦法。結(jié)合LDA主題模型及垃圾評論識別的相關(guān)理論,本文以在線商城評論數(shù)據(jù)作為研究對象,首先借助網(wǎng)絡(luò)爬蟲技術(shù),設(shè)計了針對于在線商城評論數(shù)據(jù)的采集方案。并在此基礎(chǔ)上,利用中文分詞、停用詞過濾及關(guān)鍵詞提取等預(yù)處理方法對數(shù)據(jù)進行整合,進而借助文本表示方法完成了評論數(shù)據(jù)的降維操作。其次,探討了將LDA主題模型直接應(yīng)用于在線商城垃圾評論識別帶來的不利影響,基于此提出了改進后的OMCR-LDA主題模型,借...
【文章來源】:西安理工大學(xué)陜西省
【文章頁數(shù)】:91 頁
【學(xué)位級別】:碩士
【部分圖文】:
商品搜索結(jié)果頁面
西安理工大學(xué)碩士學(xué)位論文56圖5-3在線商城評論數(shù)據(jù)(部分)Figure5-3Onlinemallreviewdata(partial)如上圖5-3所示,通過觀察在線商城評論數(shù)據(jù)的特征發(fā)現(xiàn),利用網(wǎng)絡(luò)爬蟲技術(shù)從在線商城中直接爬取數(shù)據(jù)會帶來一些問題,例如爬取的數(shù)據(jù)中存在許多重復(fù)評論和臟數(shù)據(jù)的現(xiàn)象,經(jīng)過分析發(fā)現(xiàn)爬蟲獲得的在線商城評論數(shù)據(jù)具有如下特點:●文本短:有許多評論字符內(nèi)容太少;●語言不規(guī)范:會出現(xiàn)一些網(wǎng)絡(luò)用詞,符號,數(shù)字等;●無意義信息多:如只簡單的進行評論“好”、“可以”、“不錯”等;●重復(fù)性大:部分用戶會復(fù)制粘貼別人的評論;●數(shù)據(jù)量大:針對研究的不同商品類型,可以獲得大量的評論數(shù)據(jù)。由于評論數(shù)據(jù)量較大,且評論長短不一、內(nèi)容復(fù)雜,為了使評論數(shù)據(jù)在OMCR-LDA中的計算過程更為準確,在此約定以下3個前提假設(shè):①每次評論單獨發(fā)生,評論之間是相互獨立的;②評論者對一件商品至多進行一次評論;③將信息量少的評論內(nèi)容也視為正常評論,后面會針對具體研究對字符過少的評論進行剔除。根據(jù)以上前提假設(shè),對爬取得到在線商城評論數(shù)據(jù)集可以展開進一步的數(shù)據(jù)預(yù)處理操作。5.2.2實驗數(shù)據(jù)預(yù)處理(1)中文分詞由于在線商城提供了非常自由的評論環(huán)境,且在網(wǎng)絡(luò)環(huán)境中很容易產(chǎn)生網(wǎng)絡(luò)新詞,為了減少詞語歧義,提升評論數(shù)據(jù)的分詞效果,本文經(jīng)過對所獲取的評論數(shù)據(jù)進行分析及整理,通過統(tǒng)計的方式構(gòu)建了專門針對在線商城評論這種文本類型的自定義詞典,詞典內(nèi)容如下圖5-4所示:
京東在線商城的垃圾評論識別實驗及分析57圖5-4在線商城評論自定義詞典(部分)Figure5-4Customdictionaryforonlinemallreviews(partial)對在線商城評論數(shù)據(jù)進行分詞操作時,正確識別新詞對分詞結(jié)果具有重要影響。根據(jù)構(gòu)建的自定義詞典,可以較好地解決新詞識別問題,同時能夠保證關(guān)鍵詞不被拆分,也能夠有效解決利用Jieba的通用詞典庫無法識別新詞、造成詞語歧義的問題。通過加載在線商城評論的自定義詞庫,與Jieba中的已有詞庫相結(jié)合,在分詞的過程中就可以依據(jù)以上分詞詞典使得分詞結(jié)果更加精確。借助編寫的Python程序來調(diào)用Jieba分詞庫,根據(jù)在線商城評論特點,采用精確模式實現(xiàn)的分詞結(jié)果如下圖5-5所示:圖5-5分詞結(jié)果(部分)Figure5-5Segmentationresult(partial)(2)停用詞過濾觀察以上分詞結(jié)果,發(fā)現(xiàn)評論中包含有較多語氣詞及無意義的詞,這些詞都屬于停用詞。根據(jù)第三章中停用詞過濾的研究方法,若要對這些詞匯進行良好地剔除,需首先構(gòu)建一個停用詞表,它可以保證停用詞過濾的全面性和準確性,并且結(jié)合了在線商城的評論特點,使得過濾效果得以提升,所構(gòu)建的停用詞表如表5-2所示:
【參考文獻】:
期刊論文
[1]基于改進LDA的在線醫(yī)療評論主題挖掘[J]. 高慧穎,劉嘉唯,楊淑昕. 北京理工大學(xué)學(xué)報. 2019(04)
[2]基于Word2Vec和LDA主題模型的Web服務(wù)聚類方法[J]. 肖巧翔,曹步清,張祥平,劉建勛,李晏新聞. 中南大學(xué)學(xué)報(自然科學(xué)版). 2018(12)
[3]垃圾商品評論檢測研究綜述[J]. 張圣,伍星,鄒東升. 計算機工程與科學(xué). 2018(11)
[4]基于word2vec和LDA的文本主題[J]. 徐守坤,周佳,李寧,石林. 計算機工程與設(shè)計. 2018(09)
[5]基于LDA和word2vec的英文作文跑題檢測[J]. 曲強,崔榮一,趙亞慧. 計算機應(yīng)用研究. 2019(02)
[6]LDA模型的優(yōu)化及其主題數(shù)量選擇研究——以科技文獻為例[J]. 王婷婷,韓滿,王宇. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2018(01)
[7]用戶在線評論數(shù)據(jù)采集策略研究[J]. 王聰鋆,張云. 信息與電腦(理論版). 2017(20)
[8]基于主題模型和情感分析的垃圾評論識別方法研究[J]. 金相宏,李琳,鐘珞. 計算機科學(xué). 2017(10)
[9]基于梯度核特征及N-gram模型的商品圖像句子標注[J]. 張紅斌,姬東鴻,尹蘭,任亞峰. 計算機科學(xué). 2016(05)
[10]基于情感特征和用戶關(guān)系的虛假評論者的識別[J]. 邵珠峰,姬東鴻. 計算機應(yīng)用與軟件. 2016(05)
博士論文
[1]基于標注和未標注數(shù)椐的虛假評論識別研究[D]. 任亞峰.武漢大學(xué) 2015
[2]基于產(chǎn)品評論的情感分析研究[D]. 李方濤.清華大學(xué) 2011
[3]基于詞共現(xiàn)的文本主題挖掘模型和算法研究[D]. 常鵬.天津大學(xué) 2010
碩士論文
[1]基于LDA與PW-Word2vec的虛假評論識別方法研究[D]. 賈少華.內(nèi)蒙古大學(xué) 2019
[2]電商平臺購物虛假評論識別研究[D]. 王禹.首都經(jīng)濟貿(mào)易大學(xué) 2018
[3]基于DBN模型的電子商務(wù)虛假評論識別[D]. 唐義杰.安徽財經(jīng)大學(xué) 2018
[4]整合視角下在線評論感知有用性形成機理:信息—顧客—產(chǎn)品的交互作用[D]. 趙曉虹.太原理工大學(xué) 2018
[5]第三方點評網(wǎng)站垃圾評論分類模型的構(gòu)建[D]. 吳琪.天津師范大學(xué) 2018
[6]基于爬蟲和LDA的新聞話題挖掘[D]. 曹牧原.河北大學(xué) 2018
[7]基于LDA的企業(yè)微博主題傳播效果分析[D]. 趙燕.華南理工大學(xué) 2018
[8]基于LDA的微博災(zāi)害信息聚合[D]. 李靜.武漢大學(xué) 2018
[9]基于非均衡數(shù)據(jù)分類方法的虛假評論檢測研究[D]. 周黎宇.合肥工業(yè)大學(xué) 2018
[10]基于Web質(zhì)量模型特征模型的垃圾評論特征分析與檢測[D]. 劉雪甜.西南交通大學(xué) 2017
本文編號:3101964
【文章來源】:西安理工大學(xué)陜西省
【文章頁數(shù)】:91 頁
【學(xué)位級別】:碩士
【部分圖文】:
商品搜索結(jié)果頁面
西安理工大學(xué)碩士學(xué)位論文56圖5-3在線商城評論數(shù)據(jù)(部分)Figure5-3Onlinemallreviewdata(partial)如上圖5-3所示,通過觀察在線商城評論數(shù)據(jù)的特征發(fā)現(xiàn),利用網(wǎng)絡(luò)爬蟲技術(shù)從在線商城中直接爬取數(shù)據(jù)會帶來一些問題,例如爬取的數(shù)據(jù)中存在許多重復(fù)評論和臟數(shù)據(jù)的現(xiàn)象,經(jīng)過分析發(fā)現(xiàn)爬蟲獲得的在線商城評論數(shù)據(jù)具有如下特點:●文本短:有許多評論字符內(nèi)容太少;●語言不規(guī)范:會出現(xiàn)一些網(wǎng)絡(luò)用詞,符號,數(shù)字等;●無意義信息多:如只簡單的進行評論“好”、“可以”、“不錯”等;●重復(fù)性大:部分用戶會復(fù)制粘貼別人的評論;●數(shù)據(jù)量大:針對研究的不同商品類型,可以獲得大量的評論數(shù)據(jù)。由于評論數(shù)據(jù)量較大,且評論長短不一、內(nèi)容復(fù)雜,為了使評論數(shù)據(jù)在OMCR-LDA中的計算過程更為準確,在此約定以下3個前提假設(shè):①每次評論單獨發(fā)生,評論之間是相互獨立的;②評論者對一件商品至多進行一次評論;③將信息量少的評論內(nèi)容也視為正常評論,后面會針對具體研究對字符過少的評論進行剔除。根據(jù)以上前提假設(shè),對爬取得到在線商城評論數(shù)據(jù)集可以展開進一步的數(shù)據(jù)預(yù)處理操作。5.2.2實驗數(shù)據(jù)預(yù)處理(1)中文分詞由于在線商城提供了非常自由的評論環(huán)境,且在網(wǎng)絡(luò)環(huán)境中很容易產(chǎn)生網(wǎng)絡(luò)新詞,為了減少詞語歧義,提升評論數(shù)據(jù)的分詞效果,本文經(jīng)過對所獲取的評論數(shù)據(jù)進行分析及整理,通過統(tǒng)計的方式構(gòu)建了專門針對在線商城評論這種文本類型的自定義詞典,詞典內(nèi)容如下圖5-4所示:
京東在線商城的垃圾評論識別實驗及分析57圖5-4在線商城評論自定義詞典(部分)Figure5-4Customdictionaryforonlinemallreviews(partial)對在線商城評論數(shù)據(jù)進行分詞操作時,正確識別新詞對分詞結(jié)果具有重要影響。根據(jù)構(gòu)建的自定義詞典,可以較好地解決新詞識別問題,同時能夠保證關(guān)鍵詞不被拆分,也能夠有效解決利用Jieba的通用詞典庫無法識別新詞、造成詞語歧義的問題。通過加載在線商城評論的自定義詞庫,與Jieba中的已有詞庫相結(jié)合,在分詞的過程中就可以依據(jù)以上分詞詞典使得分詞結(jié)果更加精確。借助編寫的Python程序來調(diào)用Jieba分詞庫,根據(jù)在線商城評論特點,采用精確模式實現(xiàn)的分詞結(jié)果如下圖5-5所示:圖5-5分詞結(jié)果(部分)Figure5-5Segmentationresult(partial)(2)停用詞過濾觀察以上分詞結(jié)果,發(fā)現(xiàn)評論中包含有較多語氣詞及無意義的詞,這些詞都屬于停用詞。根據(jù)第三章中停用詞過濾的研究方法,若要對這些詞匯進行良好地剔除,需首先構(gòu)建一個停用詞表,它可以保證停用詞過濾的全面性和準確性,并且結(jié)合了在線商城的評論特點,使得過濾效果得以提升,所構(gòu)建的停用詞表如表5-2所示:
【參考文獻】:
期刊論文
[1]基于改進LDA的在線醫(yī)療評論主題挖掘[J]. 高慧穎,劉嘉唯,楊淑昕. 北京理工大學(xué)學(xué)報. 2019(04)
[2]基于Word2Vec和LDA主題模型的Web服務(wù)聚類方法[J]. 肖巧翔,曹步清,張祥平,劉建勛,李晏新聞. 中南大學(xué)學(xué)報(自然科學(xué)版). 2018(12)
[3]垃圾商品評論檢測研究綜述[J]. 張圣,伍星,鄒東升. 計算機工程與科學(xué). 2018(11)
[4]基于word2vec和LDA的文本主題[J]. 徐守坤,周佳,李寧,石林. 計算機工程與設(shè)計. 2018(09)
[5]基于LDA和word2vec的英文作文跑題檢測[J]. 曲強,崔榮一,趙亞慧. 計算機應(yīng)用研究. 2019(02)
[6]LDA模型的優(yōu)化及其主題數(shù)量選擇研究——以科技文獻為例[J]. 王婷婷,韓滿,王宇. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2018(01)
[7]用戶在線評論數(shù)據(jù)采集策略研究[J]. 王聰鋆,張云. 信息與電腦(理論版). 2017(20)
[8]基于主題模型和情感分析的垃圾評論識別方法研究[J]. 金相宏,李琳,鐘珞. 計算機科學(xué). 2017(10)
[9]基于梯度核特征及N-gram模型的商品圖像句子標注[J]. 張紅斌,姬東鴻,尹蘭,任亞峰. 計算機科學(xué). 2016(05)
[10]基于情感特征和用戶關(guān)系的虛假評論者的識別[J]. 邵珠峰,姬東鴻. 計算機應(yīng)用與軟件. 2016(05)
博士論文
[1]基于標注和未標注數(shù)椐的虛假評論識別研究[D]. 任亞峰.武漢大學(xué) 2015
[2]基于產(chǎn)品評論的情感分析研究[D]. 李方濤.清華大學(xué) 2011
[3]基于詞共現(xiàn)的文本主題挖掘模型和算法研究[D]. 常鵬.天津大學(xué) 2010
碩士論文
[1]基于LDA與PW-Word2vec的虛假評論識別方法研究[D]. 賈少華.內(nèi)蒙古大學(xué) 2019
[2]電商平臺購物虛假評論識別研究[D]. 王禹.首都經(jīng)濟貿(mào)易大學(xué) 2018
[3]基于DBN模型的電子商務(wù)虛假評論識別[D]. 唐義杰.安徽財經(jīng)大學(xué) 2018
[4]整合視角下在線評論感知有用性形成機理:信息—顧客—產(chǎn)品的交互作用[D]. 趙曉虹.太原理工大學(xué) 2018
[5]第三方點評網(wǎng)站垃圾評論分類模型的構(gòu)建[D]. 吳琪.天津師范大學(xué) 2018
[6]基于爬蟲和LDA的新聞話題挖掘[D]. 曹牧原.河北大學(xué) 2018
[7]基于LDA的企業(yè)微博主題傳播效果分析[D]. 趙燕.華南理工大學(xué) 2018
[8]基于LDA的微博災(zāi)害信息聚合[D]. 李靜.武漢大學(xué) 2018
[9]基于非均衡數(shù)據(jù)分類方法的虛假評論檢測研究[D]. 周黎宇.合肥工業(yè)大學(xué) 2018
[10]基于Web質(zhì)量模型特征模型的垃圾評論特征分析與檢測[D]. 劉雪甜.西南交通大學(xué) 2017
本文編號:3101964
本文鏈接:http://sikaile.net/jingjilunwen/xmjj/3101964.html
最近更新
教材專著