基于文本挖掘的筆記本電腦網(wǎng)評(píng)分析
發(fā)布時(shí)間:2021-01-17 15:59
隨著互聯(lián)網(wǎng)的迅速發(fā)展、電子商務(wù)的快速崛起,網(wǎng)絡(luò)購物已成為一種趨勢(shì)。大數(shù)據(jù)時(shí)代的到來,促使著數(shù)據(jù)呈現(xiàn)爆炸式增長(zhǎng)。在這海量的數(shù)據(jù)中包含著許多有價(jià)值的潛在信息,僅僅依靠人工閱讀來獲取是非常困難的事情。在這種情況下,文本挖掘技術(shù)應(yīng)運(yùn)而生。文本挖掘主要包括文本情感傾向分析、文本特征挖掘、主觀內(nèi)容識(shí)別等,其中情感傾向分析就是對(duì)文本數(shù)據(jù)中用戶的主觀態(tài)度進(jìn)行判斷,常用的方法是情感詞典和機(jī)器學(xué)習(xí)。國(guó)外在文本挖掘研究領(lǐng)域,已經(jīng)取得了一些成果,而國(guó)內(nèi)在這一領(lǐng)域的研究起步晚還處于初級(jí)階段。近年來,電子商務(wù)的發(fā)展,推動(dòng)了文本挖掘領(lǐng)域相關(guān)技術(shù)的研究。本文主要使用樸素貝葉斯方法和LDA主題模型,對(duì)筆記本電腦評(píng)論數(shù)據(jù)進(jìn)行挖掘分析。首先使用Spyder軟件從京東商城官網(wǎng)爬取聯(lián)想330C和戴爾靈越14兩種電腦品牌的評(píng)論數(shù)據(jù)作為分析對(duì)象;其次,對(duì)評(píng)論進(jìn)行數(shù)據(jù)清洗和預(yù)處理;然后,對(duì)處理后的數(shù)據(jù)空間向量表示形成文檔詞條矩陣,并用TF-IDF進(jìn)行特征提取達(dá)到降維目的;接著,利用樸素貝葉斯方法構(gòu)造分類器對(duì)評(píng)論數(shù)據(jù)進(jìn)行文本分類,劃分為好評(píng)集和差評(píng)集;最后,使用LDA模型分別對(duì)好評(píng)集和差評(píng)集進(jìn)行主題的提取,進(jìn)一步分析用戶認(rèn)同商品的哪些...
【文章來源】:蘭州財(cái)經(jīng)大學(xué)甘肅省
【文章頁數(shù)】:50 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
網(wǎng)絡(luò)爬蟲結(jié)構(gòu)
題中再以一定概率去選擇某些詞語”,文檔和單詞均是到的。每個(gè)詞語在文檔中出現(xiàn)的概率表示為:(詞 語文檔)P(詞語主題)P(主題文檔)主題 過程定義如下:對(duì)于每篇文檔,從主題分布中抽取一個(gè)題對(duì)應(yīng)的單詞分布中再抽取一個(gè)單詞;上述過程不斷重復(fù)單詞。有兩個(gè)任務(wù),給定現(xiàn)有文檔集合D,確定超參數(shù) , 文檔,可以依據(jù)前面的超參數(shù)來確定隱藏變量 ,z 分歸到前面中,因?yàn)榍懊婺軌蝽槑О央[變量分布求解出來
爬取數(shù)量 文本去重 短句刪除 合計(jì)聯(lián)想 330C 59435 47093 346 11996戴爾靈越 14 69220 59655 333 92323.2.2.文本分詞及去停用詞數(shù)據(jù)清洗工作完成后,接下來對(duì)評(píng)論語料進(jìn)行預(yù)處理,主要有中文分詞、去停用詞等過程。這一過程是利用 Spyder 軟件調(diào)用“jieba”分詞包實(shí)現(xiàn),部分分詞結(jié)果如 3.1 所示:
【參考文獻(xiàn)】:
期刊論文
[1]文本分類中改進(jìn)型CHI特征選擇方法的研究[J]. 裴英博,劉曉霞. 計(jì)算機(jī)工程與應(yīng)用. 2011(04)
[2]文本情感分析[J]. 趙妍妍,秦兵,劉挺. 軟件學(xué)報(bào). 2010(08)
[3]使用機(jī)器學(xué)習(xí)方法進(jìn)行新聞的情感自動(dòng)分類[J]. 徐軍,丁宇新,王曉龍. 中文信息學(xué)報(bào). 2007(06)
[4]基于語義理解的文本傾向性識(shí)別機(jī)制[J]. 徐琳宏,林鴻飛,楊志豪. 中文信息學(xué)報(bào). 2007(01)
[5]漢語句子語義極性分析和觀點(diǎn)抽取方法的研究[J]. 婁德成,姚天昉. 計(jì)算機(jī)應(yīng)用. 2006(11)
[6]基于HowNet的詞匯語義傾向計(jì)算[J]. 朱嫣嵐,閔錦,周雅倩,黃萱菁,吳立德. 中文信息學(xué)報(bào). 2006(01)
博士論文
[1]文本分類中若干問題研究[D]. 劉赫.吉林大學(xué) 2009
[2]文本分類及其相關(guān)技術(shù)研究[D]. 李榮陸.復(fù)旦大學(xué) 2005
[3]數(shù)據(jù)挖掘技術(shù)與分類算法研究[D]. 劉剛.中國(guó)人民解放軍信息工程大學(xué) 2004
碩士論文
[1]基于樸素貝葉斯的中文文本分類及Python實(shí)現(xiàn)[D]. 張航.山東師范大學(xué) 2018
[2]文本挖掘在網(wǎng)購用戶評(píng)論中的應(yīng)用研究[D]. 陳義.浙江工商大學(xué) 2018
[3]基于LDA主題樽型的電商客戶評(píng)論情感分析[D]. 郭銳.北京化工大學(xué) 2017
[4]酒店評(píng)論的情感分析[D]. 劉丹.云南財(cái)經(jīng)大學(xué) 2017
[5]基于文本挖掘的電商用戶評(píng)論分析與系統(tǒng)實(shí)現(xiàn)[D]. 易劍波.東南大學(xué) 2017
[6]基于SVM的文本情感分類研究及應(yīng)用[D]. 陳志珍.大連海事大學(xué) 2017
[7]商品評(píng)價(jià)信息的中文情感分析[D]. 周紅偉.浙江工商大學(xué) 2015
[8]基于樸素貝葉斯的高血壓文本分類的研究[D]. 曹杰.太原理工大學(xué) 2015
[9]基于LDA模型的微博情感分析技術(shù)研究[D]. 毛龍龍.西北師范大學(xué) 2015
[10]中文文本分類中的特征選擇和權(quán)重計(jì)算方法研究[D]. 宋惟然.北京工業(yè)大學(xué) 2013
本文編號(hào):2983173
【文章來源】:蘭州財(cái)經(jīng)大學(xué)甘肅省
【文章頁數(shù)】:50 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
網(wǎng)絡(luò)爬蟲結(jié)構(gòu)
題中再以一定概率去選擇某些詞語”,文檔和單詞均是到的。每個(gè)詞語在文檔中出現(xiàn)的概率表示為:(詞 語文檔)P(詞語主題)P(主題文檔)主題 過程定義如下:對(duì)于每篇文檔,從主題分布中抽取一個(gè)題對(duì)應(yīng)的單詞分布中再抽取一個(gè)單詞;上述過程不斷重復(fù)單詞。有兩個(gè)任務(wù),給定現(xiàn)有文檔集合D,確定超參數(shù) , 文檔,可以依據(jù)前面的超參數(shù)來確定隱藏變量 ,z 分歸到前面中,因?yàn)榍懊婺軌蝽槑О央[變量分布求解出來
爬取數(shù)量 文本去重 短句刪除 合計(jì)聯(lián)想 330C 59435 47093 346 11996戴爾靈越 14 69220 59655 333 92323.2.2.文本分詞及去停用詞數(shù)據(jù)清洗工作完成后,接下來對(duì)評(píng)論語料進(jìn)行預(yù)處理,主要有中文分詞、去停用詞等過程。這一過程是利用 Spyder 軟件調(diào)用“jieba”分詞包實(shí)現(xiàn),部分分詞結(jié)果如 3.1 所示:
【參考文獻(xiàn)】:
期刊論文
[1]文本分類中改進(jìn)型CHI特征選擇方法的研究[J]. 裴英博,劉曉霞. 計(jì)算機(jī)工程與應(yīng)用. 2011(04)
[2]文本情感分析[J]. 趙妍妍,秦兵,劉挺. 軟件學(xué)報(bào). 2010(08)
[3]使用機(jī)器學(xué)習(xí)方法進(jìn)行新聞的情感自動(dòng)分類[J]. 徐軍,丁宇新,王曉龍. 中文信息學(xué)報(bào). 2007(06)
[4]基于語義理解的文本傾向性識(shí)別機(jī)制[J]. 徐琳宏,林鴻飛,楊志豪. 中文信息學(xué)報(bào). 2007(01)
[5]漢語句子語義極性分析和觀點(diǎn)抽取方法的研究[J]. 婁德成,姚天昉. 計(jì)算機(jī)應(yīng)用. 2006(11)
[6]基于HowNet的詞匯語義傾向計(jì)算[J]. 朱嫣嵐,閔錦,周雅倩,黃萱菁,吳立德. 中文信息學(xué)報(bào). 2006(01)
博士論文
[1]文本分類中若干問題研究[D]. 劉赫.吉林大學(xué) 2009
[2]文本分類及其相關(guān)技術(shù)研究[D]. 李榮陸.復(fù)旦大學(xué) 2005
[3]數(shù)據(jù)挖掘技術(shù)與分類算法研究[D]. 劉剛.中國(guó)人民解放軍信息工程大學(xué) 2004
碩士論文
[1]基于樸素貝葉斯的中文文本分類及Python實(shí)現(xiàn)[D]. 張航.山東師范大學(xué) 2018
[2]文本挖掘在網(wǎng)購用戶評(píng)論中的應(yīng)用研究[D]. 陳義.浙江工商大學(xué) 2018
[3]基于LDA主題樽型的電商客戶評(píng)論情感分析[D]. 郭銳.北京化工大學(xué) 2017
[4]酒店評(píng)論的情感分析[D]. 劉丹.云南財(cái)經(jīng)大學(xué) 2017
[5]基于文本挖掘的電商用戶評(píng)論分析與系統(tǒng)實(shí)現(xiàn)[D]. 易劍波.東南大學(xué) 2017
[6]基于SVM的文本情感分類研究及應(yīng)用[D]. 陳志珍.大連海事大學(xué) 2017
[7]商品評(píng)價(jià)信息的中文情感分析[D]. 周紅偉.浙江工商大學(xué) 2015
[8]基于樸素貝葉斯的高血壓文本分類的研究[D]. 曹杰.太原理工大學(xué) 2015
[9]基于LDA模型的微博情感分析技術(shù)研究[D]. 毛龍龍.西北師范大學(xué) 2015
[10]中文文本分類中的特征選擇和權(quán)重計(jì)算方法研究[D]. 宋惟然.北京工業(yè)大學(xué) 2013
本文編號(hào):2983173
本文鏈接:http://sikaile.net/jingjilunwen/guojimaoyilunwen/2983173.html
最近更新
教材專著