天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于集成學(xué)習(xí)的短文本聚類

發(fā)布時(shí)間:2020-03-29 07:18
【摘要】:隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)購物越來越受廣大群眾的青睞,成為人們?nèi)粘Y徫锏闹髁鞣绞健Ec此同時(shí),網(wǎng)購平臺(tái)上產(chǎn)生了海量關(guān)于商品的評(píng)論文本數(shù)據(jù)。而商品評(píng)論中包含著大量潛在的商品信息和顧客滿意度信息,企業(yè)可以從中挖掘出實(shí)際用戶所關(guān)注的產(chǎn)品的主要特征,發(fā)現(xiàn)不同類型用戶的重要特征,然后根據(jù)不同用戶提供不同優(yōu)惠政策,改進(jìn)產(chǎn)品的設(shè)計(jì),提高核心競(jìng)爭(zhēng)力,以及追求更高的利潤。因此如何有效對(duì)評(píng)論文本進(jìn)行信息挖掘?qū)τ谄髽I(yè)來說至關(guān)重要。由于評(píng)論文本沒有已知的標(biāo)簽,且篇幅較短,使用傳統(tǒng)的文本挖掘方法,即對(duì)短文本采用單一的聚類分析方法,得到的聚類結(jié)果往往不盡人意。在數(shù)據(jù)挖掘的分類問題中,集成學(xué)習(xí)可以通過多個(gè)單一分類器的組合來提升分類器的性能。因此,本文將以聯(lián)想公司的一款筆記本電腦的評(píng)論文本為例,將集成學(xué)習(xí)的思想應(yīng)用到聚類分析中,來增強(qiáng)短文本聚類的效果。本文首先使用Python軟件從天貓商城上爬取聯(lián)想電腦官方旗艦店的一款筆記本電腦的用戶評(píng)價(jià)文本,共3840條,然后對(duì)評(píng)論文本進(jìn)行無效值刪除、中文分詞、停用詞過濾以及文本數(shù)值化表示,這一系列的數(shù)據(jù)預(yù)處理過程。鑒于短文本的高維性會(huì)帶來維度災(zāi)難問題,本文后續(xù)對(duì)數(shù)據(jù)進(jìn)行了特征提取,以及利用對(duì)比分析法選取合適的特征降維算法對(duì)評(píng)論文本進(jìn)行特征降維處理。然后基于集成學(xué)習(xí)的思想,對(duì)由K均值聚類、合成聚類和BIRCH這三種聚類算法得到的3個(gè)聚類器進(jìn)行集成,構(gòu)建最終的聚類分析模型,最終將1765名發(fā)表有效評(píng)論的聯(lián)想筆記本用戶劃分為兩類,第0類用戶更注重筆記本電腦的外觀參數(shù),為外觀型用戶;而第1類用戶更加注重筆記本電腦的性能與配置,為性能型用戶;這兩類用戶均重視商品的服務(wù)質(zhì)量。接著對(duì)兩類用戶的評(píng)論文本及用戶數(shù)比重進(jìn)行可視化展示,挖掘與分析出更多關(guān)于兩類用戶的特征。最后結(jié)合文本聚類結(jié)果,從聯(lián)想企業(yè)的產(chǎn)品營銷策略與產(chǎn)品更新設(shè)計(jì)這兩個(gè)角度提出了相應(yīng)的建議與策略。
【圖文】:

新潮,筆記本


科 技 大 學(xué) 碩 士 學(xué) 位 5 聯(lián)想評(píng)論文本的集成聚類分析本的采集是網(wǎng)購產(chǎn)品評(píng)論用戶的聚類分析,在進(jìn)行數(shù)據(jù)即確定網(wǎng)購平臺(tái)與產(chǎn)品。目前互聯(lián)網(wǎng)上的網(wǎng)購寧易購等;且平臺(tái)上的產(chǎn)品種類也繁多,,若研與可行性來看,不太實(shí)際。因此考慮到數(shù)據(jù)的的是天貓商城與該商城內(nèi)聯(lián)想官方旗艦店的,如下圖所示。

評(píng)論文,筆記本電腦,數(shù)據(jù),網(wǎng)絡(luò)爬蟲


華 中 科 技 大 學(xué) 碩 士 學(xué) 位 論 文新款筆記本電腦產(chǎn)品的特征,挖掘使用該產(chǎn)品的不同類型用戶的重要特進(jìn)產(chǎn)品或制定營銷優(yōu)惠策略。據(jù)爬取何獲取天貓商城上該款聯(lián)想筆記本電腦的所有用戶評(píng)論?本文使用 Py結(jié)合 requests 庫,采用網(wǎng)絡(luò)爬蟲的方法,從天貓商城上爬取了小新 700聯(lián)想筆記本電腦的用戶評(píng)論數(shù),截止到 2019 年 2 月 20 日,該商城平臺(tái)上論數(shù)共計(jì) 3840 條。下圖為爬取的部分評(píng)論文本。
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:F724.6;F274

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 熊康平;;機(jī)器學(xué)習(xí)方法在文本聚類中的應(yīng)用[J];電子世界;2018年22期

2 楊婉霞;孫理和;黃永峰;;結(jié)合語義與統(tǒng)計(jì)的特征降維短文本聚類[J];計(jì)算機(jī)工程;2012年22期

3 馬娜;;文本聚類研究[J];電腦知識(shí)與技術(shù);2009年20期

4 張毓;陳軍清;;基于深度特征語義學(xué)習(xí)模型的垃圾短信文本聚類研究[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2018年07期

5 畢強(qiáng);劉健;鮑玉來;;基于語義相似度的文本聚類研究[J];現(xiàn)代圖書情報(bào)技術(shù);2016年12期

6 李向東;劉曉斌;武利平;常洪梅;;面向路線圖編制的模糊均值文本聚類挖掘方法研究[J];河北工業(yè)大學(xué)學(xué)報(bào);2011年03期

7 趙世奇;劉挺;李生;;一種基于主題的文本聚類方法[J];中文信息學(xué)報(bào);2007年02期

8 楊彩蓮;謝福鼎;;基于主題概念聚類的中文文本聚類[J];現(xiàn)代電子技術(shù);2007年22期

9 李泉;李萌;成洪權(quán);蔣林秀;肖舒婷;王iu可;;基于文本聚類與情感分析的群租房微博輿情量化研究[J];圖書情報(bào)研究;2019年01期

10 徐秀芳;徐森;花小朋;徐靜;皋軍;安晶;;一種基于t-分布隨機(jī)近鄰嵌入的文本聚類方法[J];南京大學(xué)學(xué)報(bào)(自然科學(xué));2019年02期

相關(guān)會(huì)議論文 前10條

1 趙世奇;劉挺;李生;;一種基于主題的文本聚類方法[A];第三屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2006年

2 張?jiān)浇?丁丁;;敏感話題發(fā)現(xiàn)中的增量型文本聚類模型[A];第30次全國計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集[C];2015年

3 章成志;;基于多語文本聚類的主題層次體系生成研究1)[A];國家自然科學(xué)基金委員會(huì)管理科學(xué)部宏觀管理與政策學(xué)科青年基金獲得者交流研討會(huì)論文集[C];2010年

4 王洪俊;俞士汶;蘇祺;施水才;肖詩斌;;中文文本聚類的特征單元比較[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議(NCIRCS-2005)論文集[C];2005年

5 胡吉祥;許洪波;劉悅;王斌;程學(xué)旗;;基于重復(fù)串的短文本聚類研究[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年

6 王樂;田李;賈焰;韓偉紅;;一個(gè)并行的文本聚類混合算法[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2007年

7 林靈;張百霞;李彥文;王耘;李志勇;;基于文本挖掘與計(jì)算機(jī)輔助藥物設(shè)計(jì)的中藥候選新藥發(fā)現(xiàn)方法[A];第十二次全國中西醫(yī)結(jié)合實(shí)驗(yàn)醫(yī)學(xué)專業(yè)委員會(huì)暨第七次湖南省中西醫(yī)結(jié)合神經(jīng)科專業(yè)委員會(huì)學(xué)術(shù)年會(huì)論文集[C];2015年

8 孫承杰;朱文煥;林磊;劉遠(yuǎn)超;;BBS短文本聚類技術(shù)研究[A];第五屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年

9 任海平;李偉忠;姚誠偉;;基于深度學(xué)習(xí)的智能寫稿輔助服務(wù)設(shè)計(jì)[A];中國新聞技術(shù)工作者聯(lián)合會(huì)2017年學(xué)術(shù)年會(huì)論文集(學(xué)術(shù)論文篇)[C];2017年

10 顏端武;李曉鵬;王磊;成曉;;文本聚類中基于本體的相似性測(cè)度(英文)[A];全國語域web與本體能研討會(huì)論文集[C];2006年

相關(guān)重要報(bào)紙文章 前1條

1 周曉慷;大數(shù)據(jù)時(shí)代,別當(dāng)數(shù)據(jù)的“搬運(yùn)工”[N];人民郵電;2018年

相關(guān)博士學(xué)位論文 前10條

1 徐森;文本聚類集成關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年

2 倪興良;問答系統(tǒng)中的短文本聚類研究與應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2011年

3 孟憲軍;互聯(lián)網(wǎng)文本聚類與檢索技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年

4 郝立麗;漢語文本數(shù)據(jù)挖掘[D];吉林大學(xué);2009年

5 李芳;文本挖掘若干關(guān)鍵技術(shù)研究[D];北京化工大學(xué);2010年

6 陳遠(yuǎn)浩;非監(jiān)督的結(jié)構(gòu)學(xué)習(xí)及其應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2008年

7 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年

8 王縱虎;聚類分析優(yōu)化關(guān)鍵技術(shù)研究[D];西安電子科技大學(xué);2012年

9 高茂庭;文本聚類分析若干問題研究[D];天津大學(xué);2007年

10 袁鋒;中醫(yī)醫(yī)案文本挖掘的若干關(guān)鍵技術(shù)研究[D];山東師范大學(xué);2016年

相關(guān)碩士學(xué)位論文 前10條

1 王濤;新浪微博用戶評(píng)論情感分析及聚類研究[D];黑龍江大學(xué);2019年

2 張國鋒;在文章聚類中話題熱度排序的研究與實(shí)現(xiàn)[D];東華大學(xué);2019年

3 王小靜;基于集成學(xué)習(xí)的短文本聚類[D];華中科技大學(xué);2019年

4 劉宇鵬;新聞實(shí)時(shí)話題分析系統(tǒng)的研究與實(shí)現(xiàn)[D];遼寧大學(xué);2019年

5 徐露;基于GloVe的文本聚類研究與改進(jìn)[D];華南理工大學(xué);2019年

6 唐鎮(zhèn);基于語義對(duì)偶模型的雙語文本聚類研究[D];電子科技大學(xué);2019年

7 房孟春;基于在線評(píng)論的民宿服務(wù)質(zhì)量評(píng)價(jià)體系研究[D];海南大學(xué);2019年

8 卜秋瑾;基于密度峰值的聚類算法研究及其在文本聚類中的應(yīng)用[D];南昌大學(xué);2019年

9 崔壯壯;基于Word Embedding的短文本聚類算法研究及應(yīng)用[D];哈爾濱工業(yè)大學(xué);2019年

10 許振豪;基于詞嵌入的流形主題模型的文本聚類研究[D];廣東工業(yè)大學(xué);2019年



本文編號(hào):2605653

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/jingjilunwen/guojimaoyilunwen/2605653.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶0f938***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com