基于k-means算法在微博數(shù)據(jù)挖掘中的應(yīng)用
本文關(guān)鍵詞:基于k-means算法在微博數(shù)據(jù)挖掘中的應(yīng)用
更多相關(guān)文章: 微博 數(shù)據(jù)挖掘 用戶興趣 k-means算法 PSO-kmeans算法
【摘要】:二十一世紀(jì)的今天,微博已經(jīng)成為人們生活中不可以缺少的一部分,而且并以飛速的方式迅猛發(fā)展,其作為一種新型的可關(guān)注分享信息的社交媒體,具有發(fā)布快、形式多樣、內(nèi)容量少等特點(diǎn)正好迎合了用戶對(duì)信息的實(shí)時(shí)、準(zhǔn)確以及多樣性的需求,因此廣大用戶對(duì)微博非常喜愛,主要由于用戶可以通過微博在任何時(shí)間、地點(diǎn)分享或關(guān)注自己喜愛的事物。微博用戶在使用微博時(shí),根據(jù)其自己不同的興趣愛好、生活習(xí)慣會(huì)選擇關(guān)注不同的好友和瀏覽不同信息。因此,可以根據(jù)微博用戶的興趣愛好就可以了解其喜好與關(guān)注的信息。不同的微博用戶有不同的喜好,如“物以類聚,人以群分”,故對(duì)于具有相同愛好的用戶可為微博的推廣營(yíng)銷以及好友推薦等提供新的切入點(diǎn)與研究思路。微博的數(shù)據(jù)量非常龐大,如何快速有效的從中挖掘出自己想要的數(shù)據(jù)信息顯得非常重要。數(shù)據(jù)挖掘的方法可以在龐大的數(shù)據(jù)中挖掘出有價(jià)值的數(shù)據(jù)信息,該方法中所應(yīng)用到的數(shù)學(xué)算法已經(jīng)非常成熟,并在很多行業(yè)得到應(yīng)用,如電信、金融以及網(wǎng)站等,然而在微博用戶興趣群發(fā)現(xiàn)上還存在很多問題需要解決。本文應(yīng)用數(shù)學(xué)分析和挖掘的方法對(duì)微博數(shù)據(jù)進(jìn)行處理,探索出微博用戶的興趣、愛好以及習(xí)慣,并通過該方法希望可以將數(shù)據(jù)挖掘的方法應(yīng)用到微博挖掘的研究中,為微博數(shù)據(jù)的分析提供新的研究思路與借鑒途徑。本文選取新浪微博為研究對(duì)象,對(duì)微博用戶的興趣群進(jìn)行數(shù)據(jù)挖掘聚類分析。該過程中首先需要將微博數(shù)據(jù)進(jìn)行可視化處理,這樣可以清楚微博數(shù)據(jù)的分布特性,從而可以對(duì)微博數(shù)據(jù)進(jìn)行預(yù)處理。由于本文所用新浪微博的數(shù)據(jù)量非常龐大,而且該數(shù)據(jù)中多數(shù)是不低于三維的數(shù)據(jù),從而對(duì)微博進(jìn)行直觀評(píng)價(jià)顯得較為復(fù)雜。本文采用k-means算法對(duì)新浪微博數(shù)據(jù)進(jìn)行挖掘聚類分析,然而由于傳統(tǒng)k-means算法對(duì)新浪數(shù)據(jù)進(jìn)行挖掘聚類分析容易受初始聚類中心點(diǎn)的影響和對(duì)數(shù)據(jù)進(jìn)行迭代求解過程中容易陷入局部最優(yōu)。針對(duì)傳統(tǒng)的k-means算法存在上述的缺陷,本文在k-means算法中引入粒子群(PSO)算法,改進(jìn)后的PSO-kmeans算法由于PSO算法的引入使得該算法的變得較為簡(jiǎn)單,參數(shù)設(shè)置也變得較少,可以加速算法收斂速度,從而可以有效的解決粒子受初始聚類中心點(diǎn)的影響和跳出局部最優(yōu)的束縛,提高聚類效果。最后,本文應(yīng)用三種不同的度量指數(shù)對(duì)微博數(shù)據(jù)挖掘聚類分析的結(jié)果進(jìn)行評(píng)價(jià),評(píng)價(jià)的指數(shù)顯示改進(jìn)的PSO-kmeans算法的聚類結(jié)果比傳統(tǒng)的k-means算法聚類結(jié)果更優(yōu)異。
【關(guān)鍵詞】:微博 數(shù)據(jù)挖掘 用戶興趣 k-means算法 PSO-kmeans算法
【學(xué)位授予單位】:天津工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP311.13
【目錄】:
- 學(xué)位論文主要?jiǎng)?chuàng)新點(diǎn)3-4
- 摘要4-5
- Abstract5-9
- 第一章 緒論9-25
- 1.1 課題的研究背景及意義9-10
- 1.1.1 課題的研究背景9
- 1.1.2 課題的研究意義9-10
- 1.2 數(shù)據(jù)挖掘10-15
- 1.3 國(guó)內(nèi)外相關(guān)研究現(xiàn)狀15-23
- 1.3.1 微博特征研究現(xiàn)狀15-16
- 1.3.2 聚類算法研究現(xiàn)狀16-19
- 1.3.3 k-means算法研究現(xiàn)狀19-23
- 1.4 本課題研究的內(nèi)容23-25
- 第二章 數(shù)據(jù)挖掘技術(shù)基本理論25-35
- 2.1 數(shù)據(jù)挖掘技術(shù)25-26
- 2.1.1 數(shù)據(jù)挖掘的背景和概念25
- 2.1.2 數(shù)據(jù)挖掘過程25-26
- 2.2 數(shù)據(jù)挖掘的方法26-27
- 2.3 聚類分析27-32
- 2.3.1 聚類分析的概念27-28
- 2.3.2 不同的聚類類型28-29
- 2.3.3 主要的聚類算法29-32
- 2.4 聚類評(píng)價(jià)的比較32-33
- 2.4.1 聚類過程評(píng)價(jià)32-33
- 2.4.2 聚類結(jié)果評(píng)價(jià)33
- 2.5 本章小結(jié)33-35
- 第三章 微博用戶興趣群體分類模型構(gòu)建與實(shí)現(xiàn)35-53
- 3.1 微博相關(guān)知識(shí)35-37
- 3.1.1 微博的定義35-36
- 3.1.2 微博用戶特點(diǎn)36-37
- 3.2 微博用戶興趣群發(fā)現(xiàn)與分類模型37-38
- 3.3 微博文本聚類關(guān)鍵技術(shù)38-50
- 3.3.1 分詞38-40
- 3.3.2 停用詞處理40-41
- 3.3.3 特征選擇41-42
- 3.3.4 文本表示方法42-44
- 3.3.5 微博用戶興數(shù)據(jù)標(biāo)注化44-50
- 3.4 基于數(shù)據(jù)挖掘的微博用戶興趣發(fā)現(xiàn)的實(shí)現(xiàn)50-52
- 3.4.1 樣本數(shù)據(jù)特點(diǎn)與聚類算法選擇50-52
- 3.4.2 SPSS實(shí)現(xiàn)過程52
- 3.5 本章小結(jié)52-53
- 第四章 基于粒子群的k-means聚類算法及應(yīng)用53-75
- 4.1 聚類算法基本概念53
- 4.2 相關(guān)工作分析53-55
- 4.3 K-means算法55-57
- 4.3.1 算法思想55-57
- 4.3.2 算法的特點(diǎn)57
- 4.4 粒子群優(yōu)化算法57-59
- 4.4.1 算法的原理57-59
- 4.4.2 算法的流程59
- 4.5 基于改進(jìn)粒子群優(yōu)化的k-means算法59-67
- 4.5.1 粒子群編碼方案及適應(yīng)度評(píng)價(jià)60-61
- 4.5.2 粒子群算法的參數(shù)設(shè)置61-62
- 4.5.3 粒子群優(yōu)化算法與k-means算法的轉(zhuǎn)換時(shí)機(jī)62-63
- 4.5.4 粒子變異操作63-64
- 4.5.5 改進(jìn)算法的過程描述64-67
- 4.6 實(shí)驗(yàn)67-73
- 4.6.1 實(shí)驗(yàn)數(shù)據(jù)的采集67-68
- 4.6.2 算法流程68
- 4.6.3 實(shí)驗(yàn)數(shù)據(jù)預(yù)處理68-70
- 4.6.4 實(shí)驗(yàn)結(jié)果分析70-73
- 4.7 聚類挖掘結(jié)果比較73
- 4.8 本章小結(jié)73-75
- 第五章 結(jié)論與展望75-77
- 5.1 課題工作總結(jié)75
- 5.2 展望75-77
- 參考文獻(xiàn)77-83
- 發(fā)表論文和參加科研情況83-85
- 致謝85
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫 前10條
1 香麗蕓;淺談數(shù)據(jù)挖掘及其應(yīng)用[J];昌吉師專學(xué)報(bào);2001年02期
2 鄭雪燕,張杰明,岳洋;數(shù)據(jù)挖掘語言[J];計(jì)算機(jī)時(shí)代;2001年11期
3 劉明晶;數(shù)據(jù)挖掘[J];華南金融電腦;2001年04期
4 張偉;劉勇國(guó);彭軍;廖曉峰;吳中福;;數(shù)據(jù)挖掘發(fā)展研究[J];計(jì)算機(jī)科學(xué);2001年07期
5 鐘曉;馬少平;張鈸;俞瑞釗;;數(shù)據(jù)挖掘綜述[J];模式識(shí)別與人工智能;2001年01期
6 朱建平,張潤(rùn)楚;數(shù)據(jù)挖掘的發(fā)展及其特點(diǎn)[J];統(tǒng)計(jì)與決策;2002年07期
7 傅嵐;在數(shù)據(jù)海洋中打撈信息數(shù)據(jù)挖掘[J];科技廣場(chǎng);2002年11期
8 李峻;數(shù)據(jù)挖掘,企業(yè)洞察先機(jī)的“慧眼”[J];中國(guó)計(jì)算機(jī)用戶;2002年48期
9 羅可,蔡碧野,卜勝賢,謝中科;數(shù)據(jù)挖掘及其發(fā)展研究[J];計(jì)算機(jī)工程與應(yīng)用;2002年14期
10 ;2002數(shù)據(jù)挖掘研討班[J];計(jì)算機(jī)工程;2002年06期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫 前10條
1 史東輝;蔡慶生;張春陽;;一種新的數(shù)據(jù)挖掘多策略方法研究[A];第十七屆全國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2000年
2 張弦;;數(shù)據(jù)挖掘在農(nóng)業(yè)中的應(yīng)用[A];紀(jì)念中國(guó)農(nóng)業(yè)工程學(xué)會(huì)成立30周年暨中國(guó)農(nóng)業(yè)工程學(xué)會(huì)2009年學(xué)術(shù)年會(huì)(CSAE 2009)論文集[C];2009年
3 魏順平;;教育數(shù)據(jù)挖掘:現(xiàn)狀與趨勢(shì)[A];信息化、工業(yè)化融合與服務(wù)創(chuàng)新——第十三屆計(jì)算機(jī)模擬與信息技術(shù)學(xué)術(shù)會(huì)議論文集[C];2011年
4 關(guān)清平;沉培輝;;概率網(wǎng)絡(luò)在數(shù)據(jù)挖掘上的應(yīng)用[A];科技、工程與經(jīng)濟(jì)社會(huì)協(xié)調(diào)發(fā)展——中國(guó)科協(xié)第五屆青年學(xué)術(shù)年會(huì)論文集[C];2004年
5 丁瑾;;基于Web數(shù)據(jù)挖掘的綜述[A];山西省科學(xué)技術(shù)情報(bào)學(xué)會(huì)學(xué)術(shù)年會(huì)論文集[C];2004年
6 聶茹;田森平;;Web數(shù)據(jù)挖掘及其在電子商務(wù)中的應(yīng)用[A];中南六。▍^(qū))自動(dòng)化學(xué)會(huì)第24屆學(xué)術(shù)年會(huì)會(huì)議論文集[C];2006年
7 李菊;王軍;;數(shù)據(jù)挖掘在客戶關(guān)系管理的應(yīng)用[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展·2007——全國(guó)第18屆計(jì)算機(jī)技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集[C];2007年
8 肖陽;李啟賢;;數(shù)據(jù)挖掘在中國(guó)鋼鐵行業(yè)中的應(yīng)用[A];中國(guó)計(jì)量協(xié)會(huì)冶金分會(huì)2012年會(huì)暨能源計(jì)量與節(jié)能降耗經(jīng)驗(yàn)交流會(huì)論文集[C];2012年
9 楊磊;王貴成;汪勇;張占勝;;SQL Server 2005在數(shù)據(jù)挖掘中的應(yīng)用[A];2009年中國(guó)智能自動(dòng)化會(huì)議論文集(第二分冊(cè))[C];2009年
10 謝中;邱玉輝;;面向商務(wù)網(wǎng)站有效性的數(shù)據(jù)挖掘方法[A];第十八屆全國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2001年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫 前10條
1 本報(bào)記者褚寧;數(shù)據(jù)挖掘如“挖金”[N];解放日?qǐng)?bào);2002年
2 周蓉蓉;數(shù)據(jù)挖掘需要點(diǎn)想像力[N];計(jì)算機(jī)世界;2004年
3 □中國(guó)電信股份有限公司北京研究院 張舒博 □北京郵電大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 牛琨;走出數(shù)據(jù)挖掘的誤區(qū)[N];人民郵電;2006年
4 《網(wǎng)絡(luò)世界》記者 王瑩;數(shù)據(jù)挖掘保險(xiǎn)業(yè)的新藍(lán)海[N];網(wǎng)絡(luò)世界;2012年
5 劉俊麗;基于地理化的網(wǎng)絡(luò)數(shù)據(jù)挖掘與分析提升投資有效性[N];人民郵電;2014年
6 本報(bào)記者 連曉東;數(shù)據(jù)挖掘:金融信息化新熱點(diǎn)[N];中國(guó)電子報(bào);2002年
7 本報(bào)記者 鳳小華 朱仁康;“數(shù)字挖掘軟件”引領(lǐng)中國(guó)信息化新浪潮[N];中國(guó)電子報(bào);2003年
8 本報(bào)記者 史延廷;“成功企業(yè)數(shù)據(jù)挖掘暨數(shù)量化管理論壇”在京舉辦[N];中國(guó)旅游報(bào);2002年
9 朱小寧;數(shù)據(jù)挖掘:信息化戰(zhàn)爭(zhēng)的基礎(chǔ)工程[N];解放軍報(bào);2005年
10 本報(bào)記者 王小平;從“大集中”走向數(shù)據(jù)挖掘[N];金融時(shí)報(bào);2002年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 于自強(qiáng);海量流數(shù)據(jù)挖掘相關(guān)問題研究[D];山東大學(xué);2015年
2 張馨;全基因組SNP芯片應(yīng)用于CNV和L0H分析的軟件比對(duì)與數(shù)據(jù)挖掘[D];復(fù)旦大學(xué);2011年
3 彭計(jì)紅;基于數(shù)據(jù)挖掘的癡呆中醫(yī)證的研究[D];南京中醫(yī)藥大學(xué);2015年
4 李秋虹;基于MapReduce的大規(guī)模數(shù)據(jù)挖掘技術(shù)研究[D];復(fù)旦大學(xué);2013年
5 鄔文帥;基于多目標(biāo)決策的數(shù)據(jù)挖掘方法評(píng)估與應(yīng)用[D];電子科技大學(xué);2015年
6 謝邦彥;整合數(shù)據(jù)挖掘與TRIZ理論的質(zhì)量管理方法研究[D];首都經(jīng)濟(jì)貿(mào)易大學(xué);2010年
7 何偉全;云南高校學(xué)生意外傷害因素關(guān)聯(lián)規(guī)則挖掘及風(fēng)險(xiǎn)管控體系研究[D];昆明理工大學(xué);2015年
8 段功豪;基于多結(jié)構(gòu)數(shù)據(jù)挖掘的滑坡災(zāi)害預(yù)測(cè)模型研究[D];中國(guó)地質(zhì)大學(xué);2016年
9 白曉明;基于數(shù)據(jù)挖掘的復(fù)合材料宏—細(xì)觀力學(xué)模型研究[D];哈爾濱工業(yè)大學(xué);2016年
10 藍(lán)永豪(LAM Wing Ho);基于數(shù)據(jù)挖掘技術(shù)分析當(dāng)代中醫(yī)名家痤瘡驗(yàn)方經(jīng)驗(yàn)研究[D];南京中醫(yī)藥大學(xué);2016年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 林仁紅;基于數(shù)據(jù)挖掘的機(jī)遇識(shí)別與評(píng)價(jià)研究[D];首都經(jīng)濟(jì)貿(mào)易大學(xué);2007年
2 張彥俊;游戲運(yùn)營(yíng)中的數(shù)據(jù)挖掘[D];復(fù)旦大學(xué);2011年
3 焦亞召;基于多核函數(shù)FCM算法在數(shù)據(jù)挖掘聚類中的應(yīng)用研究[D];昆明理工大學(xué);2015年
4 王杰鋒;物聯(lián)網(wǎng)能耗數(shù)據(jù)智能分析及其應(yīng)用平臺(tái)設(shè)計(jì)[D];江南大學(xué);2015年
5 劉學(xué)建;數(shù)據(jù)挖掘在電子商務(wù)推薦系統(tǒng)中的應(yīng)用研究[D];昆明理工大學(xué);2015年
6 戴陽陽;基于數(shù)據(jù)挖掘的金融時(shí)間序列預(yù)測(cè)研究與應(yīng)用[D];江南大學(xué);2015年
7 石思優(yōu);基于主題模型的醫(yī)療數(shù)據(jù)挖掘研究[D];廣東技術(shù)師范學(xué)院;2015年
8 陳丹;移動(dòng)互聯(lián)網(wǎng)信令挖掘?qū)崿F(xiàn)智慧營(yíng)銷的設(shè)計(jì)與實(shí)現(xiàn)應(yīng)用研究[D];華南理工大學(xué);2015年
9 陳思;基于數(shù)據(jù)挖掘的大學(xué)生客戶識(shí)別模型的研究[D];昆明理工大學(xué);2015年
10 位長(zhǎng)帥;基于客戶數(shù)據(jù)挖掘的電信客戶關(guān)系管理研究[D];西南交通大學(xué);2015年
,本文編號(hào):546977
本文鏈接:http://sikaile.net/guanlilunwen/yingxiaoguanlilunwen/546977.html