天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 管理論文 > 信息管理論文 >

基于Calinski-Harabasz改進(jìn)SSLOK-means聚類的微博用戶特征研究

發(fā)布時(shí)間:2020-12-04 06:07
  新浪微博作為國內(nèi)主流的社交網(wǎng)絡(luò)平臺,同時(shí)也是各類資訊發(fā)布的主要渠道,微博具有實(shí)時(shí)、公開、簡潔等自身特性,這成就了其龐大的用戶群,新浪微博的用戶活躍度在國內(nèi)社交網(wǎng)絡(luò)平臺中處于領(lǐng)先地位。用戶在平臺中產(chǎn)生的數(shù)據(jù)不斷累積,形成的社交大數(shù)據(jù)可為商業(yè)決策等提供數(shù)據(jù)支撐,但在產(chǎn)生海量數(shù)據(jù)的同時(shí)也引起了信息過載的問題,用戶面對龐雜的數(shù)據(jù)越來越難找到符合自己興趣偏好的信息和內(nèi)容,這極大的降低了大數(shù)據(jù)的利用效率,影響用戶體驗(yàn),因此利用微博中的數(shù)據(jù)對用戶特征進(jìn)行分析研究,進(jìn)而為用戶提供優(yōu)質(zhì)的個(gè)性化推薦是改善信息過載問題的關(guān)鍵。為了有效的利用海量大數(shù)據(jù)中的價(jià)值,數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生,作為一種數(shù)據(jù)挖掘算法,聚類算法在社交網(wǎng)絡(luò)中得到了廣泛應(yīng)用,為微博運(yùn)營商分析用戶數(shù)據(jù)提供了新方法和思路。K-means算法是常用的聚類分析的方法之一,但當(dāng)其分析大批量數(shù)據(jù)時(shí),會面臨聚類效率較低的問題,新近提出的SSLOK-means聚類算法解決了K-means這一缺陷,但該算法需要提前人為設(shè)置聚類個(gè)數(shù),阻礙了算法的便捷使用,而Calinski-Harabasz有效性函數(shù)的出現(xiàn)改善了K-means需提前設(shè)置k值的不足。本文基于Cali... 

【文章來源】:北京外國語大學(xué)北京市 211工程院校 教育部直屬院校

【文章頁數(shù)】:40 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于Calinski-Harabasz改進(jìn)SSLOK-means聚類的微博用戶特征研究


圖1聚類算法分類??2.3.3_3聚類分析??

函數(shù),聚類,算法,質(zhì)量判定


在SSLOK-means聚類時(shí),為了使算法能在我們可控制的范圍內(nèi)收斂結(jié)束。??定義一個(gè)結(jié)束的標(biāo)志f?=?le?-?8,若在兩次SSLOK-means聚類的過程中,所有??的聚類中心偏移量求和move?<=£,便認(rèn)為聚類過程終結(jié),算法結(jié)束。??2.3.5?Calinski-Harabasz?函數(shù)改進(jìn)?k-means?算法??正如2.3.3節(jié)所顧慮的,在應(yīng)用k-means聚類算法時(shí),存在需要提前設(shè)置々??值的缺點(diǎn),在進(jìn)行大批量數(shù)據(jù)集的聚類運(yùn)算或者先驗(yàn)知識較為缺乏時(shí),確定合??適的(值是不太容易的。為了解決這項(xiàng)難題,研究學(xué)者探究了多個(gè)確定最佳A??值的方法。以“最優(yōu)聚類質(zhì)量判定原則”:組內(nèi)元素之間距離最小并且組間距??離最大為依據(jù),提出來多種判別聚類質(zhì)量的函數(shù):DB函數(shù)、DI函數(shù)和??Calinski-Harabasz?(CH)函數(shù),眾多學(xué)者經(jīng)過研宄之后的結(jié)果表明CH函數(shù)具??有最佳的判定效果。??13??

移出,類別,管道,函數(shù)


在SSLOK-means聚類時(shí),為了使算法能在我們可控制的范圍內(nèi)收斂結(jié)束。??定義一個(gè)結(jié)束的標(biāo)志f?=?le?-?8,若在兩次SSLOK-means聚類的過程中,所有??的聚類中心偏移量求和move?<=£,便認(rèn)為聚類過程終結(jié),算法結(jié)束。??2.3.5?Calinski-Harabasz?函數(shù)改進(jìn)?k-means?算法??正如2.3.3節(jié)所顧慮的,在應(yīng)用k-means聚類算法時(shí),存在需要提前設(shè)置々??值的缺點(diǎn),在進(jìn)行大批量數(shù)據(jù)集的聚類運(yùn)算或者先驗(yàn)知識較為缺乏時(shí),確定合??適的(值是不太容易的。為了解決這項(xiàng)難題,研究學(xué)者探究了多個(gè)確定最佳A??值的方法。以“最優(yōu)聚類質(zhì)量判定原則”:組內(nèi)元素之間距離最小并且組間距??離最大為依據(jù),提出來多種判別聚類質(zhì)量的函數(shù):DB函數(shù)、DI函數(shù)和??Calinski-Harabasz?(CH)函數(shù),眾多學(xué)者經(jīng)過研宄之后的結(jié)果表明CH函數(shù)具??有最佳的判定效果。??13??

【參考文獻(xiàn)】:
期刊論文
[1]面向結(jié)構(gòu)復(fù)雜數(shù)據(jù)集的模糊聚類有效性指標(biāo)[J]. 唐益明,豐剛永,任福繼,胡相慧,張有成.  電子測量與儀器學(xué)報(bào). 2018(04)
[2]一種基于詞義和詞頻的向量空間模型改進(jìn)方法[J]. 鄧曉衡,楊子榮,關(guān)培源.  計(jì)算機(jī)應(yīng)用研究. 2019(05)
[3]基于用戶興趣主題模型的個(gè)性化推薦研究[J]. 熊回香,楊雪萍,高連花.  情報(bào)學(xué)報(bào). 2017(09)
[4]基于決策樹算法的爬蟲識別技術(shù)[J]. 劉宇,程學(xué)林.  軟件. 2017(07)
[5]一種改進(jìn)的向量空間模型的文本表示算法[J]. 張小川,于旭庭,張宜浩.  重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)). 2017(01)
[6]大數(shù)據(jù)聚類算法綜述[J]. 海沫.  計(jì)算機(jī)科學(xué). 2016(S1)
[7]基于用戶行為特征的微博轉(zhuǎn)發(fā)預(yù)測研究[J]. 劉瑋,賀敏,王麗宏,劉悅,沈華偉,程學(xué)旗.  計(jì)算機(jī)學(xué)報(bào). 2016(10)
[8]移動社交網(wǎng)站中的信息過載與個(gè)性化推薦機(jī)制研究[J]. 王娜,任婷.  情報(bào)雜志. 2015(08)
[9]聚類算法綜述[J]. 伍育紅.  計(jì)算機(jī)科學(xué). 2015(S1)
[10]微博客用戶特征分析及分類研究——以“新浪微博”為例[J]. 彭希羨,朱慶華,劉璇.  情報(bào)科學(xué). 2015(01)



本文編號:2897132

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/sjfx/2897132.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f7163***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com
亚洲国产成人av毛片国产| 老司机精品视频在线免费看| 在线观看中文字幕91| 久久99爱爱视频视频| 老司机激情五月天在线不卡| 丝袜av一区二区三区四区五区 | 日韩女优精品一区二区三区| 九九九热视频最新在线| 亚洲午夜精品视频在线| 亚洲国产成人久久99精品| 伊人天堂午夜精品草草网| 五月综合激情婷婷丁香| 国产无摭挡又爽又色又刺激| 国内九一激情白浆发布| 欧美午夜色视频国产精品| 麻豆精品在线一区二区三区| 在线免费观看黄色美女| 亚洲中文字幕三区四区| 深夜视频成人在线观看| 亚洲一区二区三区av高清| 国产一区二区三区午夜精品| 开心激情网 激情五月天| 亚洲综合一区二区三区在线| 亚洲中文字幕有码在线观看| 在线播放欧美精品一区| 日韩欧美亚洲综合在线| 偷自拍亚洲欧美一区二页| 欧美激情床戏一区二区三| 亚洲国产av国产av| 最好看的人妻中文字幕| 欧美一级黄片免费视频| 亚洲中文字幕在线观看黑人| 欧美美女视频在线免费看| 日韩免费午夜福利视频| 九九热精彩视频在线免费| 亚洲一区二区三区国产| 中文字幕熟女人妻视频| 亚洲一区二区三区日韩91| 免费一区二区三区少妇| 欧美激情床戏一区二区三| 人人妻人人澡人人夜夜|