高維數(shù)據(jù)的若干聚類問題及算法研究

發(fā)布時間：2017-12-23 14:20

本文關鍵詞：高維數(shù)據(jù)的若干聚類問題及算法研究　出處：《哈爾濱工業(yè)大學》2015年博士論文　論文類型：學位論文

【摘要】：隨著社會化媒體和移動互聯(lián)網(wǎng)技術的快速發(fā)展,各種新應用如微博、微信和Digg等不斷涌現(xiàn)。這些新應用改變了在傳統(tǒng)上用戶只能被動的接收數(shù)據(jù)的信息傳播方式,使得用戶可以主動參與信息的創(chuàng)造和傳播。在用戶使用這些應用的過程中,產(chǎn)生了大量高價值的數(shù)據(jù)和信息。如何有效地從這些數(shù)據(jù)中挖掘出有價值的知識是目前國際上的研究熱點之一。高維數(shù)據(jù)聚類是數(shù)據(jù)挖掘中一種重要的無監(jiān)督學習技術,眾多國內(nèi)外研究者利用高維數(shù)據(jù)聚類技術來挖掘社會化媒體數(shù)據(jù)中的知識,已取得了一定的研究成果。然而,同傳統(tǒng)的高維數(shù)據(jù)相比,這些新應用產(chǎn)生的數(shù)據(jù)呈現(xiàn)出新的特點。首先,由于用戶群體的復雜性和用戶在使用過程中的隨意性,產(chǎn)生的數(shù)據(jù)往往是多噪音、高維稀疏的。其次,隨著應用的復雜化,產(chǎn)生的數(shù)據(jù)通常包含異構多視圖特征,并且隨著大量用戶的參與,數(shù)據(jù)的規(guī)模也越來越大。這導致傳統(tǒng)的方法不適用于新形勢下產(chǎn)生的高維數(shù)據(jù)集。近年來,研究人員提出了一些針對于這類大規(guī)模高維復雜數(shù)據(jù)的聚類算法,如高維子空間聚類、利用外部知識庫擴展稀疏數(shù)據(jù)聚類、矩陣分解等方法。但是這些研究中存在信息利用不充分、需要外部輔助知識、不能解決異構特征融合等缺點。本文針對高維數(shù)據(jù)中的多噪音、稀疏性、特征融合和高計算復雜度問題,結合現(xiàn)有的子空間聚類和非負矩陣分解等方法,提出了一系列新的高維數(shù)據(jù)聚類方法。本文主要研究工作和創(chuàng)新包括以下四個方面：首先,本文提出了一種能夠同時利用簇內(nèi)散度和簇間散度的子空間聚類框架�；谠摽蚣�,提出了三種擴展kmeans聚類算法：無特征加權的擴展簡單kmeans聚類算法,向量特征加權的擴展自動變量加權kmeans聚類算法和矩陣特征加權的擴展屬性加權聚類算法。同時,通過理論分析,證明了三種擴展kmeans聚類算法的收斂性。相比于傳統(tǒng)的kmeans聚類算法,擴展加權kmeans算法能夠利用簇間散度進行更加有效地特征選擇,降低噪音維度在聚類中所起的作用,從而提高算法的聚類性能。最后在人工數(shù)據(jù)集和真實數(shù)據(jù)集上的實驗結果表明擴展kmeans聚類算法優(yōu)于傳統(tǒng)的kmeans聚類算法。其次,本文提出了STCEK (Short Text Clustering with Extending Keywords)算法以解決高維稀疏短文本數(shù)據(jù)聚類問題。該算法主要思想是根據(jù)詞在文檔中的共現(xiàn)性提取概念,利用概念之間的語義聯(lián)系構建出概念圖,通過劃分概念圖得到概念簇。最后,利用概念簇來豐富每個短文的語義,改善短文本的特征空間稀疏性問題,從而提高短文本聚類效果。由于STCEK算法只是利用數(shù)據(jù)集內(nèi)部信息來擴展短文本,不需要引入外部輔助知識庫,因此,一般不會引入外部噪音。通過與傳統(tǒng)無擴展關鍵詞聚類算法和基于Wikipedia擴展關鍵詞算法的實驗對比,STCEK算法能夠獲得更好的聚類性能。然后,本文提出了MNMF (Multiple Nonnegative Matrices Factorization)算法以解決多視圖(多類型特征)數(shù)據(jù)聚類問題。該算法把數(shù)據(jù)中包含的多種類型特征表示成多個非負矩陣,然后通過聯(lián)合多非負矩陣分解方法來聚類。同時,為了得到簇在時間維度上的演化趨勢,算法在矩陣分解過程中采用時間平滑約束以緩解噪音數(shù)據(jù)造成演化趨勢上的震蕩。同時,通過理論分析,證明了該算法能夠收斂到局部最優(yōu)解。最后,在TDT5數(shù)據(jù)集和NIPS數(shù)據(jù)集上的實驗結果表明MNMF算法優(yōu)于現(xiàn)有的多視圖聚類算法。最后,本文提出了PMNMF (Parallel Multiple Nonnegative Matrices Factoriza-tion)算法以解決大規(guī)模多視圖數(shù)據(jù)聚類的高計算代價問題。該算法也是基于多非負矩陣分解方法,其基本思想是把多非負矩陣分解轉化為矩陣乘法、矩陣加法、矩陣按元素乘除等操作,然后利用圖形處理單元(GPU)在這些操作上的速度優(yōu)勢,提高多非負矩陣分解的速度。最后,在人工數(shù)據(jù)集和真實數(shù)據(jù)集上的實驗結果表明PMNMF算法比串行的MNMF算法具有明顯的速度優(yōu)勢�？傮w而言,本文針對高維數(shù)據(jù)中多噪音、特征稀疏性、異構多視圖特性和高計算復雜性,分別提出了四種算法：擴展kmeans算法、STCEK算法、MNMF算法和PMNMF算法。其中,MNMF算法是PMNMF算法的前置工作。本文的研究將為高維數(shù)據(jù)聚類帶來新的思路,同時這些算法也給輿情分析、精準營銷、社會化搜索等應用系統(tǒng)帶來更多的選擇。
【學位授予單位】：哈爾濱工業(yè)大學
【學位級別】：博士
【學位授予年份】：2015
【分類號】：TP311.13

【共引文獻】

相關期刊論文前10條

1 涂小萌;陳強國;;基于ARIMA-LSSVM混合模型的犯罪時間序列預測[J];電子技術應用;2015年02期

2 賈偉;夏靖波;;網(wǎng)絡虛擬化環(huán)境下的業(yè)務聚類方法[J];電光與控制;2015年08期

3 劉根平;陳葉芳;杜呈透;錢江波;;一種基于LSH的時間子序列匹配查詢算法[J];電信科學;2015年08期

4 邢玉娟;張成文;譚萍;曹曉麗;;基于信息增益和支持向量機的網(wǎng)絡新聞評論情感觀點分類[J];蘭州文理學院學報(自然科學版);2015年05期

5 吉根林;趙斌;;面向大數(shù)據(jù)的時空數(shù)據(jù)挖掘綜述[J];南京師大學報(自然科學版);2014年01期

6 蘇錦旗;;基于HMM2的時間序列凝聚聚類算法[J];計算機與數(shù)字工程;2014年07期

7 張麗杰;;具有穩(wěn)定飽和度的DBSCAN算法[J];計算機應用研究;2014年07期

8 吳濤;陳黎飛;;自適應熵的投影聚類算法[J];計算機科學與探索;2014年08期

9 吳大華;;基于HTM的遺傳時間序列分割算法[J];計算機與現(xiàn)代化;2014年10期

10 支曉斌;許朝暉;;魯棒的特征權重自調(diào)節(jié)軟子空間聚類算法[J];計算機應用;2015年03期

相關博士學位論文前10條

1 支曉斌;自適應判別降維模糊聚類算法研究[D];西安電子科技大學;2013年

2 王強;局部疊加基因表達模式聚類分析方法研究[D];哈爾濱工業(yè)大學;2012年

3 賈朝龍;鐵路軌道不平順數(shù)據(jù)挖掘及其時間序列趨勢預測研究[D];北京交通大學;2013年

4 VO THI THANH VAN;時間序列分析技術的研究[D];湖南大學;2013年

5 何曉旭;時間序列數(shù)據(jù)挖掘若干關鍵問題研究[D];中國科學技術大學;2014年

6 張建化;基于微粒群優(yōu)化的復雜環(huán)境多機器人氣味源定位[D];中國礦業(yè)大學;2014年

7 孫友強;時間序列數(shù)據(jù)挖掘中的維數(shù)約簡與預測方法研究[D];中國科學技術大學;2014年

8 孫吉紅;長時間序列聚類方法及其在股票價格中的應用研究[D];武漢大學;2011年

9 白天;連分式方法在脈沖去噪、時序數(shù)據(jù)壓縮及視頻鏡頭檢測中的應用研究[D];合肥工業(yè)大學;2014年

10 劉健;基于協(xié)同進化理論的圖書館知識生態(tài)化機理與技術實現(xiàn)研究[D];吉林大學;2015年

，

本文編號：1324231

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/shoufeilunwen/xxkjbs/1324231.html

上一篇：單縱模脈沖式1178nm激光器與新型雙波長激光器研究
下一篇：基于H_∞濾波理論和多模型算法的機動目標跟蹤研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

高維數(shù)據(jù)的若干聚類問題及算法研究