高維數(shù)據(jù)的若干聚類問題及算法研究
本文關鍵詞:高維數(shù)據(jù)的若干聚類問題及算法研究 出處:《哈爾濱工業(yè)大學》2015年博士論文 論文類型:學位論文
更多相關文章: 高維數(shù)據(jù) 聚類 非負矩陣分解 多視圖數(shù)據(jù) 圖形處理單元
【摘要】:隨著社會化媒體和移動互聯(lián)網(wǎng)技術的快速發(fā)展,各種新應用如微博、微信和Digg等不斷涌現(xiàn)。這些新應用改變了在傳統(tǒng)上用戶只能被動的接收數(shù)據(jù)的信息傳播方式,使得用戶可以主動參與信息的創(chuàng)造和傳播。在用戶使用這些應用的過程中,產(chǎn)生了大量高價值的數(shù)據(jù)和信息。如何有效地從這些數(shù)據(jù)中挖掘出有價值的知識是目前國際上的研究熱點之一。高維數(shù)據(jù)聚類是數(shù)據(jù)挖掘中一種重要的無監(jiān)督學習技術,眾多國內(nèi)外研究者利用高維數(shù)據(jù)聚類技術來挖掘社會化媒體數(shù)據(jù)中的知識,已取得了一定的研究成果。然而,同傳統(tǒng)的高維數(shù)據(jù)相比,這些新應用產(chǎn)生的數(shù)據(jù)呈現(xiàn)出新的特點。首先,由于用戶群體的復雜性和用戶在使用過程中的隨意性,產(chǎn)生的數(shù)據(jù)往往是多噪音、高維稀疏的。其次,隨著應用的復雜化,產(chǎn)生的數(shù)據(jù)通常包含異構多視圖特征,并且隨著大量用戶的參與,數(shù)據(jù)的規(guī)模也越來越大。這導致傳統(tǒng)的方法不適用于新形勢下產(chǎn)生的高維數(shù)據(jù)集。近年來,研究人員提出了一些針對于這類大規(guī)模高維復雜數(shù)據(jù)的聚類算法,如高維子空間聚類、利用外部知識庫擴展稀疏數(shù)據(jù)聚類、矩陣分解等方法。但是這些研究中存在信息利用不充分、需要外部輔助知識、不能解決異構特征融合等缺點。本文針對高維數(shù)據(jù)中的多噪音、稀疏性、特征融合和高計算復雜度問題,結合現(xiàn)有的子空間聚類和非負矩陣分解等方法,提出了一系列新的高維數(shù)據(jù)聚類方法。本文主要研究工作和創(chuàng)新包括以下四個方面:首先,本文提出了一種能夠同時利用簇內(nèi)散度和簇間散度的子空間聚類框架;谠摽蚣,提出了三種擴展kmeans聚類算法:無特征加權的擴展簡單kmeans聚類算法,向量特征加權的擴展自動變量加權kmeans聚類算法和矩陣特征加權的擴展屬性加權聚類算法。同時,通過理論分析,證明了三種擴展kmeans聚類算法的收斂性。相比于傳統(tǒng)的kmeans聚類算法,擴展加權kmeans算法能夠利用簇間散度進行更加有效地特征選擇,降低噪音維度在聚類中所起的作用,從而提高算法的聚類性能。最后在人工數(shù)據(jù)集和真實數(shù)據(jù)集上的實驗結果表明擴展kmeans聚類算法優(yōu)于傳統(tǒng)的kmeans聚類算法。其次,本文提出了STCEK (Short Text Clustering with Extending Keywords)算法以解決高維稀疏短文本數(shù)據(jù)聚類問題。該算法主要思想是根據(jù)詞在文檔中的共現(xiàn)性提取概念,利用概念之間的語義聯(lián)系構建出概念圖,通過劃分概念圖得到概念簇。最后,利用概念簇來豐富每個短文的語義,改善短文本的特征空間稀疏性問題,從而提高短文本聚類效果。由于STCEK算法只是利用數(shù)據(jù)集內(nèi)部信息來擴展短文本,不需要引入外部輔助知識庫,因此,一般不會引入外部噪音。通過與傳統(tǒng)無擴展關鍵詞聚類算法和基于Wikipedia擴展關鍵詞算法的實驗對比,STCEK算法能夠獲得更好的聚類性能。然后,本文提出了MNMF (Multiple Nonnegative Matrices Factorization)算法以解決多視圖(多類型特征)數(shù)據(jù)聚類問題。該算法把數(shù)據(jù)中包含的多種類型特征表示成多個非負矩陣,然后通過聯(lián)合多非負矩陣分解方法來聚類。同時,為了得到簇在時間維度上的演化趨勢,算法在矩陣分解過程中采用時間平滑約束以緩解噪音數(shù)據(jù)造成演化趨勢上的震蕩。同時,通過理論分析,證明了該算法能夠收斂到局部最優(yōu)解。最后,在TDT5數(shù)據(jù)集和NIPS數(shù)據(jù)集上的實驗結果表明MNMF算法優(yōu)于現(xiàn)有的多視圖聚類算法。最后,本文提出了PMNMF (Parallel Multiple Nonnegative Matrices Factoriza-tion)算法以解決大規(guī)模多視圖數(shù)據(jù)聚類的高計算代價問題。該算法也是基于多非負矩陣分解方法,其基本思想是把多非負矩陣分解轉化為矩陣乘法、矩陣加法、矩陣按元素乘除等操作,然后利用圖形處理單元(GPU)在這些操作上的速度優(yōu)勢,提高多非負矩陣分解的速度。最后,在人工數(shù)據(jù)集和真實數(shù)據(jù)集上的實驗結果表明PMNMF算法比串行的MNMF算法具有明顯的速度優(yōu)勢?傮w而言,本文針對高維數(shù)據(jù)中多噪音、特征稀疏性、異構多視圖特性和高計算復雜性,分別提出了四種算法:擴展kmeans算法、STCEK算法、MNMF算法和PMNMF算法。其中,MNMF算法是PMNMF算法的前置工作。本文的研究將為高維數(shù)據(jù)聚類帶來新的思路,同時這些算法也給輿情分析、精準營銷、社會化搜索等應用系統(tǒng)帶來更多的選擇。
【學位授予單位】:哈爾濱工業(yè)大學
【學位級別】:博士
【學位授予年份】:2015
【分類號】:TP311.13
【共引文獻】
相關期刊論文 前10條
1 涂小萌;陳強國;;基于ARIMA-LSSVM混合模型的犯罪時間序列預測[J];電子技術應用;2015年02期
2 賈偉;夏靖波;;網(wǎng)絡虛擬化環(huán)境下的業(yè)務聚類方法[J];電光與控制;2015年08期
3 劉根平;陳葉芳;杜呈透;錢江波;;一種基于LSH的時間子序列匹配查詢算法[J];電信科學;2015年08期
4 邢玉娟;張成文;譚萍;曹曉麗;;基于信息增益和支持向量機的網(wǎng)絡新聞評論情感觀點分類[J];蘭州文理學院學報(自然科學版);2015年05期
5 吉根林;趙斌;;面向大數(shù)據(jù)的時空數(shù)據(jù)挖掘綜述[J];南京師大學報(自然科學版);2014年01期
6 蘇錦旗;;基于HMM2的時間序列凝聚聚類算法[J];計算機與數(shù)字工程;2014年07期
7 張麗杰;;具有穩(wěn)定飽和度的DBSCAN算法[J];計算機應用研究;2014年07期
8 吳濤;陳黎飛;;自適應熵的投影聚類算法[J];計算機科學與探索;2014年08期
9 吳大華;;基于HTM的遺傳時間序列分割算法[J];計算機與現(xiàn)代化;2014年10期
10 支曉斌;許朝暉;;魯棒的特征權重自調(diào)節(jié)軟子空間聚類算法[J];計算機應用;2015年03期
相關博士學位論文 前10條
1 支曉斌;自適應判別降維模糊聚類算法研究[D];西安電子科技大學;2013年
2 王強;局部疊加基因表達模式聚類分析方法研究[D];哈爾濱工業(yè)大學;2012年
3 賈朝龍;鐵路軌道不平順數(shù)據(jù)挖掘及其時間序列趨勢預測研究[D];北京交通大學;2013年
4 VO THI THANH VAN;時間序列分析技術的研究[D];湖南大學;2013年
5 何曉旭;時間序列數(shù)據(jù)挖掘若干關鍵問題研究[D];中國科學技術大學;2014年
6 張建化;基于微粒群優(yōu)化的復雜環(huán)境多機器人氣味源定位[D];中國礦業(yè)大學;2014年
7 孫友強;時間序列數(shù)據(jù)挖掘中的維數(shù)約簡與預測方法研究[D];中國科學技術大學;2014年
8 孫吉紅;長時間序列聚類方法及其在股票價格中的應用研究[D];武漢大學;2011年
9 白天;連分式方法在脈沖去噪、時序數(shù)據(jù)壓縮及視頻鏡頭檢測中的應用研究[D];合肥工業(yè)大學;2014年
10 劉健;基于協(xié)同進化理論的圖書館知識生態(tài)化機理與技術實現(xiàn)研究[D];吉林大學;2015年
,本文編號:1324231
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1324231.html