高維數(shù)據(jù)的若干聚類問題及算法研究
本文關(guān)鍵詞:高維數(shù)據(jù)的若干聚類問題及算法研究 出處:《哈爾濱工業(yè)大學(xué)》2015年博士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 高維數(shù)據(jù) 聚類 非負(fù)矩陣分解 多視圖數(shù)據(jù) 圖形處理單元
【摘要】:隨著社會(huì)化媒體和移動(dòng)互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,各種新應(yīng)用如微博、微信和Digg等不斷涌現(xiàn)。這些新應(yīng)用改變了在傳統(tǒng)上用戶只能被動(dòng)的接收數(shù)據(jù)的信息傳播方式,使得用戶可以主動(dòng)參與信息的創(chuàng)造和傳播。在用戶使用這些應(yīng)用的過程中,產(chǎn)生了大量高價(jià)值的數(shù)據(jù)和信息。如何有效地從這些數(shù)據(jù)中挖掘出有價(jià)值的知識(shí)是目前國(guó)際上的研究熱點(diǎn)之一。高維數(shù)據(jù)聚類是數(shù)據(jù)挖掘中一種重要的無(wú)監(jiān)督學(xué)習(xí)技術(shù),眾多國(guó)內(nèi)外研究者利用高維數(shù)據(jù)聚類技術(shù)來(lái)挖掘社會(huì)化媒體數(shù)據(jù)中的知識(shí),已取得了一定的研究成果。然而,同傳統(tǒng)的高維數(shù)據(jù)相比,這些新應(yīng)用產(chǎn)生的數(shù)據(jù)呈現(xiàn)出新的特點(diǎn)。首先,由于用戶群體的復(fù)雜性和用戶在使用過程中的隨意性,產(chǎn)生的數(shù)據(jù)往往是多噪音、高維稀疏的。其次,隨著應(yīng)用的復(fù)雜化,產(chǎn)生的數(shù)據(jù)通常包含異構(gòu)多視圖特征,并且隨著大量用戶的參與,數(shù)據(jù)的規(guī)模也越來(lái)越大。這導(dǎo)致傳統(tǒng)的方法不適用于新形勢(shì)下產(chǎn)生的高維數(shù)據(jù)集。近年來(lái),研究人員提出了一些針對(duì)于這類大規(guī)模高維復(fù)雜數(shù)據(jù)的聚類算法,如高維子空間聚類、利用外部知識(shí)庫(kù)擴(kuò)展稀疏數(shù)據(jù)聚類、矩陣分解等方法。但是這些研究中存在信息利用不充分、需要外部輔助知識(shí)、不能解決異構(gòu)特征融合等缺點(diǎn)。本文針對(duì)高維數(shù)據(jù)中的多噪音、稀疏性、特征融合和高計(jì)算復(fù)雜度問題,結(jié)合現(xiàn)有的子空間聚類和非負(fù)矩陣分解等方法,提出了一系列新的高維數(shù)據(jù)聚類方法。本文主要研究工作和創(chuàng)新包括以下四個(gè)方面:首先,本文提出了一種能夠同時(shí)利用簇內(nèi)散度和簇間散度的子空間聚類框架�;谠摽蚣�,提出了三種擴(kuò)展kmeans聚類算法:無(wú)特征加權(quán)的擴(kuò)展簡(jiǎn)單kmeans聚類算法,向量特征加權(quán)的擴(kuò)展自動(dòng)變量加權(quán)kmeans聚類算法和矩陣特征加權(quán)的擴(kuò)展屬性加權(quán)聚類算法。同時(shí),通過理論分析,證明了三種擴(kuò)展kmeans聚類算法的收斂性。相比于傳統(tǒng)的kmeans聚類算法,擴(kuò)展加權(quán)kmeans算法能夠利用簇間散度進(jìn)行更加有效地特征選擇,降低噪音維度在聚類中所起的作用,從而提高算法的聚類性能。最后在人工數(shù)據(jù)集和真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明擴(kuò)展kmeans聚類算法優(yōu)于傳統(tǒng)的kmeans聚類算法。其次,本文提出了STCEK (Short Text Clustering with Extending Keywords)算法以解決高維稀疏短文本數(shù)據(jù)聚類問題。該算法主要思想是根據(jù)詞在文檔中的共現(xiàn)性提取概念,利用概念之間的語(yǔ)義聯(lián)系構(gòu)建出概念圖,通過劃分概念圖得到概念簇。最后,利用概念簇來(lái)豐富每個(gè)短文的語(yǔ)義,改善短文本的特征空間稀疏性問題,從而提高短文本聚類效果。由于STCEK算法只是利用數(shù)據(jù)集內(nèi)部信息來(lái)擴(kuò)展短文本,不需要引入外部輔助知識(shí)庫(kù),因此,一般不會(huì)引入外部噪音。通過與傳統(tǒng)無(wú)擴(kuò)展關(guān)鍵詞聚類算法和基于Wikipedia擴(kuò)展關(guān)鍵詞算法的實(shí)驗(yàn)對(duì)比,STCEK算法能夠獲得更好的聚類性能。然后,本文提出了MNMF (Multiple Nonnegative Matrices Factorization)算法以解決多視圖(多類型特征)數(shù)據(jù)聚類問題。該算法把數(shù)據(jù)中包含的多種類型特征表示成多個(gè)非負(fù)矩陣,然后通過聯(lián)合多非負(fù)矩陣分解方法來(lái)聚類。同時(shí),為了得到簇在時(shí)間維度上的演化趨勢(shì),算法在矩陣分解過程中采用時(shí)間平滑約束以緩解噪音數(shù)據(jù)造成演化趨勢(shì)上的震蕩。同時(shí),通過理論分析,證明了該算法能夠收斂到局部最優(yōu)解。最后,在TDT5數(shù)據(jù)集和NIPS數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明MNMF算法優(yōu)于現(xiàn)有的多視圖聚類算法。最后,本文提出了PMNMF (Parallel Multiple Nonnegative Matrices Factoriza-tion)算法以解決大規(guī)模多視圖數(shù)據(jù)聚類的高計(jì)算代價(jià)問題。該算法也是基于多非負(fù)矩陣分解方法,其基本思想是把多非負(fù)矩陣分解轉(zhuǎn)化為矩陣乘法、矩陣加法、矩陣按元素乘除等操作,然后利用圖形處理單元(GPU)在這些操作上的速度優(yōu)勢(shì),提高多非負(fù)矩陣分解的速度。最后,在人工數(shù)據(jù)集和真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明PMNMF算法比串行的MNMF算法具有明顯的速度優(yōu)勢(shì)�?傮w而言,本文針對(duì)高維數(shù)據(jù)中多噪音、特征稀疏性、異構(gòu)多視圖特性和高計(jì)算復(fù)雜性,分別提出了四種算法:擴(kuò)展kmeans算法、STCEK算法、MNMF算法和PMNMF算法。其中,MNMF算法是PMNMF算法的前置工作。本文的研究將為高維數(shù)據(jù)聚類帶來(lái)新的思路,同時(shí)這些算法也給輿情分析、精準(zhǔn)營(yíng)銷、社會(huì)化搜索等應(yīng)用系統(tǒng)帶來(lái)更多的選擇。
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP311.13
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 涂小萌;陳強(qiáng)國(guó);;基于ARIMA-LSSVM混合模型的犯罪時(shí)間序列預(yù)測(cè)[J];電子技術(shù)應(yīng)用;2015年02期
2 賈偉;夏靖波;;網(wǎng)絡(luò)虛擬化環(huán)境下的業(yè)務(wù)聚類方法[J];電光與控制;2015年08期
3 劉根平;陳葉芳;杜呈透;錢江波;;一種基于LSH的時(shí)間子序列匹配查詢算法[J];電信科學(xué);2015年08期
4 邢玉娟;張成文;譚萍;曹曉麗;;基于信息增益和支持向量機(jī)的網(wǎng)絡(luò)新聞評(píng)論情感觀點(diǎn)分類[J];蘭州文理學(xué)院學(xué)報(bào)(自然科學(xué)版);2015年05期
5 吉根林;趙斌;;面向大數(shù)據(jù)的時(shí)空數(shù)據(jù)挖掘綜述[J];南京師大學(xué)報(bào)(自然科學(xué)版);2014年01期
6 蘇錦旗;;基于HMM2的時(shí)間序列凝聚聚類算法[J];計(jì)算機(jī)與數(shù)字工程;2014年07期
7 張麗杰;;具有穩(wěn)定飽和度的DBSCAN算法[J];計(jì)算機(jī)應(yīng)用研究;2014年07期
8 吳濤;陳黎飛;;自適應(yīng)熵的投影聚類算法[J];計(jì)算機(jī)科學(xué)與探索;2014年08期
9 吳大華;;基于HTM的遺傳時(shí)間序列分割算法[J];計(jì)算機(jī)與現(xiàn)代化;2014年10期
10 支曉斌;許朝暉;;魯棒的特征權(quán)重自調(diào)節(jié)軟子空間聚類算法[J];計(jì)算機(jī)應(yīng)用;2015年03期
相關(guān)博士學(xué)位論文 前10條
1 支曉斌;自適應(yīng)判別降維模糊聚類算法研究[D];西安電子科技大學(xué);2013年
2 王強(qiáng);局部疊加基因表達(dá)模式聚類分析方法研究[D];哈爾濱工業(yè)大學(xué);2012年
3 賈朝龍;鐵路軌道不平順數(shù)據(jù)挖掘及其時(shí)間序列趨勢(shì)預(yù)測(cè)研究[D];北京交通大學(xué);2013年
4 VO THI THANH VAN;時(shí)間序列分析技術(shù)的研究[D];湖南大學(xué);2013年
5 何曉旭;時(shí)間序列數(shù)據(jù)挖掘若干關(guān)鍵問題研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2014年
6 張建化;基于微粒群優(yōu)化的復(fù)雜環(huán)境多機(jī)器人氣味源定位[D];中國(guó)礦業(yè)大學(xué);2014年
7 孫友強(qiáng);時(shí)間序列數(shù)據(jù)挖掘中的維數(shù)約簡(jiǎn)與預(yù)測(cè)方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2014年
8 孫吉紅;長(zhǎng)時(shí)間序列聚類方法及其在股票價(jià)格中的應(yīng)用研究[D];武漢大學(xué);2011年
9 白天;連分式方法在脈沖去噪、時(shí)序數(shù)據(jù)壓縮及視頻鏡頭檢測(cè)中的應(yīng)用研究[D];合肥工業(yè)大學(xué);2014年
10 劉健;基于協(xié)同進(jìn)化理論的圖書館知識(shí)生態(tài)化機(jī)理與技術(shù)實(shí)現(xiàn)研究[D];吉林大學(xué);2015年
,本文編號(hào):1324231
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1324231.html