天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于子空間的聚類算法研究

發(fā)布時間:2018-05-29 08:59

  本文選題:高維數(shù)據(jù) + 聚類分析 ; 參考:《江南大學(xué)》2017年碩士論文


【摘要】:隨著生命科學(xué)、移動通信、電子商務(wù)、社交網(wǎng)絡(luò)等相關(guān)領(lǐng)域的飛速發(fā)展,涌現(xiàn)出大量的高維數(shù)據(jù),如何有效地對高維數(shù)據(jù)進(jìn)行聚類分析,成為當(dāng)下的研究熱點和難點。傳統(tǒng)的聚類分析通常將數(shù)據(jù)對象全部屬性考慮在內(nèi),然而高維數(shù)據(jù)中常常包含很多無關(guān)的冗余的屬性,這些屬性的存在使得數(shù)據(jù)樣本點間的距離相互接近,使得在整個特征空間中存在類的可能性幾乎為零。子空間聚類方法嘗試在相同數(shù)據(jù)集的不同子空間上進(jìn)行聚類,有效地解決了這類問題。根據(jù)加權(quán)方式的差異,現(xiàn)有算法可分為硬子空間聚類和軟子空間聚類兩種方法。本文從這兩個角度對子空間聚類算法展開了深入研究,主要工作如下:(1)硬子空間聚類算法SUBCLU在自底向上搜索最大興趣子空間類的過程中不斷迭代產(chǎn)生中間類,這個過程消耗大量時間的問題,針對這一問題,本文提出改進(jìn)算法BDFS-SUBCLU,采用一種帶回溯的深度優(yōu)先搜索策略來挖掘最大興趣子空間中的類,通過這種策略避免了中間類的產(chǎn)生,降低了算法的時間復(fù)雜度。同時BDFS-SUBCLU算法在子空間中對核心點增加一種約束,通過這個約束條件在一定程度上避免了聚類過程中相鄰的類由于特殊的數(shù)據(jù)點合為一類的情況。在仿真數(shù)據(jù)集和真實數(shù)據(jù)集上的實驗結(jié)果表明BDFS-SUBCLU算法與SUBCLU算法相比,效率和準(zhǔn)確性均有所提高。(2)基于k-means算法框架的軟子空間聚類算法大多對初始聚類中心點敏感,不當(dāng)?shù)某跏季垲愔行狞c會導(dǎo)致其過早陷入局部最優(yōu),針對這一問題,本文提出相應(yīng)的改進(jìn)方案:在原有算法的基礎(chǔ)上,通過反饋來驗證算法是否陷入局部最優(yōu),當(dāng)算法陷入局部最優(yōu)則以當(dāng)下最優(yōu)為聚類結(jié)果并不斷反饋驗證直到不能找到更優(yōu)的聚類結(jié)果,同時增設(shè)對比組來提高算法跳出局部最優(yōu)的可能性。在UCI真實數(shù)據(jù)集上的實驗結(jié)果表明改進(jìn)后的FSC和EWKM算法準(zhǔn)確率均有所提高。(3)運用開源的中文分詞器mmseg4j對中文文本進(jìn)行分詞處理,然后基于向量空間模型將文本轉(zhuǎn)化為算法可以處理的數(shù)字矩陣,最后用本文所提的軟子空間聚類算法對其進(jìn)行聚類分析。
[Abstract]:With the rapid development of life science, mobile communication, electronic commerce, social network and other related fields, a large number of high-dimensional data have emerged. How to effectively cluster analysis of high-dimensional data has become a hot and difficult issue. Traditional clustering analysis usually takes all attributes of data object into account. However, high dimensional data often contains many irrelevant redundant attributes, which make the distance between data sample points close to each other. The possibility of the existence of classes in the entire feature space is almost zero. The subspace clustering method attempts to cluster on different subspaces of the same data set, which effectively solves this kind of problem. According to the difference of weighting methods, the existing algorithms can be divided into two methods: hard subspace clustering and soft subspace clustering. In this paper, the subspace clustering algorithm is studied from these two angles. The main work is as follows: 1) hard subspace clustering algorithm SUBCLU iterates to produce intermediate classes in the process of bottom-up searching for subspace classes of greatest interest. This paper proposes an improved algorithm BDFS-SUBCLU, which uses a backtracking depth first search strategy to mine classes in the subspace of maximum interest, which avoids the generation of intermediate classes. The time complexity of the algorithm is reduced. At the same time, the BDFS-SUBCLU algorithm adds a constraint to the core point in the subspace, which to some extent avoids the confluence of the adjacent classes in the clustering process because of the special data points. Experimental results on simulation data sets and real data sets show that BDFS-SUBCLU algorithm is more efficient and accurate than SUBCLU algorithm.) soft subspace clustering algorithms based on k-means algorithm framework are mostly sensitive to initial clustering center points. Improper initial clustering center points will lead to premature local optimization. In view of this problem, this paper puts forward the corresponding improvement scheme: on the basis of the original algorithm, the feedback is used to verify whether the algorithm falls into local optimal or not. When the algorithm falls into the local optimum, the current optimal is used as the clustering result and the feedback is verified until the better clustering result can not be found. At the same time, a contrast group is added to improve the possibility of the algorithm jumping out of the local optimum. The experimental results on the real data set of UCI show that the accuracy of the improved FSC and EWKM algorithms are both improved. (3) the open source Chinese word Segmentation (mmseg4j) is used to deal with Chinese text segmentation. Then based on the vector space model, the text is transformed into a digital matrix which can be processed by the algorithm. Finally, the soft subspace clustering algorithm proposed in this paper is used for clustering analysis.
【學(xué)位授予單位】:江南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP311.13

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 支曉斌;許朝暉;;基于閔科夫斯基距離的特征權(quán)重自調(diào)節(jié)軟子空間聚類算法[J];計算機(jī)應(yīng)用研究;2016年09期

2 邱云飛;狄龍娟;;基于簇間距離自適應(yīng)的軟子空間聚類算法[J];計算機(jī)工程與應(yīng)用;2016年21期

3 吳濤;陳黎飛;郭躬德;;優(yōu)化子空間的高維聚類算法[J];計算機(jī)應(yīng)用;2014年08期

4 錢美旋;葉東毅;;利用一維投影分析的無參數(shù)多密度聚類算法[J];小型微型計算機(jī)系統(tǒng);2013年08期

5 王曉陽;張洪淵;沈良忠;池萬樂;;基于相似性度量的高維數(shù)據(jù)聚類算法研究[J];計算機(jī)技術(shù)與發(fā)展;2013年05期

6 孟小峰;慈祥;;大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J];計算機(jī)研究與發(fā)展;2013年01期

7 畢志升;王甲海;印鑒;;基于差分演化算法的軟子空間聚類[J];計算機(jī)學(xué)報;2012年10期

8 施萬鋒;胡學(xué)鋼;俞奎;;一種面向高維數(shù)據(jù)的均分式Lasso特征選擇方法[J];計算機(jī)工程與應(yīng)用;2012年01期

9 陳黎飛;郭躬德;姜青山;;自適應(yīng)的軟子空間聚類算法[J];軟件學(xué)報;2010年10期

10 賀玲;蔡益朝;楊征;;高維數(shù)據(jù)的相似性度量研究[J];計算機(jī)科學(xué);2010年05期

相關(guān)博士學(xué)位論文 前1條

1 陳黎飛;高維數(shù)據(jù)的聚類方法研究與應(yīng)用[D];廈門大學(xué);2008年

相關(guān)碩士學(xué)位論文 前2條

1 蘇芳仲;中文Web文本挖掘的若干關(guān)鍵技術(shù)研究及其實現(xiàn)[D];福州大學(xué);2006年

2 張猛;文本聚類中參數(shù)自動設(shè)置技術(shù)的研究與實現(xiàn)[D];東北大學(xué);2005年

,

本文編號:1950288

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1950288.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶dd133***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
精品国产亚洲区久久露脸| 国产人妻熟女高跟丝袜| 欧美欧美日韩综合一区| 九九热这里只有精品视频| 国产又粗又猛又爽又黄| 国内午夜精品视频在线观看| 欧洲日韩精品一区二区三区| 91熟女大屁股偷偷对白| 丁香六月啪啪激情综合区| 日韩欧美在线看一卡一卡| 亚洲日本久久国产精品久久| 欧美日韩精品一区免费| 91人人妻人人爽人人狠狠| 欧美区一区二区在线观看| 国产剧情欧美日韩中文在线| 精品人妻一区二区三区四区久久| 亚洲乱码av中文一区二区三区| 欧美精品二区中文乱码字幕高清| 日本加勒比在线观看一区| 少妇一区二区三区精品| 精品人妻一区二区三区免费看| 欧美大胆美女a级视频| 亚洲国产精品国自产拍社区| 亚洲精品欧美精品日韩精品| 国产白丝粉嫩av在线免费观看| 国产视频福利一区二区| 福利视频一区二区三区| 开心五月激情综合婷婷色| 国产又粗又猛又黄又爽视频免费| 国产欧美性成人精品午夜| 久热99中文字幕视频在线| 国产高清三级视频在线观看| 中字幕一区二区三区久久蜜桃| 精品精品国产欧美在线| 在线观看视频国产你懂的| 国产白丝粉嫩av在线免费观看| 青青操在线视频精品视频| 久久精品亚洲情色欧美| 婷婷色国产精品视频一区| 色哟哟哟在线观看视频| 日本加勒比中文在线观看|