聚類算法在天文學中的應用
本文選題:數(shù)據(jù)挖掘 + 聚類算法; 參考:《河北師范大學》2009年碩士論文
【摘要】: 隨著大型光學望遠鏡的精度和深度不斷提高,特別是巡天望遠鏡的發(fā)展,天文光學波段的數(shù)據(jù)急劇增加,成為探索各類天體和天文現(xiàn)象的物理本質(zhì)的強有力武器。面對天文學“數(shù)據(jù)雪崩”和“信息爆炸”時代的到來,為了解決天文數(shù)據(jù)的復雜性、非線性、海量性和多波段性等一系列問題,借助數(shù)據(jù)挖掘技術來探索隱藏在數(shù)據(jù)中的有用信息勢在必行。在此背景下,如何迅速準確地從這些海量數(shù)據(jù)中挖掘出所需要的信息,已成為天文學觀測和數(shù)據(jù)處理的一個關鍵問題,直接影響著天文學發(fā)展和研究進程。本文利用一些適合于天文數(shù)據(jù)特點的數(shù)據(jù)挖掘技術和方法,主要是利用聚類算法對天體的自動分類和尋找出特殊天體的任務。工作主要包括以下三部分: (1)基于自動聚類算法的恒星/星系分類 自動聚類算法(AutoClass)是基于貝葉斯模型確定最優(yōu)類別的經(jīng)典混合模型的非監(jiān)督聚類方法。它對處理非線性和高維數(shù)據(jù)有很高的效率。應用AutoClass對SDSS巡天的恒星/星系進行自動分類,根據(jù)點源和展源的不同特征表現(xiàn),選擇使用了PSF(pointspread function,點擴散函數(shù))星等和模型星等在五個波段的差值作為輸入?yún)?shù),并設置了合適的標準,從而獲得合理的分類結果,對恒星和星系的分類正確率分別達到了99.51%和98.52%,表明AutoClass算法對此類數(shù)據(jù)聚類有很好的效率。 (2) SDSS巡天的恒星樣本探索 目的是探索SDSS恒星樣本,找出其中的非恒星天體或特殊天體,從而建立一個純的恒星樣本。我們對SDSS巡天中具有光譜觀測的恒星的測光數(shù)據(jù)應用AutoClass進行聚類分析,得到991個離群天體。然后將這些離群數(shù)據(jù)在NED和SIMBAD中認證,對于已證認的,發(fā)現(xiàn)它們絕大多數(shù)屬于特殊天體,準確率高達90.7%,而對于未證認的,希望在更大口徑更高精度的望遠鏡中證認,或許會發(fā)現(xiàn)一些有趣的天體或現(xiàn)象。 (3)星系形態(tài)分類 星系是構成宇宙的組成單元,而形態(tài)是它的基本特性。星系形態(tài)的研究是理解星系物理屬性的首要步驟。這里根據(jù)天文學的任務將星系分成早型星系和晚型星系兩類。應用SDSS巡天的星系測光數(shù)據(jù),基于五個星等和四個顏色的多組參數(shù),參考不同的分類標準,研究了將AutoClass和k-means兩種算法用于星系形態(tài)的自動分類。研究結果表明不論對AutoClass還是k-means而言,發(fā)現(xiàn)基于顏色的分類效果明顯高于基于星等的效果;AutoClass和k-means的分類效率相當;與單純地基于單參數(shù)的星系分類相比,自動化算法具有高效性、靈活性、能夠處理高維數(shù)據(jù)等優(yōu)點。在數(shù)據(jù)日益豐富的時代,自動化聚類算法將越來越顯示出其優(yōu)越性。
[Abstract]:With the continuous improvement of the precision and depth of large optical telescopes, especially the development of the Sky Survey Telescope, the data of astronomical optical band increase rapidly, and become a powerful weapon to explore the physical essence of various celestial bodies and astronomical phenomena. In the face of the advent of the age of "data avalanche" and "information explosion" in astronomy, in order to solve a series of problems such as complexity, nonlinearity, magnanimity and multi-band characteristics of astronomical data, It is imperative to explore useful information hidden in data by means of data mining technology. In this context, how to quickly and accurately extract the needed information from these massive data has become a key problem in astronomical observation and data processing, which directly affects the development and research process of astronomy. In this paper, some data mining techniques and methods suitable for astronomical data characteristics are used, mainly the automatic classification of celestial bodies and the task of finding special celestial bodies by clustering algorithm. The main work includes the following three parts: (1) the automatic star / galaxy classification clustering algorithm based on automatic clustering algorithm (AutoClass) is a classical algorithm based on Bayesian model to determine the optimal classification. Unsupervised clustering method for mixed models. It has high efficiency in dealing with nonlinear and high dimensional data. Using AutoClass to classify the stars / galaxies of SDSs, according to the different characteristics of point source and spread source, the difference between the PSF (pointspread function, point diffusion function and the model magnitude in five bands is selected as the input parameter. And set the appropriate criteria to obtain reasonable classification results, The classification accuracy of stars and galaxies is 99.51% and 98.52% respectively, which indicates that AutoClass algorithm is efficient for this kind of data clustering. (2) the purpose of star sample exploration in SDSS survey is: Explore SDSS stellar samples, A pure sample of stars is established by identifying the non-stellar objects or special objects. We use AutoClass to cluster the photometric data of stars with spectral observations during the SDSS survey and obtain 991 outliers. These outliers are then authenticated in NED and SIMBAD, and for those that have been identified, most of them are found to be special objects, and the accuracy is as high as 90.7, while for those that are not identified, they want to be identified in telescopes with a larger aperture and higher accuracy. Some interesting celestial bodies or phenomena may be found. (3) Galaxy morphological classification galaxies are the constituent units of the universe and form is its basic characteristic. The study of galactic morphology is the first step in understanding the physical properties of galaxies. Galaxies are divided into early and late galaxies according to astronomical tasks. In this paper, the automatic classification of galactic morphology is studied by using SDSS-survey data, based on the parameters of five star sizes and four colors, and referring to different classification criteria. The two algorithms, AutoClass and k-means, are applied to the automatic classification of galactic morphology. The results show that for both AutoClass and k-means, the classification effect based on color is significantly higher than that based on magnitude. The classification efficiency of AutoClass and k-means is similar to that of autoClass and k-means, and the automatic algorithm is more efficient than the classification based on single parameter. Flexibility, the ability to handle high-dimensional data and other advantages. In the era of increasingly abundant data, the automatic clustering algorithm will show more and more advantages.
【學位授予單位】:河北師范大學
【學位級別】:碩士
【學位授予年份】:2009
【分類號】:P152
【相似文獻】
相關期刊論文 前10條
1 嚴麗平;;基于數(shù)據(jù)挖掘的電信客戶細分模型的分析與設計[J];科技廣場;2007年05期
2 張維化;楊國林;;數(shù)據(jù)挖掘技術在數(shù)據(jù)抽取中的研究與應用[J];內(nèi)蒙古師范大學學報(自然科學漢文版);2008年04期
3 許雪貴;;基于數(shù)據(jù)挖掘的入侵檢測系統(tǒng)研究[J];紹興文理學院學報(自然科學版);2008年04期
4 郭麗蓉;陳立潮;葉樹華;;數(shù)據(jù)挖掘技術在入侵檢測中的應用[J];科技情報開發(fā)與經(jīng)濟;2006年24期
5 王鶴;;基于信息素的蟻群聚類算法[J];中國科技信息;2007年15期
6 李燕;;蟻群聚類算法研究現(xiàn)狀的分析[J];中國科技信息;2009年09期
7 史小松;黃勇杰;劉永革;;數(shù)據(jù)挖掘技術中聚類的幾種常用方法比較[J];中國科技信息;2009年20期
8 邢培;;數(shù)據(jù)挖掘的主要技術——聚類[J];科技信息;2010年20期
9 周穎;呂巍;井淼;;基于數(shù)據(jù)挖掘技術的移動通信行業(yè)客戶細分[J];上海交通大學學報;2007年07期
10 嚴仍榮;;數(shù)值型關聯(lián)規(guī)則挖掘在客戶關系管理中的應用[J];皖西學院學報;2007年05期
相關會議論文 前10條
1 馬洪杰;曲曉飛;;數(shù)據(jù)挖掘技術和過程的特點[A];面向21世紀的科技進步與社會經(jīng)濟發(fā)展(上冊)[C];1999年
2 戈欣;吳曉芬;許建榮;;數(shù)據(jù)挖掘技術在放射科醫(yī)療管理中的潛在作用[A];2009中華醫(yī)學會影像技術分會第十七次全國學術大會論文集[C];2009年
3 宿愛霞;林滿山;;淺析數(shù)據(jù)挖掘技術在鋁電解槽槽況確定中的方法研究[A];2007通信理論與技術新發(fā)展——第十二屆全國青年通信學術會議論文集(上冊)[C];2007年
4 魏昕路;洪志令;姜青山;;一種基于樣本縮減策略的新窗口式聚類算法[A];第二十四屆中國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2007年
5 金妮;;一種基于數(shù)據(jù)倉庫和OLAP技術的聚類挖掘系統(tǒng)[A];中國儀器儀表學會第九屆青年學術會議論文集[C];2007年
6 魏元珍;楊沂鳳;;數(shù)據(jù)挖掘技術及其在數(shù)字圖書館中的應用[A];網(wǎng)絡信息資源的搜集與應用——全國高校社科信息資料研究會第十次年會論文集[C];2004年
7 肖健;沈彩霞;;淺談數(shù)據(jù)挖掘技術現(xiàn)狀[A];廣西計算機學會2008年年會論文集[C];2008年
8 鞏耀亮;邱曉東;孫麗君;李樹強;;數(shù)據(jù)挖掘技術在企業(yè)競爭情報系統(tǒng)中的應用研究[A];信息時代——科技情報研究學術論文集(第三輯)[C];2008年
9 王守強;朱大銘;史士英;;基于輸入點集求解k-Means聚類算法[A];第二十六屆中國控制會議論文集[C];2007年
10 李政濤;夏樹倩;王大玲;馮時;張一飛;;一種基于語義引力及密度分布的聚類算法[A];第六屆全國信息檢索學術會議論文集[C];2010年
相關重要報紙文章 前10條
1 陳曉 山西財經(jīng)大學教師;數(shù)據(jù)挖掘技術在高校教學管理中的應用[N];山西經(jīng)濟日報;2010年
2 記者 呂賢如;大力加強數(shù)據(jù)挖掘技術研究應用[N];光明日報;2006年
3 主持人 李禾;數(shù)據(jù)挖掘技術如何驅(qū)動經(jīng)濟車輪[N];科技日報;2007年
4 首之;數(shù)據(jù)挖掘并不神秘[N];金融時報;2006年
5 劉紅巖、何軍;利用數(shù)據(jù)挖掘技術獲得商業(yè)智能[N];中國計算機報;2003年
6 ;IBM公司推出新型數(shù)據(jù)挖掘技術[N];中國高新技術產(chǎn)業(yè)導報;2001年
7 徐揚;如何從數(shù)據(jù)中“擠出”效益[N];中國計算機報;2002年
8 山西銀行學校 王林芳;數(shù)據(jù)挖掘在銀行業(yè)務中的應用[N];山西科技報;2005年
9 任中華;財務數(shù)據(jù)挖掘六步走[N];中國計算機報;2007年
10 ;數(shù)據(jù)挖掘阻止銀行客戶流失[N];計算機世界;2007年
相關博士學位論文 前10條
1 許增福;DL環(huán)境下的信息資源管理及知識發(fā)現(xiàn)研究[D];哈爾濱工程大學;2005年
2 龐淑英;三江并流帶旅游地質(zhì)景觀數(shù)據(jù)挖掘及旅游價值評價研究[D];昆明理工大學;2008年
3 趙晨;過程控制中的數(shù)據(jù)挖掘技術研究及其智能控制策略探討[D];浙江大學;2005年
4 高清東;復雜供礦條件礦山技術指標整體動態(tài)優(yōu)化系統(tǒng)及應用[D];北京科技大學;2005年
5 李興;高光譜數(shù)據(jù)庫及數(shù)據(jù)挖掘研究[D];中國科學院研究生院(遙感應用研究所);2006年
6 王玉峰;變電站瞬態(tài)電磁環(huán)境及微機保護系統(tǒng)EMC研究[D];大連理工大學;2007年
7 潘海天;數(shù)據(jù)挖掘技術在聚合過程建模與控制的應用研究[D];浙江大學;2003年
8 程其云;基于數(shù)據(jù)挖掘的電力短期負荷預測模型及方法的研究[D];重慶大學;2004年
9 束志恒;化學化工數(shù)據(jù)挖掘技術的研究[D];浙江大學;2005年
10 孫蕾;醫(yī)學圖像智能挖掘關鍵技術研究[D];西北大學;2005年
相關碩士學位論文 前10條
1 鄭仁毅;基于數(shù)據(jù)挖掘技術的入侵檢測系統(tǒng)研究與設計[D];廈門大學;2007年
2 馬俊賢;數(shù)據(jù)挖掘算法在人才測評中的研究與應用[D];中北大學;2008年
3 孫業(yè)勤;基于數(shù)據(jù)分區(qū)的密度聚類算法應用研究[D];大連理工大學;2008年
4 尚俊平;基于距離的聚類和孤立點檢測算法研究[D];鄭州大學;2005年
5 齊先鋒;數(shù)據(jù)挖掘在電信企業(yè)客戶細分中的應用研究[D];江西理工大學;2007年
6 金萍;調(diào)整學習聚類算法的研究[D];合肥工業(yè)大學;2008年
7 李淵;基于K-means算法的數(shù)據(jù)挖掘可視化技術的應用研究[D];北京交通大學;2008年
8 童剛;數(shù)據(jù)挖掘在證券客戶關系管理中的應用與實現(xiàn)[D];電子科技大學;2007年
9 陳小輝;基于數(shù)據(jù)挖掘的入侵檢測技術研究[D];南京理工大學;2008年
10 黎慧娟;校園網(wǎng)用戶行為的分析與研究[D];廣西大學;2007年
,本文編號:2055190
本文鏈接:http://sikaile.net/kejilunwen/tianwen/2055190.html