天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

XML文檔聚類研究與應用

發(fā)布時間:2020-09-01 15:58
   XML(e Xtensible Markup Language)是因特網(wǎng)中信息描述、傳輸和交換的重要標準,而XML文檔聚類是眾多XML文檔整合和管理技術中關注的焦點,其目標是有效整合XML文檔使之便于存儲和傳輸。相似度計算則是XML文檔聚類的關鍵步驟,而傳統(tǒng)XML文檔相似度計算方法中,樹編輯距離算法時間復雜度較高,元素比較法丟失文檔結(jié)構特性,邊與路徑比較法過于局限,擴展性差,而向量空間計算法雖計算簡便,但多數(shù)算法因其特征權重設定導致無法完整保留文檔結(jié)構特性。論文著眼于XML文檔的特征權重設定,分別從相似度計算和聚類算法選擇兩方面進行研究,并取得了如下成果:1、論文研究了計算XML文檔相似度的pq-gram算法。XML文檔的結(jié)點在不同XML文檔樹中所處層次以及本層次中位置都會有所不同,而這些不同正是XML文檔結(jié)構特性的一種體現(xiàn),但pq-gram算法在提取pq-gram時未考慮這一點。鑒于此,論文提出了一種新的帶權pq-gram算法,通過全面考慮XML文檔樹中結(jié)點的層次及位置,結(jié)合其父節(jié)點所處的位置,為XML文檔結(jié)點以及pq-gram設計了全新的權重設定方法,并在權重設定的基礎上改進了其相似度計算方法。最后通過聚類算法對三個真實數(shù)據(jù)集進行聚類,比較聚類精度的優(yōu)劣以及各聚類簇之間的相似度。2、在此基礎上,論文進一步研究了常見的XML文檔特征向量提取方法,發(fā)現(xiàn)大多數(shù)特征提取算法只是針對XML文檔結(jié)構特性對特征進行權重設定,未考慮各特征之間是存在偏好關系的。事實上,XML聚類不能完全通過結(jié)點在XML文檔中的層次來判定它對于聚類的重要性。論文在此基礎上研究了基于特征偏好的聚類(Clustering with feature order preference,CFP)算法。論文在帶權pq-gram算法對XML文檔進行特征向量提取的基礎上,結(jié)合CFP算法,提出了基于特征偏好的XML文檔聚類(CXFP)算法。CXFP算法可結(jié)合pq-gram權重以及特征偏好權重兩個方面,并利用CFP算法的特點,在聚類過程中動態(tài)調(diào)整特征偏好權重。實驗表明CXFP算法通過加入了特征偏好,可顯著提高聚類的精度。3、分析了當前國內(nèi)機場噪聲現(xiàn)狀,并介紹了對其分析研究的必要性,在此基礎上,將CXFP算法應用于機場噪聲數(shù)據(jù)的聚類中,根據(jù)不同的聚類需求為數(shù)據(jù)特征設定偏好權重,實驗結(jié)果表明,CXFP算法較之其他聚類算法可以取得較優(yōu)的聚類效果。
【學位單位】:南京航空航天大學
【學位級別】:碩士
【學位年份】:2015
【中圖分類】:TP391.1

【相似文獻】

相關期刊論文 前10條

1 劉遠超;王曉龍;徐志明;關毅;;文檔聚類綜述[J];中文信息學報;2006年03期

2 王曉東;郭雷;方俊;楊寧;鄧濤;;一種基于本體的抽象度可調(diào)文檔聚類[J];計算機工程與應用;2007年29期

3 王李冬;魏寶剛;袁杰;;基于概率主題模型的文檔聚類[J];電子學報;2012年11期

4 王升明,李淼;一種基于改進的自組織特征映射網(wǎng)絡的文檔聚類方法[J];計算機工程與應用;2005年03期

5 孫永林;劉仲;;基于動態(tài)區(qū)間映射的文檔聚類算法[J];計算機科學;2010年06期

6 陳媛媛;屈志毅;張恒龍;廖紹雯;;一種初值優(yōu)化的K-均值文檔聚類算法(英文)[J];江西師范大學學報(自然科學版);2008年02期

7 孫霞;張玉生;;基于模式元素的文檔聚類方法研究[J];常熟理工學院學報;2012年08期

8 宋江春,沈鈞毅,宋擒豹;一個基于關聯(lián)規(guī)則的多層文檔聚類算法[J];計算機應用;2005年07期

9 趙衛(wèi)中;馬慧芳;李志清;史忠植;;一種結(jié)合主動學習的半監(jiān)督文檔聚類算法[J];軟件學報;2012年06期

10 吳景嵐,劉燕,朱文興;一個K-均值文檔聚類的改進算法[J];閩江學院學報;2004年02期

相關會議論文 前10條

1 唐國瑜;夏云慶;張民;鄭方;;基于跨語言廣義向量空間模型的跨語言文檔聚類方法[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年

2 周水庚;孫敬宇;胡運發(fā);;一種文檔聚類新方法[A];第十六屆全國數(shù)據(jù)庫學術會議論文集[C];1999年

3 劉眾奇;袁曉潔;張海威;楊娜;王敏輝;;閾值區(qū)間:一種基于XCLS和XCLSE的改進方案[A];第二十五屆中國數(shù)據(jù)庫學術會議論文集(二)[C];2008年

4 原福永;楊治秋;王海霞;;一種基于向量空間模型的文檔聚類算法研究[A];第十二屆全國信號處理學術年會(CCSP-2005)論文集[C];2005年

5 王曉宇;錢衛(wèi)寧;張龍;周傲英;;XML DTD文檔聚類研究[A];第十八屆全國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2001年

6 馬輝民;李衛(wèi)華;;Web文檔聚類系統(tǒng)的實現(xiàn)方法探析[A];第10屆計算機模擬與信息技術會議論文集[C];2005年

7 伍賽;楊冬青;韓近強;張銘;王文清;馮英;;WCM:一種基于單詞相關度的文檔聚類新方法[A];第二十一屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2004年

8 李文波;孫樂;;在查詢反饋中改善文檔聚類效果的策略研究[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學術會議論文集[C];2004年

9 劉振鹿;王大玲;馮時;張一飛;方東昊;;一種基于LDA的潛在語義區(qū)劃分及Web文檔聚類算法[A];第六屆全國信息檢索學術會議論文集[C];2010年

10 汪洋;張磊;章毅;;基于短語匹配的中文Web文檔聚類算法[A];第二屆全國信息檢索與內(nèi)容安全學術會議(NCIRCS-2005)論文集[C];2005年

相關博士學位論文 前5條

1 楊劍鋒;適合并行的無干預文檔聚類算法研究[D];武漢大學;2010年

2 劉銘;大規(guī)模文檔聚類中若干關鍵問題的研究[D];哈爾濱工業(yè)大學;2010年

3 楊瑞龍;基于短語特征的Web文檔聚類方法研究[D];重慶大學;2010年

4 丁鐵楠;XML文檔聚類及其評估問題研究[D];吉林大學;2015年

5 周

本文編號:2809944


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/2809944.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶c5e7b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com