天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

XML文檔數(shù)據(jù)集聚類問題研究

發(fā)布時間:2017-07-19 23:00

  本文關鍵詞:XML文檔數(shù)據(jù)集聚類問題研究


  更多相關文章: 數(shù)據(jù)挖掘 半結(jié)構化數(shù)據(jù) 文檔聚類 層數(shù) boosting


【摘要】:XML文檔是典型的半結(jié)構化數(shù)據(jù),XML是可擴展標記語言(eXtensibleMarkup Language)的英文簡稱。在1998年,萬維網(wǎng)聯(lián)盟W3C就開發(fā)并制定XML的標準并提出了XML格式,即XML1.0標準,并同時提出了文檔定義類型DTD(Document Type Definition)標準和規(guī)范。XML數(shù)據(jù)是典型的半結(jié)構化數(shù)據(jù),具備層次特性及動態(tài)可變特性和自述特性等半結(jié)構化數(shù)據(jù)的一般基本屬性。 隨著計算機網(wǎng)絡技術的發(fā)展,以XML格式為代表的半結(jié)構化數(shù)據(jù)被廣泛應用于各種數(shù)據(jù)庫系統(tǒng)中。目前,可以在網(wǎng)絡中獲得大量的XML文檔數(shù)據(jù),而如何在這些的基于XML文檔類型的海量數(shù)據(jù)中挖掘出來用戶關注的知識,即XML文檔數(shù)據(jù)挖掘已經(jīng)成為新時期數(shù)據(jù)挖掘領域研究的熱點問題之一。 在XML文檔數(shù)據(jù)挖掘研究領域,XML文檔數(shù)據(jù)集聚類問題是研究重點之一。XML文檔聚類問題主要研究如何將具有相似特征的XML文檔歸為一簇,主要用于對具有相似特征的XML文檔數(shù)據(jù)集進行數(shù)據(jù)分析。在進行XML文檔數(shù)據(jù)集聚類之前,如何有效準確的衡量兩篇XML文檔數(shù)據(jù)或多篇XML文檔數(shù)據(jù)間的相似程度(距離)是需要解決的重要問題,當考慮XML文檔內(nèi)容信息和領域知識后,正確的衡量XML文檔數(shù)據(jù)集中各個元素的相似程度變得更加復雜?梢哉f,XML文檔數(shù)據(jù)相似性度量算法的優(yōu)劣直接影響XML文檔數(shù)據(jù)集聚類結(jié)果的質(zhì)量高低。 本文歸納總結(jié)了目前已提出XML文檔聚類問題的解決方法。首先簡單介紹了XML文檔聚類的核心問題,即XML文檔相似性度量問題。其次從樹編輯距離相似性度量方法的角度列舉了相關的聚類方法。之后從信息檢索相似性度量方法的角度列舉了相關的聚類算法。最后列舉了基于其他理論方法進行相似性度量的XML文檔聚類方法。 在第三章,本文提出了一種基于層次數(shù)據(jù)的XML文檔聚類方法,稱為CXLI算法。CXLI算法過程首先創(chuàng)建XML文檔的線性數(shù)構表,然后根據(jù)線性結(jié)構表的信息將文檔中的重復嵌套結(jié)構刪除。在本文中,還提出了在考慮層數(shù)信息的前提下,XML文檔各種基本編輯操作約束條件。之后,提出一種使用動態(tài)規(guī)劃方法的帶有XML文檔層數(shù)信息文檔間相似性度量方法,該方法在進行XML文檔間相似性度量時,將XML文檔數(shù)據(jù)的層數(shù)作為影響XML文檔相似度的因素進行計算。CXLI方法可以用于計算XML文檔相似度的所有應用領域中。最后,提出了基于凝聚型層次聚類思想的XML文檔數(shù)據(jù)集聚類方法。計算機驗證實驗在人工數(shù)據(jù)集和ACM Sigmod真實數(shù)據(jù)集中進行,實驗結(jié)果顯示了本文提出的方法是有效的。 在第四章,為了進一步提高聚類結(jié)果的正確率,提出了一種基于boosting理論的XML文檔聚類方法。首先討論了Boosting能夠提高聚類質(zhì)量(尤其是弱聚類算法)的基本原理。然后,提出了一個命名為ICBQ的算法用來有效的提高XML文檔數(shù)據(jù)集聚類方法的聚類質(zhì)量。通過實驗表明,我們的方法具有很好的效率,并且具有更高的準確率,基于Boosting理論的能夠有效地提高XML文檔的聚類結(jié)果,實驗結(jié)果表明,,無論在真實數(shù)據(jù)集還是在人工生成的數(shù)據(jù)集上,使用ICQB方法都能夠使得Nierman的方法、Dalamagas的方法和Flesca的方法聚類結(jié)果有明顯的提高。
【關鍵詞】:數(shù)據(jù)挖掘 半結(jié)構化數(shù)據(jù) 文檔聚類 層數(shù) boosting
【學位授予單位】:吉林大學
【學位級別】:博士
【學位授予年份】:2015
【分類號】:TP311.13
【目錄】:
  • 摘要4-6
  • Abstract6-10
  • 第1章 緒論10-20
  • 1.1 研究背景及意義10-12
  • 1.2 知識基礎12-17
  • 1.2.1 XML 類型12-13
  • 1.2.2 XML 數(shù)據(jù)模型13-14
  • 1.2.3 樹型數(shù)據(jù)結(jié)構14-15
  • 1.2.4 XML 數(shù)據(jù)模式15-17
  • 1.2.5 XML 數(shù)據(jù)特點17
  • 1.3 本文組織結(jié)構17-18
  • 1.4 本章小結(jié)18-20
  • 第2章 XML文檔聚類理論基礎20-44
  • 2.1 XML 文檔相似性度量簡介20-21
  • 2.2 樹編輯距離度量方法21-29
  • 2.2.1 樹編輯距離基本概念21-24
  • 2.2.2 樹編輯距離研究現(xiàn)狀24-29
  • 2.3 信息檢索度量方法29-35
  • 2.3.1 XML 文檔相似性度量信息檢索方法介紹29
  • 2.3.2 信息檢索研究現(xiàn)狀29-35
  • 2.4 XML 相似度的其它技術35-43
  • 2.4.1 基于 XML 結(jié)構的度量方法35-38
  • 2.4.2 基于 XML 文檔結(jié)構和內(nèi)容度量方法38-43
  • 2.5 本章小結(jié)43-44
  • 第3章 基于層數(shù)信息的XML文檔聚類44-60
  • 3.1 問題提出45-47
  • 3.1.1 相關工作45-46
  • 3.1.2 層數(shù)信息問題描述46-47
  • 3.2 考慮層數(shù)信息的 CXLI 算法47-54
  • 3.2.1 符號表示47-48
  • 3.2.2 元素屬性處理48-50
  • 3.2.3 線性結(jié)構表50-51
  • 3.2.4 編輯操作約束51-52
  • 3.2.5 相似性度量與聚類52-54
  • 3.3 CXLI 算法實驗結(jié)果與分析54-59
  • 3.3.1 實驗環(huán)境與數(shù)據(jù)集54-55
  • 3.3.2 結(jié)果與分析55-59
  • 3.4 本章小結(jié)59-60
  • 第4章 基于BOOSTING的XML文檔聚類方法60-72
  • 4.1 研究背景60-61
  • 4.2 相關工作61-63
  • 4.3 ICQB 算法63-66
  • 4.3.1 AdaBoost63
  • 4.3.2 ICQB 算法63-66
  • 4.4 實驗結(jié)果與分析66-71
  • 4.5 本章小結(jié)71-72
  • 第5章 總結(jié)與展望72-74
  • 參考文獻74-86
  • 攻讀博士期間發(fā)表的學術論文86-88
  • 致謝88

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前7條

1 高明霞;姚文集;毛國君;;XML數(shù)據(jù)流中面向聚類的指數(shù)直方圖[J];北京工業(yè)大學學報;2011年08期

2 汪衛(wèi),周皓峰,袁晴晴,樓宇波,施伯樂;基于圖論的頻繁模式挖掘[J];計算機研究與發(fā)展;2005年02期

3 張

本文編號:565162


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/565162.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶a82cd***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
亚洲一二三四区免费视频| 国产又大又黄又粗又免费| 亚洲第一视频少妇人妻系列| 又大又长又粗又黄国产| 亚洲精品国男人在线视频| 中文久久乱码一区二区| 国产av大片一区二区三区| 成人精品国产亚洲av久久| 国产伦精品一区二区三区精品视频| 国产激情国产精品久久源| 久久久免费精品人妻一区二区三区| 高潮日韩福利在线观看| 久草国产精品一区二区| 色婷婷国产精品视频一区二区保健| 亚洲精品国产福利在线| 欧美精品激情视频一区| 嫩草国产福利视频一区二区| 日韩高清毛片免费观看| 日本午夜免费啪视频在线| 草草视频福利在线观看| 大香蕉网国产在线观看av| 成人精品视频一区二区在线观看| 日韩精品日韩激情日韩综合| 久久经典一区二区三区| 亚洲国产精品久久网午夜| 91精品国产品国语在线不卡| 欧美视频在线观看一区| 亚洲国产一级片在线观看| 国产免费一区二区不卡| 日本美国三级黄色aa| 熟女白浆精品一区二区| 精品人妻av区波多野结依| 亚洲做性视频在线播放| 男女一进一出午夜视频| 欧美日韩亚洲巨色人妻| 九九视频通过这里有精品| 亚洲a码一区二区三区| 青草草在线视频免费视频| 能在线看的视频你懂的| 九九九热在线免费视频| 成年人视频日本大香蕉久久|