天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 信息工程論文 >

網(wǎng)絡(luò)文本信息聚類(lèi)算法研究與應(yīng)用

發(fā)布時(shí)間:2016-08-30 10:41

  本文關(guān)鍵詞:網(wǎng)絡(luò)文本信息聚類(lèi)算法研究與應(yīng)用,由筆耕文化傳播整理發(fā)布。


《北京交通大學(xué)》 2009年

網(wǎng)絡(luò)文本信息聚類(lèi)算法研究與應(yīng)用

張樹(shù)魁  

【摘要】: 隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)在全球范圍內(nèi)的迅速發(fā)展與普及,網(wǎng)絡(luò)信息資源日趨豐富且內(nèi)容復(fù)雜多樣,其中既有大量進(jìn)步、健康的信息,也不乏反動(dòng)、迷信的內(nèi)容。因此,如何對(duì)這樣龐大的信息資源進(jìn)行快速有效的檢索分析,對(duì)網(wǎng)絡(luò)輿論進(jìn)行準(zhǔn)確的預(yù)測(cè)引導(dǎo)成為一個(gè)重要而迫切的研究課題。 于是,數(shù)據(jù)挖掘這門(mén)技術(shù)應(yīng)運(yùn)而生,它以數(shù)據(jù)庫(kù)技術(shù)為基礎(chǔ),融合統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、模糊學(xué)等多門(mén)學(xué)科的成果,研究如何從數(shù)據(jù)庫(kù)中提取隱含的、未知的有潛在應(yīng)用價(jià)值的信息或模式。聚類(lèi)分析在這項(xiàng)技術(shù)中占有重要的位置,它通過(guò)比較數(shù)據(jù)的相似性和差異性將一個(gè)數(shù)據(jù)集合分割成幾個(gè)稱為類(lèi)的子集,從而發(fā)現(xiàn)數(shù)據(jù)信息的內(nèi)在特征和分布規(guī)律。 本論文在系統(tǒng)回顧網(wǎng)絡(luò)信息檢索、數(shù)據(jù)挖掘和聚類(lèi)算法應(yīng)用研究現(xiàn)狀的基礎(chǔ)上,總結(jié)了目前通用的聚類(lèi)算法存在的問(wèn)題,試圖設(shè)計(jì)一種適用于中文網(wǎng)絡(luò)文本信息的聚類(lèi)算法,并進(jìn)而設(shè)計(jì)實(shí)現(xiàn)一個(gè)網(wǎng)絡(luò)信息聚類(lèi)系統(tǒng)。 本論文的研究?jī)?nèi)容和創(chuàng)新工作主要體現(xiàn)在以下幾點(diǎn): (1)分析了幾種通用的聚類(lèi)算法,包括基于劃分、基于層次、基于密度、基于網(wǎng)格和基于模型聚類(lèi)算法,通過(guò)實(shí)驗(yàn)數(shù)據(jù)分析比較了幾種算法的性能和優(yōu)缺點(diǎn),分析了它們?cè)诰W(wǎng)絡(luò)信息聚類(lèi)應(yīng)用中的缺陷。 (2)研究了中文網(wǎng)絡(luò)信息聚類(lèi)應(yīng)用中的幾種關(guān)鍵技術(shù),包括分詞技術(shù)、文本表示、特征降維、權(quán)重分析和相似度計(jì)算。 (3)引入二叉檢索樹(shù)對(duì)后綴樹(shù)聚類(lèi)算法在中文網(wǎng)絡(luò)信息聚類(lèi)中的應(yīng)用進(jìn)行了研究和改進(jìn)。 (4)對(duì)典型的k-平均算法、后綴樹(shù)聚類(lèi)算法和改進(jìn)后的算法進(jìn)行實(shí)驗(yàn)分析,在算法準(zhǔn)確率和時(shí)間復(fù)雜度上進(jìn)行了比較。 (5)設(shè)計(jì)并實(shí)現(xiàn)了基于改進(jìn)后綴樹(shù)聚類(lèi)算法的網(wǎng)絡(luò)文本信息聚類(lèi)系統(tǒng),通過(guò)系統(tǒng)運(yùn)行實(shí)驗(yàn)驗(yàn)證了改進(jìn)的后綴樹(shù)聚類(lèi)算法在中文網(wǎng)絡(luò)文本信息聚類(lèi)中的可行性和有效性。

【關(guān)鍵詞】:
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2009
【分類(lèi)號(hào)】:TP391.1
【目錄】:

  • 致謝5-6
  • 中文摘要6-7
  • ABSTRACT7-12
  • 1 緒論12-18
  • 1.1 研究背景與意義12-13
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀及發(fā)展趨勢(shì)13-16
  • 1.2.1 聚類(lèi)算法研究現(xiàn)狀13-15
  • 1.2.2 未來(lái)發(fā)展趨勢(shì)15-16
  • 1.3 論文主要工作及結(jié)構(gòu)16-18
  • 1.3.1 研究工作和目標(biāo)16
  • 1.3.2 論文內(nèi)容和結(jié)構(gòu)16-18
  • 2 數(shù)據(jù)挖掘與聚類(lèi)分析概述18-27
  • 2.1 數(shù)據(jù)挖掘概述18-20
  • 2.1.1 數(shù)據(jù)挖掘定義18-19
  • 2.1.2 數(shù)據(jù)挖掘功能簡(jiǎn)介19-20
  • 2.2 聚類(lèi)分析概述20-22
  • 2.2.1 聚類(lèi)分析的定義20
  • 2.2.2 聚類(lèi)分析的數(shù)據(jù)類(lèi)型20-21
  • 2.2.3 聚類(lèi)算法的典型要求21-22
  • 2.3 聚類(lèi)算法分類(lèi)和比較22-25
  • 2.3.1 基于劃分的方法22-23
  • 2.3.2 基于層次的方法23
  • 2.3.3 基于密度的方法23-24
  • 2.3.4 基于網(wǎng)格的方法24
  • 2.3.5 基于模型的方法24-25
  • 2.3.6 各算法性能綜述25
  • 2.4 本章小節(jié)25-27
  • 3 聚類(lèi)分析預(yù)處理技術(shù)27-34
  • 3.1 分詞技術(shù)27-29
  • 3.1.1 基于詞典匹配的分詞方法28
  • 3.1.2 基于理解的分詞方法28-29
  • 3.1.3 基于統(tǒng)計(jì)的分詞方法29
  • 3.2 文本表示29-31
  • 3.3 特征降維31-32
  • 3.4 權(quán)重評(píng)價(jià)32
  • 3.5 相似度計(jì)算32-33
  • 3.6 本章小節(jié)33-34
  • 4 后綴樹(shù)聚類(lèi)算法的研究改進(jìn)與實(shí)驗(yàn)分析34-48
  • 4.1 后綴樹(shù)聚類(lèi)算法描述與實(shí)現(xiàn)34-42
  • 4.1.1 后綴樹(shù)的定義34-35
  • 4.1.2 后綴樹(shù)的構(gòu)造方法35-37
  • 4.1.3 后綴樹(shù)聚類(lèi)算法實(shí)現(xiàn)37-39
  • 4.1.4 基于壓縮二叉檢索樹(shù)的改進(jìn)算法39-42
  • 4.2 實(shí)驗(yàn)分析與算法評(píng)價(jià)42-47
  • 4.2.1 實(shí)驗(yàn)設(shè)計(jì)42-44
  • 4.2.2 聚類(lèi)準(zhǔn)確率比較44-45
  • 4.2.3 時(shí)間復(fù)雜度比較45-46
  • 4.2.4 算法評(píng)價(jià)46-47
  • 4.3 本章小節(jié)47-48
  • 5 基于改進(jìn)后綴樹(shù)算法的聚類(lèi)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)48-60
  • 5.1 系統(tǒng)功能概述48-49
  • 5.2 系統(tǒng)體系結(jié)構(gòu)49-50
  • 5.3 系統(tǒng)設(shè)計(jì)實(shí)現(xiàn)50-57
  • 5.3.1 技術(shù)路線和總體設(shè)計(jì)50-51
  • 5.3.2 網(wǎng)絡(luò)信息獲取模塊51-53
  • 5.3.3 文檔處理模塊53-54
  • 5.3.4 聚類(lèi)處理模塊54-55
  • 5.3.5 聚類(lèi)結(jié)果顯示模塊55-57
  • 5.4 系統(tǒng)運(yùn)行測(cè)試57-59
  • 5.5 本章小節(jié)59-60
  • 6 總結(jié)及展望60-62
  • 6.1 總結(jié)60
  • 6.2 研究展望60-62
  • 參考文獻(xiàn)62-64
  • 附錄A64-65
  • 作者簡(jiǎn)歷65-67
  • 學(xué)位論文數(shù)據(jù)集67
  • 下載全文 更多同類(lèi)文獻(xiàn)

    CAJ全文下載

    (如何獲取全文? 歡迎:購(gòu)買(mǎi)知網(wǎng)充值卡、在線充值、在線咨詢)

    CAJViewer閱讀器支持CAJ、PDF文件格式


    【相似文獻(xiàn)】

    中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

    1 劉亞楠;;網(wǎng)絡(luò)信息檢索在統(tǒng)計(jì)中的應(yīng)用[J];現(xiàn)代營(yíng)銷(xiāo)(學(xué)苑版);2011年08期

    2 晏創(chuàng)業(yè),張玉峰;智能檢索中的網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)探索[J];中國(guó)圖書(shū)館學(xué)報(bào);2002年03期

    3 宋瑞祺;;Web文本數(shù)據(jù)挖掘關(guān)鍵技術(shù)及其在網(wǎng)絡(luò)檢索中的應(yīng)用[J];山西財(cái)經(jīng)大學(xué)學(xué)報(bào)(高等教育版);2007年S1期

    4 呂志花;;網(wǎng)絡(luò)信息挖掘及其在搜索引擎方面的應(yīng)用[J];微計(jì)算機(jī)信息;2008年06期

    5 陶清連;;網(wǎng)絡(luò)信息檢索效率分析[J];農(nóng)業(yè)圖書(shū)情報(bào)學(xué)刊;2006年04期

    6 高鑌;;聚類(lèi)在網(wǎng)絡(luò)信息檢索中的輔助作用[J];信息技術(shù);2010年04期

    7 倪莉;;網(wǎng)絡(luò)環(huán)境下的自然語(yǔ)言檢索[J];當(dāng)代圖書(shū)館;1999年04期

    8 王勇;;網(wǎng)絡(luò)信息檢索對(duì)圖書(shū)館信息服務(wù)的影響[J];現(xiàn)代情報(bào);2006年04期

    9 楊玉煥;;網(wǎng)絡(luò)信息檢索對(duì)圖書(shū)館信息服務(wù)的影響[J];長(zhǎng)沙民政職業(yè)技術(shù)學(xué)院學(xué)報(bào);2007年02期

    10 邱宏,付瓊;聯(lián)機(jī)檢索與網(wǎng)絡(luò)信息檢索的比較研究[J];東北電力學(xué)院學(xué)報(bào);2001年02期

    中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條

    1 郭學(xué)軍;陳曉云;;粗集方法在數(shù)據(jù)挖掘中的應(yīng)用[A];第十六屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集[C];1999年

    2 徐慧;;基于Web的文獻(xiàn)數(shù)據(jù)挖掘[A];第十七屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2000年

    3 孫迎;;醫(yī)院信息的數(shù)據(jù)挖掘與方法研究[A];中華醫(yī)學(xué)會(huì)第十次全國(guó)醫(yī)學(xué)信息學(xué)術(shù)會(huì)議論文匯編[C];2004年

    4 薛曉東;李海玲;;數(shù)據(jù)挖掘的客戶關(guān)系管理應(yīng)用[A];科技、工程與經(jīng)濟(jì)社會(huì)協(xié)調(diào)發(fā)展——河南省第四屆青年學(xué)術(shù)年會(huì)論文集(下冊(cè))[C];2004年

    5 郭建文;黃燕;印鑒;楊小波;梁兆輝;;建立中風(fēng)病“陰陽(yáng)類(lèi)證”辨證規(guī)范的數(shù)據(jù)挖掘研究[A];中華醫(yī)學(xué)會(huì)第十三次全國(guó)神經(jīng)病學(xué)學(xué)術(shù)會(huì)議論文匯編[C];2010年

    6 薛魯華;張楠;;聚類(lèi)分析在Web數(shù)據(jù)挖掘中的應(yīng)用[A];北京市第十三次統(tǒng)計(jì)科學(xué)討論會(huì)論文選編[C];2006年

    7 朱揚(yáng)勇;黃超;;基于多維模型的交互式數(shù)據(jù)挖掘框架[A];第二十屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2003年

    8 陳濤;胡學(xué)鋼;陳秀美;;基于數(shù)據(jù)挖掘的教學(xué)質(zhì)量評(píng)價(jià)體系分析[A];全國(guó)第21屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2010)暨全國(guó)第2屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2010年

    9 王星;謝邦昌;戴穩(wěn)勝;;數(shù)據(jù)挖掘在保險(xiǎn)業(yè)中的應(yīng)用[A];北京市第十二次統(tǒng)計(jì)科學(xué)討論會(huì)論文選編[C];2003年

    10 郭建文;黃燕;印鑒;楊小波;梁兆輝;;建立中風(fēng)病陰陽(yáng)類(lèi)證辨證規(guī)范的數(shù)據(jù)挖掘研究[A];2010中國(guó)醫(yī)師協(xié)會(huì)中西醫(yī)結(jié)合醫(yī)師大會(huì)摘要集[C];2010年

    中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條

    1 李開(kāi)宇 黃建軍 田長(zhǎng)春;[N];中國(guó)國(guó)防報(bào);2009年

    2 華萊士;[N];國(guó)際金融報(bào);2003年

    3 記者 晏燕;[N];科技日?qǐng)?bào);2006年

    4 □中國(guó)電信股份有限公司北京研究院 張舒博 □北京郵電大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 牛琨;[N];人民郵電;2006年

    5 張立明;[N];網(wǎng)絡(luò)世界;2003年

    6 中圣信息技術(shù)有限公司 李輝;[N];中國(guó)計(jì)算機(jī)報(bào);2001年

    7 田紅生;[N];中國(guó)經(jīng)濟(jì)時(shí)報(bào);2002年

    8 王廣宇;[N];中國(guó)計(jì)算機(jī)報(bào);2004年

    9 周蓉蓉;[N];計(jì)算機(jī)世界;2004年

    10 張舒博;[N];首都建設(shè)報(bào);2009年

    中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

    1 孫麗;工藝知識(shí)管理及其若干關(guān)鍵技術(shù)研究[D];大連交通大學(xué);2005年

    2 胡志坤;復(fù)雜有色金屬熔煉過(guò)程操作模式智能優(yōu)化方法研究[D];中南大學(xué);2005年

    3 劉革平;基于數(shù)據(jù)挖掘的遠(yuǎn)程學(xué)習(xí)評(píng)價(jià)研究[D];西南師范大學(xué);2005年

    4 劉寨華;基于臨床數(shù)據(jù)分析的病毒性心肌炎證候演變規(guī)律研究[D];黑龍江中醫(yī)藥大學(xué);2006年

    5 王川;基因芯片數(shù)據(jù)管理及數(shù)據(jù)挖掘[D];中國(guó)科學(xué)院研究生院(上海生命科學(xué)研究院);2004年

    6 王濤;挖掘序列模式和結(jié)構(gòu)化模式的精簡(jiǎn)集[D];華中科技大學(xué);2006年

    7 郭斯羽;動(dòng)態(tài)數(shù)據(jù)中的數(shù)據(jù)挖掘研究[D];浙江大學(xué);2002年

    8 李旭升;貝葉斯網(wǎng)絡(luò)分類(lèi)模型研究及其在信用評(píng)估中的應(yīng)用[D];西南交通大學(xué);2007年

    9 劉東升;面向連鎖零售企業(yè)的客戶關(guān)系管理模型(R-CRM)研究[D];浙江工商大學(xué);2008年

    10 余紅;網(wǎng)絡(luò)時(shí)政論壇輿論領(lǐng)袖研究[D];華中科技大學(xué);2007年

    中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

    1 廖賽恩;養(yǎng)生方數(shù)據(jù)挖掘分析系統(tǒng)的研制[D];湖南中醫(yī)藥大學(xué);2010年

    2 李坤然;數(shù)據(jù)挖掘在股市趨勢(shì)預(yù)測(cè)的應(yīng)用研究[D];中南林業(yè)科技大學(xué);2008年

    3 鄭宏;數(shù)據(jù)挖掘可視化技術(shù)的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2010年

    4 杜金剛;數(shù)據(jù)挖掘在電信客戶關(guān)系管理及數(shù)據(jù)業(yè)務(wù)營(yíng)銷(xiāo)中的應(yīng)用[D];北京郵電大學(xué);2010年

    5 徐路;基于決策樹(shù)的數(shù)據(jù)挖掘算法的研究及其在實(shí)際中的應(yīng)用[D];電子科技大學(xué);2009年

    6 梁小鷗;數(shù)據(jù)挖掘在高職教學(xué)管理中的應(yīng)用[D];華南理工大學(xué);2011年

    7 王浩;數(shù)據(jù)挖掘在上海市職業(yè)能力考試院招錄考試優(yōu)化管理項(xiàng)目中的運(yùn)用研究[D];華東理工大學(xué);2012年

    8 黎衛(wèi)英;數(shù)據(jù)挖掘在中職幼教課程改革中的應(yīng)用[D];福建師范大學(xué);2009年

    9 張煜輝;數(shù)據(jù)挖掘和SPC在生產(chǎn)過(guò)程質(zhì)量控制中應(yīng)用研究[D];上海交通大學(xué);2009年

    10 劉華敏;數(shù)據(jù)挖掘在高職院校學(xué)生成績(jī)分析中的應(yīng)用[D];安徽大學(xué);2011年


      本文關(guān)鍵詞:網(wǎng)絡(luò)文本信息聚類(lèi)算法研究與應(yīng)用,,由筆耕文化傳播整理發(fā)布。



    本文編號(hào):105208

    資料下載
    論文發(fā)表

    本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/105208.html


    Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

    版權(quán)申明:資料由用戶3ef2c***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com