基于特征加權與密度聚類的景區(qū)信息挖掘系統(tǒng)研究與實現(xiàn)
發(fā)布時間:2024-01-25 08:07
隨著互聯(lián)網(wǎng)技術的發(fā)展和移動設備的普及,基于互聯(lián)網(wǎng)的景點、酒店等個性化信息服務日益增多,這些信息數(shù)據(jù)的重要性也日趨凸顯。面對日漸積累的龐大的信息數(shù)據(jù),如何從這些數(shù)據(jù)資源中發(fā)現(xiàn)出更深層次的聯(lián)系和規(guī)律而非表面的關系成為了國內(nèi)外學者研究的熱點。作為數(shù)據(jù)挖掘領域中的重要方法,空間密度聚類算法與特征加權算法被廣泛地應用于數(shù)據(jù)分析與處理中。論文通過對景區(qū)興趣點信息及景區(qū)文本數(shù)據(jù)進行分析,采用空間密度聚類算法DBSCAN和特征加權算法TFIDF處理數(shù)據(jù)集,設計并實現(xiàn)了支持熱點區(qū)域發(fā)現(xiàn)和特色關鍵詞提取功能的景區(qū)信息挖掘系統(tǒng)。論文的主要研究工作如下:(1)針對景區(qū)興趣點與景區(qū)文本數(shù)據(jù)源進行了數(shù)據(jù)預處理與數(shù)據(jù)存儲。去除景區(qū)興趣點數(shù)據(jù)源中存在的異常數(shù)據(jù),并補全其中的缺失數(shù)據(jù);將景區(qū)文本數(shù)據(jù)源進行分詞處理并去除其中存在的空文本數(shù)據(jù)與無意義的停用詞。最后根據(jù)數(shù)據(jù)屬性類別分別存儲入庫。(2)提出了一種改進型空間密度聚類算法KM-DBSCAN。由于傳統(tǒng)DBSCAN最終聚類效果極度依賴于其兩個輸入?yún)?shù)的選擇,且輸入?yún)?shù)的全局性還會導致算法對于非均勻密度分布數(shù)據(jù)集的聚類效果不良。針對上述弊端,提出了改進的自適應參數(shù)空間密...
【文章頁數(shù)】:74 頁
【學位級別】:碩士
本文編號:3884454
【文章頁數(shù)】:74 頁
【學位級別】:碩士
圖2-1Spring框架結構圖
圖2-6景區(qū)信息挖掘系統(tǒng)數(shù)據(jù)存儲分析圖
圖3-1DBSCAN算法偽代碼
圖3-2expandCluster部分偽代碼
本文編號:3884454
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3884454.html
最近更新
教材專著