基于特征加權(quán)與密度聚類的景區(qū)信息挖掘系統(tǒng)研究與實(shí)現(xiàn)
發(fā)布時間:2024-01-25 08:07
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和移動設(shè)備的普及,基于互聯(lián)網(wǎng)的景點(diǎn)、酒店等個性化信息服務(wù)日益增多,這些信息數(shù)據(jù)的重要性也日趨凸顯。面對日漸積累的龐大的信息數(shù)據(jù),如何從這些數(shù)據(jù)資源中發(fā)現(xiàn)出更深層次的聯(lián)系和規(guī)律而非表面的關(guān)系成為了國內(nèi)外學(xué)者研究的熱點(diǎn)。作為數(shù)據(jù)挖掘領(lǐng)域中的重要方法,空間密度聚類算法與特征加權(quán)算法被廣泛地應(yīng)用于數(shù)據(jù)分析與處理中。論文通過對景區(qū)興趣點(diǎn)信息及景區(qū)文本數(shù)據(jù)進(jìn)行分析,采用空間密度聚類算法DBSCAN和特征加權(quán)算法TFIDF處理數(shù)據(jù)集,設(shè)計并實(shí)現(xiàn)了支持熱點(diǎn)區(qū)域發(fā)現(xiàn)和特色關(guān)鍵詞提取功能的景區(qū)信息挖掘系統(tǒng)。論文的主要研究工作如下:(1)針對景區(qū)興趣點(diǎn)與景區(qū)文本數(shù)據(jù)源進(jìn)行了數(shù)據(jù)預(yù)處理與數(shù)據(jù)存儲。去除景區(qū)興趣點(diǎn)數(shù)據(jù)源中存在的異常數(shù)據(jù),并補(bǔ)全其中的缺失數(shù)據(jù);將景區(qū)文本數(shù)據(jù)源進(jìn)行分詞處理并去除其中存在的空文本數(shù)據(jù)與無意義的停用詞。最后根據(jù)數(shù)據(jù)屬性類別分別存儲入庫。(2)提出了一種改進(jìn)型空間密度聚類算法KM-DBSCAN。由于傳統(tǒng)DBSCAN最終聚類效果極度依賴于其兩個輸入?yún)?shù)的選擇,且輸入?yún)?shù)的全局性還會導(dǎo)致算法對于非均勻密度分布數(shù)據(jù)集的聚類效果不良。針對上述弊端,提出了改進(jìn)的自適應(yīng)參數(shù)空間密...
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
本文編號:3884454
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
圖2-1Spring框架結(jié)構(gòu)圖
圖2-6景區(qū)信息挖掘系統(tǒng)數(shù)據(jù)存儲分析圖
圖3-1DBSCAN算法偽代碼
圖3-2expandCluster部分偽代碼
本文編號:3884454
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3884454.html
最近更新
教材專著