移動平臺下基于K-means的租房信息聚類算法研究與實現(xiàn)
本文關(guān)鍵詞:移動平臺下基于K-means的租房信息聚類算法研究與實現(xiàn),,由筆耕文化傳播整理發(fā)布。
【摘要】:移動互聯(lián)網(wǎng)的發(fā)展,加快了數(shù)據(jù)的產(chǎn)生速度;促進了云計算、大數(shù)據(jù)等數(shù)據(jù)處理技術(shù)的進步。為解決通用搜索引擎應對海量數(shù)據(jù)檢索時返回信息量大、查詢精度低等弊病,各類垂直搜索引擎網(wǎng)站迅速發(fā)展。安居客作為專業(yè)性的房源類信息搜索網(wǎng)站,提供大量的房源信息。租房類信息是各類房源信息中數(shù)據(jù)量最大、更新最快的一類房源信息。面對大量的房源類信息,研發(fā)人員一直研究如何提高服務質(zhì)量和用戶訪問量。通過統(tǒng)計用戶搜索行為,對于大量分頁返回的結(jié)果,用戶只對前幾頁感興趣。將大量的房源信息,快速全面的呈現(xiàn)在用戶面前是一個值得研究的課題。 移動平臺下利用地圖服務,將租房信息散布在地圖上有助于利用位置服務針對性瀏覽房源信息。地圖呈現(xiàn)的屏幕是有限的,尤其是移動端受屏幕大小制約,單條呈現(xiàn)所能呈現(xiàn)的數(shù)據(jù)量更受到制約。探索解決出租房源密度與地圖比例之間的問題,提出將租房類信息進行聚類顯示的思想。 聚類之前,對存儲在服務端的數(shù)據(jù)進行預處理,通過對元數(shù)據(jù)進行清洗、集成、變換、歸約四個步驟的依次處理,減小移動端數(shù)據(jù)處理的計算量。詳細分析租房類信息在各個階段處理的過程,并在最大500萬條的數(shù)據(jù)上進行數(shù)據(jù)預處理的實驗分析。 移動端利用服務端傳來的數(shù)據(jù)進行聚類,研究移動平臺下中心點與K值選擇相關(guān)問題,并提出基于地理位置的K-means聚類算法步驟;通過分析地圖不同縮放比下聚類屬性選擇,提出了采用基于K-means改進的K-prototypes的算法進行對多維混合屬性進行聚類;同時為減少計算與數(shù)據(jù)傳輸,當前地圖位置移動時,采用新數(shù)據(jù)部分聚類的思想進行再聚類。最后,分析了算法的實驗性能。初步投放市場的效果也表明該功能的上線在移動端提高了33%的瀏覽量。
【關(guān)鍵詞】:移動互聯(lián)網(wǎng) 租房類信息 地圖搜房 數(shù)據(jù)預處理 K-means聚類
【學位授予單位】:華中師范大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP393.092;TP391.3
【目錄】:
- 摘要5-6
- Abstract6-9
- 第一章 緒論9-16
- 1.1 研究背景9-10
- 1.2 國內(nèi)外研究現(xiàn)狀10-13
- 1.2.1 聚類分析研究現(xiàn)狀10-12
- 1.2.2 K-means應用研究12-13
- 1.3 研究目的和意義13
- 1.4 論文的研究內(nèi)容13-14
- 1.5 論文的結(jié)構(gòu)安排14-16
- 第二章 相關(guān)理論與知識研究16-24
- 2.1 K-means聚類分析16-19
- 2.1.1 K-means算法的思想和原理16-17
- 2.1.2 K-means中心點選擇研究17-19
- 2.2 Android相關(guān)概述19-22
- 2.2.1 Android平臺19-20
- 2.2.2 Android系統(tǒng)架構(gòu)20-22
- 2.3 本章小結(jié)22-24
- 第三章 租房類信息數(shù)據(jù)預處理研究24-35
- 3.1 數(shù)據(jù)清洗24-26
- 3.1.1 屬性缺失值處理24-25
- 3.1.2 數(shù)據(jù)去噪處理25-26
- 3.2 數(shù)據(jù)集成處理26
- 3.3 數(shù)據(jù)變換處理26-27
- 3.4 數(shù)據(jù)歸約27-30
- 3.4.1 聚類屬性選擇28
- 3.4.2 維度歸約與數(shù)值歸約28-29
- 3.4.3 數(shù)據(jù)離散化處理和概念分層29-30
- 3.5 性能分析30-34
- 3.5.1 數(shù)據(jù)清洗30-31
- 3.5.2 數(shù)據(jù)集成31-32
- 3.5.3 數(shù)據(jù)變換32-33
- 3.5.4 數(shù)據(jù)歸約33-34
- 3.6 本章小結(jié)34-35
- 第四章 移動找房的K-means聚類算法應用實現(xiàn)35-46
- 4.1 租房類信息的K-means聚類分析35-37
- 4.1.1 K值與中心點選擇35-36
- 4.1.2 基于地理位置的租房類信息聚類36-37
- 4.2 地圖比例變化時K-means重聚類分析37-39
- 4.2.1 多維屬性選擇37-38
- 4.2.2 多維混合屬性聚類分析38-39
- 4.3 位置移動下K-means重聚類分析39-42
- 4.3.1 數(shù)據(jù)重用與傳輸40-42
- 4.3.2 部分聚類思想42
- 4.4 性能分析42-45
- 4.4.1 數(shù)據(jù)傳輸與中心點選擇42-43
- 4.4.2 移動端聚類性能43-44
- 4.4.3 綜合性能評測44-45
- 4.5 本章小結(jié)45-46
- 第五章 總結(jié)與展望46-48
- 5.1 論文總結(jié)46
- 5.2 工作展望46-48
- 參考文獻48-52
- 在校期間發(fā)表的論文和參加的科研項目52-53
- 致謝53
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 程瑩;張云勇;徐雷;房秉毅;;基于Hadoop及關(guān)系型數(shù)據(jù)庫的海量數(shù)據(jù)分析研究[J];電信科學;2010年11期
2 胡偉;;Android系統(tǒng)架構(gòu)及其驅(qū)動研究[J];廣州廣播電視大學學報;2010年04期
3 孫士保;秦克云;;改進的k-平均聚類算法研究[J];計算機工程;2007年13期
4 張玉芳,毛嘉莉,熊忠陽;一種改進的K-means算法[J];計算機應用;2003年08期
5 傅德勝;周辰;;基于密度的改進K均值算法及實現(xiàn)[J];計算機應用;2011年02期
6 菅志剛,金旭;數(shù)據(jù)挖掘中數(shù)據(jù)預處理的研究與實現(xiàn)[J];計算機應用研究;2004年07期
7 張科澤;楊鶴標;沈項軍;蔣中秋;;基于節(jié)點數(shù)據(jù)密度的分布式K-means聚類算法研究[J];計算機應用研究;2011年10期
8 王林;吳海橋;鄭友石;;一種改進的K均值聚類算法[J];科技信息;2010年32期
9 孟小峰;慈祥;;大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J];計算機研究與發(fā)展;2013年01期
10 易宏銀;;數(shù)據(jù)挖掘在電信行業(yè)應用探討[J];通信與信息技術(shù);2008年04期
本文關(guān)鍵詞:移動平臺下基于K-means的租房信息聚類算法研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號:408753
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/408753.html