中國互聯(lián)網(wǎng)企業(yè)空間分布的數(shù)據(jù)挖掘—一種大數(shù)據(jù)分析模式
本文關鍵詞:中國互聯(lián)網(wǎng)企業(yè)空間分布的數(shù)據(jù)挖掘—一種大數(shù)據(jù)分析模式
更多相關文章: 數(shù)據(jù)挖掘 互聯(lián)網(wǎng)企業(yè) 爬蟲 關聯(lián)規(guī)則 網(wǎng)絡分析
【摘要】:在信息化社會,數(shù)據(jù)作為一種資源已然受到人們越來越多的關注。隨著互聯(lián)網(wǎng)技術的迅猛發(fā)展以及數(shù)據(jù)庫的廣泛應用,人類社會已經(jīng)產(chǎn)生了海量的數(shù)據(jù)資源,并且仍在繼續(xù)擴張。如何從海量的數(shù)據(jù)中挖掘出有用的知識是擺在人們面前的難題,因此數(shù)據(jù)挖掘便應運而生。本文在詳述了數(shù)據(jù)挖掘的基礎概念后,對擬解決的問題,按照數(shù)據(jù)挖掘的整個流程,通過采取一定的方法,對與互聯(lián)網(wǎng)企業(yè)相關的各種字段數(shù)據(jù)進行挖掘,包括企業(yè)本身以及與企業(yè)相關的領導人等數(shù)據(jù),從多方位角度來研究互聯(lián)網(wǎng)企業(yè),并對挖掘結(jié)果進行了一定的分析,最后文章開發(fā)了一個基于GIS的數(shù)據(jù)挖掘系統(tǒng)。文章的重點在于對互聯(lián)網(wǎng)企業(yè)數(shù)據(jù)的獲取以及對數(shù)據(jù)的挖掘。數(shù)據(jù)的獲取分為自動獲取和非自動獲取兩種方式,其中互聯(lián)網(wǎng)企業(yè)的部分字段屬性數(shù)據(jù)是通過自動的方式,也就是爬蟲程序獲取的。數(shù)據(jù)按照所要研究的問題主要分為兩大類,針對互聯(lián)網(wǎng)企業(yè)的宏觀分布情況文章選用以網(wǎng)站建設為主要業(yè)務的互聯(lián)網(wǎng)企業(yè),針對屬性特征的研究和互聯(lián)網(wǎng)企業(yè)影響下城市網(wǎng)絡結(jié)構(gòu)的研究選用深圳證券交易所上市的互聯(lián)網(wǎng)企業(yè)。其中,屬性特征的研究主要是針對互聯(lián)網(wǎng)企業(yè)各個字段所進行的,包括對董事長的年齡、性別、學歷以及企業(yè)上市時間等屬性特征分布情況的研究,所利用的方法是經(jīng)典的關聯(lián)規(guī)則模型以及傳統(tǒng)的統(tǒng)計方法,而空間數(shù)據(jù)的挖掘則是基于互聯(lián)網(wǎng)企業(yè)的分布城市所進行的,利用的模型是“連鎖的世界城市網(wǎng)絡”(IWCN)模型。最后,文章利用C#與ARCGIS Engine10.0相結(jié)合的方法,開發(fā)了一個關于互聯(lián)網(wǎng)企業(yè)的基于GIS的數(shù)據(jù)挖掘系統(tǒng),對互聯(lián)網(wǎng)企業(yè)的相關數(shù)據(jù)進行在線獲取,并實現(xiàn)地圖的查看、圖表顯示、制圖等功能。通過對互聯(lián)網(wǎng)企業(yè)數(shù)據(jù)進行挖掘,文章得出以下結(jié)論:第一,互聯(lián)網(wǎng)企業(yè)的空間分布整體呈現(xiàn)核心一邊緣狀分布,主要存在4個聚集區(qū),分別為:珠江三角洲、長江三角洲、京津冀地帶和福建廈門一帶。第二,在互聯(lián)網(wǎng)企業(yè)屬性特征的研究方面,企業(yè)上市時間為7-10年、領導人年齡在48-55.5歲之間、學歷為碩士這3者聯(lián)系比較緊密。企業(yè)上市所需的時間從0年到19年先遞增后遞減,領導入學歷中碩士最多,領導人年齡基本在40-49歲和50-59歲之間,且比例達到相當,男性領導人占據(jù)主要位置。第三,在城市網(wǎng)絡結(jié)構(gòu)研究中,對于互聯(lián)網(wǎng)技術型企業(yè)和互聯(lián)網(wǎng)+型企業(yè),在城市連通度方面,都是北京最高,在城市連接方面,網(wǎng)絡基本呈現(xiàn)“菱形”狀態(tài),最大的不同是互聯(lián)網(wǎng)+企業(yè)“菱形”結(jié)構(gòu)更加飽滿,可以推測中西部地區(qū)著重使用互聯(lián)網(wǎng)技術來改善傳統(tǒng)商業(yè)模式。第四,文章針對互聯(lián)網(wǎng)企業(yè)開發(fā)了一個基于GIS的數(shù)據(jù)挖掘系統(tǒng),系統(tǒng)主要通過爬蟲來獲取互聯(lián)網(wǎng)企業(yè)的相關屬性數(shù)據(jù),如企業(yè)董事長的年齡、學歷、性別、籍貫等,并對數(shù)據(jù)能夠進行地圖查詢、各類圖表的顯示、制圖等功能。
【關鍵詞】:數(shù)據(jù)挖掘 互聯(lián)網(wǎng)企業(yè) 爬蟲 關聯(lián)規(guī)則 網(wǎng)絡分析
【學位授予單位】:華東師范大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:F49
【目錄】:
- 摘要6-8
- Abstract8-12
- 第一章 緒論12-18
- 1.1 研究背景12-13
- 1.2 研究內(nèi)容和意義13-14
- 1.3 國內(nèi)外研究現(xiàn)狀14-16
- 1.4 研究方法16
- 1.5 論文的主要結(jié)構(gòu)16-18
- 第二章 數(shù)據(jù)挖掘相關知識18-24
- 2.1 數(shù)據(jù)挖掘概念18-19
- 2.2 空間數(shù)據(jù)挖掘概述19-20
- 2.3 挖掘?qū)ο蠼缍?/span>20-21
- 2.4 爬蟲程序介紹21-24
- 2.4.1 網(wǎng)頁數(shù)據(jù)抓取21-22
- 2.4.2 網(wǎng)頁數(shù)據(jù)解析22-24
- 第三章 互聯(lián)網(wǎng)企業(yè)分布研究24-32
- 3.1 數(shù)據(jù)的準備24-25
- 3.2 中國互聯(lián)網(wǎng)企業(yè)的分布特征25-29
- 3.2.1 地級市分布特征25-27
- 3.2.2 省際分布特征27-28
- 3.2.3 三大地帶分布特征28-29
- 3.3 中國互聯(lián)網(wǎng)企業(yè)空間分布格局的原因分析29-32
- 第四章 互聯(lián)網(wǎng)企業(yè)字段屬性特征分布研究32-41
- 4.1 數(shù)據(jù)的準備32
- 4.2 數(shù)據(jù)挖掘之關聯(lián)規(guī)則模型32-34
- 4.2.1 關聯(lián)規(guī)則的概念33
- 4.2.2 關聯(lián)規(guī)則算法描述33-34
- 4.3 基于互聯(lián)網(wǎng)企業(yè)字段值的關聯(lián)規(guī)則分析34-36
- 4.4 利用統(tǒng)計方法分析企業(yè)屬性特征36-41
- 第五章 互聯(lián)網(wǎng)企業(yè)影響下的城市網(wǎng)絡研究41-53
- 5.1 數(shù)據(jù)的準備41
- 5.2 社會網(wǎng)絡分析模型41-45
- 5.2.1 社會網(wǎng)絡的概念42
- 5.2.2 社會網(wǎng)絡分析的原理42-43
- 5.2.3 城市網(wǎng)絡具體模型43-45
- 5.3 基于互聯(lián)網(wǎng)企業(yè)空間特征數(shù)據(jù)的城市網(wǎng)絡分析45-53
- 第六章 基于GIS的數(shù)據(jù)挖掘系統(tǒng)開發(fā)53-72
- 6.1 系統(tǒng)的需求分析53-55
- 6.1.1 功能性需求分析53-54
- 6.1.2 非功能性需求分析54-55
- 6.2 系統(tǒng)的設計55-59
- 6.2.1 系統(tǒng)的結(jié)構(gòu)設計55-56
- 6.2.2 數(shù)據(jù)庫的設計56-58
- 6.2.3 GIS開發(fā)方式的選擇58-59
- 6.3 系統(tǒng)的實現(xiàn)59-72
- 6.3.1 系統(tǒng)界面59-61
- 6.3.2 蟲功能61-62
- 6.3.3 查詢功能62-65
- 6.3.4 圖表顯示功能65-68
- 6.3.5 制圖功能68-72
- 第七章 總結(jié)與展望72-75
- 7.1 總結(jié)72-73
- 7.2 展望73-75
- 參考文獻75-79
- 致謝79
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 官思發(fā);孟璽;李宗潔;劉揚;;大數(shù)據(jù)分析研究現(xiàn)狀、問題與對策[J];情報雜志;2015年05期
2 于娟;劉強;;主題網(wǎng)絡爬蟲研究綜述[J];計算機工程與科學;2015年02期
3 喻國明;;大數(shù)據(jù)分析及其技術的關鍵[J];國際公關;2014年03期
4 辛宇;鄭鑫;;大數(shù)據(jù)驅(qū)動與客戶生命周期——基于汽車行業(yè)的分析[J];河南社會科學;2014年03期
5 周順平;徐楓;;大數(shù)據(jù)環(huán)境下地理信息產(chǎn)業(yè)發(fā)展的幾點思考[J];地理信息世界;2014年01期
6 王婷;;互聯(lián)網(wǎng)服務業(yè)的內(nèi)涵和創(chuàng)新模式研究[J];科研管理;2012年07期
7 李志剛;劉曄;;中國城市“新移民”社會網(wǎng)絡與空間分異[J];地理學報;2011年06期
8 寧進廳;邱娟;汪明峰;;中國互聯(lián)網(wǎng)產(chǎn)業(yè)發(fā)展的區(qū)域差異及其動態(tài)演進——基于生產(chǎn)和消費的視角[J];世界地理研究;2010年04期
9 王明才;姚承寬;;對發(fā)展我國地理信息產(chǎn)業(yè)的若干建議[J];現(xiàn)代測繪;2010年02期
10 樓天陽;;我國互聯(lián)網(wǎng)公司模式的演變路徑及商業(yè)邏輯[J];商業(yè)時代;2009年06期
中國博士學位論文全文數(shù)據(jù)庫 前1條
1 李新運;城市空間數(shù)據(jù)挖掘方法與應用研究[D];山東科技大學;2004年
中國碩士學位論文全文數(shù)據(jù)庫 前1條
1 仇晶;城市社區(qū)居民鄰里互動的實證研究[D];中南大學;2006年
,本文編號:953101
本文鏈接:http://sikaile.net/guanlilunwen/sjfx/953101.html