基于Web數(shù)據(jù)挖掘的鮮花市場研究與應(yīng)用
發(fā)布時間:2017-07-16 00:16
本文關(guān)鍵詞:基于Web數(shù)據(jù)挖掘的鮮花市場研究與應(yīng)用
更多相關(guān)文章: R XPath 數(shù)據(jù)抓取 Web數(shù)據(jù)挖掘 文本挖掘 文本可視化
【摘要】:隨著數(shù)據(jù)庫技術(shù)和計算機網(wǎng)絡(luò)的迅速普及,在大數(shù)據(jù)時代下,如何通過數(shù)據(jù)挖掘技術(shù)手段,挖掘大數(shù)據(jù)下的深層次關(guān)系,讓營銷更準(zhǔn)確、更有效已經(jīng)成為熱點話題。我國花卉產(chǎn)業(yè)伴隨著改革開放的腳步不斷成長擴大,但目前花卉電子商務(wù)應(yīng)用仍處于探索發(fā)展的初級階段,因此,數(shù)據(jù)挖掘技術(shù)應(yīng)用在花卉電子商務(wù)領(lǐng)域更具有應(yīng)用價值。本文針對花卉電子商務(wù)的行業(yè)特點,結(jié)合了爬蟲技術(shù)、數(shù)據(jù)庫技術(shù)、描述統(tǒng)計分析、文本挖掘和文本可視化技術(shù),以花卉電子商務(wù)為切入點,以中國網(wǎng)上花城網(wǎng)站為研究對象,透過鮮花產(chǎn)品相關(guān)因素的分析來了解花卉市場,分析該網(wǎng)站的銷售產(chǎn)品分類、價格、花語特點等,挖掘出網(wǎng)站產(chǎn)品的分類布局,產(chǎn)品價格配比分布、不同產(chǎn)品的花語特點等隱含數(shù)據(jù)信息,為花卉企業(yè)進行精準(zhǔn)營銷與決策提供數(shù)據(jù)支撐。本文通過介紹相關(guān)研究的背景與目的,概述相關(guān)研究的發(fā)展現(xiàn)狀與技術(shù),分別對數(shù)據(jù)抓取與存儲,數(shù)據(jù)整理,數(shù)據(jù)分析與文本挖掘三個階段進行研究,并給出經(jīng)過結(jié)構(gòu)化處理后存儲在MySQL數(shù)據(jù)庫的表結(jié)構(gòu)以及一些核心R語言程序算法的代碼。首先,本文通過對目標(biāo)花卉Web網(wǎng)站進行多層解析,使用XPath定位抽取相關(guān)的產(chǎn)品信息,存儲進MySQL數(shù)據(jù)庫中。然后,對半結(jié)構(gòu)化數(shù)據(jù)和文本數(shù)據(jù)進行數(shù)據(jù)整理。其中,半結(jié)構(gòu)化數(shù)據(jù)處理包括去除重復(fù)、去除噪音、數(shù)據(jù)類型轉(zhuǎn)換、缺失值處理等操作,文本數(shù)據(jù)預(yù)處理包括中文分詞、轉(zhuǎn)換文本和生成詞項-矩陣等操作。最后,數(shù)據(jù)分析與文本挖掘。對結(jié)構(gòu)化數(shù)據(jù)進行頻數(shù)分析與交叉分析,了解數(shù)據(jù)的基本分布特征,分析變量之間關(guān)系,使用卡方檢驗進行假設(shè)驗證。文本數(shù)據(jù)經(jīng)過文本預(yù)處理后,實施關(guān)聯(lián)分析與聚類分析,通過可視化技術(shù)展現(xiàn)詞云圖、詞項網(wǎng)絡(luò)圖和聚類樹狀圖,對結(jié)果進行概括總結(jié)。
【關(guān)鍵詞】:R XPath 數(shù)據(jù)抓取 Web數(shù)據(jù)挖掘 文本挖掘 文本可視化
【學(xué)位授予單位】:昆明理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.13
【目錄】:
- 摘要6-7
- Abstract7-11
- 第一章 緒論11-17
- 1.1 研究背景與目的11-12
- 1.2 相關(guān)研究發(fā)展現(xiàn)狀12-15
- 1.2.1 花卉電子商務(wù)研究12-14
- 1.2.2 Web數(shù)據(jù)挖掘研究14-15
- 1.3 研究內(nèi)容與結(jié)構(gòu)15-17
- 1.3.1 主要研究內(nèi)容15-16
- 1.3.2 結(jié)構(gòu)安排16-17
- 第二章 技術(shù)概述17-25
- 2.1 技術(shù)概述17-24
- 2.1.1 R語言17-18
- 2.1.2 HTML與XML18-20
- 2.1.3 XPath概述20-22
- 2.1.4 MySQL數(shù)據(jù)庫22-23
- 2.1.5 jiebaR分詞23-24
- 2.2 開發(fā)環(huán)境與軟件24-25
- 第三章 數(shù)據(jù)抓取與存儲25-33
- 3.1 流程框架25-27
- 3.2 數(shù)據(jù)抓取27-29
- 3.3 數(shù)據(jù)存儲29-32
- 3.4 數(shù)據(jù)整理32-33
- 第四章 數(shù)據(jù)分析33-49
- 4.1 頻數(shù)分析33-42
- 4.1.1 花材33-36
- 4.1.2 送花對象36-39
- 4.1.3 送花用途39-42
- 4.2 交叉分析42-47
- 4.2.1 卡方檢驗42-43
- 4.2.2 花材和送花對象43-45
- 4.2.3 花材和送花用途45-46
- 4.2.4 送花對象和送花用途46-47
- 4.3 本章小結(jié)47-49
- 第五章 文本挖掘49-63
- 5.1 文本挖掘概要49-50
- 5.2 文本預(yù)處理50-54
- 5.2.1 中文分詞和停用詞50-52
- 5.2.2 轉(zhuǎn)換文本52
- 5.2.3 建立詞項-文檔矩陣52-54
- 5.3 文本分析54-60
- 5.3.1 頻繁詞項與關(guān)聯(lián)54-56
- 5.3.2 詞云圖56-58
- 5.3.3 詞項網(wǎng)絡(luò)58-60
- 5.4 聚類分析60-61
- 5.4.1 詞項聚類60-61
- 5.4.2 文本聚類61
- 5.5 本章小結(jié)61-63
- 第六章 總結(jié)和展望63-65
- 6.1 本文總結(jié)63-64
- 6.2 工作展望64-65
- 致謝65-66
- 參考文獻66-69
- 附錄69
本文編號:546385
本文鏈接:http://sikaile.net/guanlilunwen/yingxiaoguanlilunwen/546385.html
最近更新
教材專著