天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 管理論文 > 營銷論文 >

基于Web數(shù)據(jù)挖掘的鮮花市場研究與應(yīng)用

發(fā)布時間:2017-07-16 00:16

  本文關(guān)鍵詞:基于Web數(shù)據(jù)挖掘的鮮花市場研究與應(yīng)用


  更多相關(guān)文章: R XPath 數(shù)據(jù)抓取 Web數(shù)據(jù)挖掘 文本挖掘 文本可視化


【摘要】:隨著數(shù)據(jù)庫技術(shù)和計算機網(wǎng)絡(luò)的迅速普及,在大數(shù)據(jù)時代下,如何通過數(shù)據(jù)挖掘技術(shù)手段,挖掘大數(shù)據(jù)下的深層次關(guān)系,讓營銷更準(zhǔn)確、更有效已經(jīng)成為熱點話題。我國花卉產(chǎn)業(yè)伴隨著改革開放的腳步不斷成長擴大,但目前花卉電子商務(wù)應(yīng)用仍處于探索發(fā)展的初級階段,因此,數(shù)據(jù)挖掘技術(shù)應(yīng)用在花卉電子商務(wù)領(lǐng)域更具有應(yīng)用價值。本文針對花卉電子商務(wù)的行業(yè)特點,結(jié)合了爬蟲技術(shù)、數(shù)據(jù)庫技術(shù)、描述統(tǒng)計分析、文本挖掘和文本可視化技術(shù),以花卉電子商務(wù)為切入點,以中國網(wǎng)上花城網(wǎng)站為研究對象,透過鮮花產(chǎn)品相關(guān)因素的分析來了解花卉市場,分析該網(wǎng)站的銷售產(chǎn)品分類、價格、花語特點等,挖掘出網(wǎng)站產(chǎn)品的分類布局,產(chǎn)品價格配比分布、不同產(chǎn)品的花語特點等隱含數(shù)據(jù)信息,為花卉企業(yè)進行精準(zhǔn)營銷與決策提供數(shù)據(jù)支撐。本文通過介紹相關(guān)研究的背景與目的,概述相關(guān)研究的發(fā)展現(xiàn)狀與技術(shù),分別對數(shù)據(jù)抓取與存儲,數(shù)據(jù)整理,數(shù)據(jù)分析與文本挖掘三個階段進行研究,并給出經(jīng)過結(jié)構(gòu)化處理后存儲在MySQL數(shù)據(jù)庫的表結(jié)構(gòu)以及一些核心R語言程序算法的代碼。首先,本文通過對目標(biāo)花卉Web網(wǎng)站進行多層解析,使用XPath定位抽取相關(guān)的產(chǎn)品信息,存儲進MySQL數(shù)據(jù)庫中。然后,對半結(jié)構(gòu)化數(shù)據(jù)和文本數(shù)據(jù)進行數(shù)據(jù)整理。其中,半結(jié)構(gòu)化數(shù)據(jù)處理包括去除重復(fù)、去除噪音、數(shù)據(jù)類型轉(zhuǎn)換、缺失值處理等操作,文本數(shù)據(jù)預(yù)處理包括中文分詞、轉(zhuǎn)換文本和生成詞項-矩陣等操作。最后,數(shù)據(jù)分析與文本挖掘。對結(jié)構(gòu)化數(shù)據(jù)進行頻數(shù)分析與交叉分析,了解數(shù)據(jù)的基本分布特征,分析變量之間關(guān)系,使用卡方檢驗進行假設(shè)驗證。文本數(shù)據(jù)經(jīng)過文本預(yù)處理后,實施關(guān)聯(lián)分析與聚類分析,通過可視化技術(shù)展現(xiàn)詞云圖、詞項網(wǎng)絡(luò)圖和聚類樹狀圖,對結(jié)果進行概括總結(jié)。
【關(guān)鍵詞】:R XPath 數(shù)據(jù)抓取 Web數(shù)據(jù)挖掘 文本挖掘 文本可視化
【學(xué)位授予單位】:昆明理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.13
【目錄】:
  • 摘要6-7
  • Abstract7-11
  • 第一章 緒論11-17
  • 1.1 研究背景與目的11-12
  • 1.2 相關(guān)研究發(fā)展現(xiàn)狀12-15
  • 1.2.1 花卉電子商務(wù)研究12-14
  • 1.2.2 Web數(shù)據(jù)挖掘研究14-15
  • 1.3 研究內(nèi)容與結(jié)構(gòu)15-17
  • 1.3.1 主要研究內(nèi)容15-16
  • 1.3.2 結(jié)構(gòu)安排16-17
  • 第二章 技術(shù)概述17-25
  • 2.1 技術(shù)概述17-24
  • 2.1.1 R語言17-18
  • 2.1.2 HTML與XML18-20
  • 2.1.3 XPath概述20-22
  • 2.1.4 MySQL數(shù)據(jù)庫22-23
  • 2.1.5 jiebaR分詞23-24
  • 2.2 開發(fā)環(huán)境與軟件24-25
  • 第三章 數(shù)據(jù)抓取與存儲25-33
  • 3.1 流程框架25-27
  • 3.2 數(shù)據(jù)抓取27-29
  • 3.3 數(shù)據(jù)存儲29-32
  • 3.4 數(shù)據(jù)整理32-33
  • 第四章 數(shù)據(jù)分析33-49
  • 4.1 頻數(shù)分析33-42
  • 4.1.1 花材33-36
  • 4.1.2 送花對象36-39
  • 4.1.3 送花用途39-42
  • 4.2 交叉分析42-47
  • 4.2.1 卡方檢驗42-43
  • 4.2.2 花材和送花對象43-45
  • 4.2.3 花材和送花用途45-46
  • 4.2.4 送花對象和送花用途46-47
  • 4.3 本章小結(jié)47-49
  • 第五章 文本挖掘49-63
  • 5.1 文本挖掘概要49-50
  • 5.2 文本預(yù)處理50-54
  • 5.2.1 中文分詞和停用詞50-52
  • 5.2.2 轉(zhuǎn)換文本52
  • 5.2.3 建立詞項-文檔矩陣52-54
  • 5.3 文本分析54-60
  • 5.3.1 頻繁詞項與關(guān)聯(lián)54-56
  • 5.3.2 詞云圖56-58
  • 5.3.3 詞項網(wǎng)絡(luò)58-60
  • 5.4 聚類分析60-61
  • 5.4.1 詞項聚類60-61
  • 5.4.2 文本聚類61
  • 5.5 本章小結(jié)61-63
  • 第六章 總結(jié)和展望63-65
  • 6.1 本文總結(jié)63-64
  • 6.2 工作展望64-65
  • 致謝65-66
  • 參考文獻66-69
  • 附錄69
,

本文編號:546385

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/yingxiaoguanlilunwen/546385.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b6cfc***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com