天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于爬蟲(chóng)與數(shù)據(jù)挖掘的電商頁(yè)面信息分析

發(fā)布時(shí)間:2020-07-26 22:31
【摘要】:隨著互聯(lián)網(wǎng)產(chǎn)業(yè)的迅猛發(fā)展,計(jì)算機(jī)相關(guān)技術(shù)的跳躍式演變以及行業(yè)規(guī)模的不斷擴(kuò)大創(chuàng)新.電子商務(wù)從最初的不被信任到現(xiàn)在動(dòng)動(dòng)手指就可購(gòu)物,電商平臺(tái)對(duì)老百姓生活產(chǎn)生的影響不言而喻.2017年“雙十一”這天,淘寶網(wǎng)單日平臺(tái)交易額突破了1682億人民幣,人民的日常生活早已離不開(kāi)電子商務(wù)平臺(tái).在電商平臺(tái)的網(wǎng)絡(luò)交易中,消費(fèi)者可以通過(guò)瀏覽商品網(wǎng)頁(yè)獲取商品的各類(lèi)信息,以此決定是否購(gòu)買(mǎi),而這些信息又可以為市場(chǎng)和營(yíng)銷(xiāo)帶來(lái)更好的轉(zhuǎn)變機(jī)會(huì).因此,本文將結(jié)合爬蟲(chóng)技術(shù)與相應(yīng)的數(shù)據(jù)挖掘方法對(duì)電商的網(wǎng)頁(yè)信息進(jìn)行采集與探究性分析,期望構(gòu)建一套從數(shù)據(jù)提取到數(shù)據(jù)挖掘的系統(tǒng)性研究方法,幫助店家及消費(fèi)者更好的探究需求,并為豐富電子商務(wù)市場(chǎng)營(yíng)銷(xiāo)策劃提供參考.從消費(fèi)人群來(lái)看,80、90后年齡段的消費(fèi)者占比近八成多,是電子商務(wù)消費(fèi)的核心主導(dǎo)力量,而該階段的消費(fèi)者都要經(jīng)歷面試及就業(yè),因此選用西裝為研究對(duì)象很具有代表性.本文通過(guò)搭建web自動(dòng)化爬蟲(chóng)框架獲取了淘寶網(wǎng)西裝商品全部共8000多家網(wǎng)店的網(wǎng)頁(yè)信息,并通過(guò)對(duì)數(shù)據(jù)信息檢查選擇出最適合該類(lèi)數(shù)據(jù)的數(shù)據(jù)挖掘方法.最終決定使用描述性分析與回歸分析、文本聚類(lèi)分析相結(jié)合的研究方法,探索其潛在的數(shù)據(jù)價(jià)值,從而為飛速發(fā)展的電商產(chǎn)業(yè)提供系統(tǒng)優(yōu)質(zhì)的數(shù)據(jù)挖掘技術(shù)支持.本文主要工作分為六個(gè)部分:第一部分:緒論,主要闡述研究的背景、綜述、研究的內(nèi)容與結(jié)構(gòu)安排.第二部分:數(shù)據(jù)提取與存儲(chǔ)的方法介紹,簡(jiǎn)單闡述了需要使用的工具及其優(yōu)缺點(diǎn),為數(shù)據(jù)爬取奠定基礎(chǔ).第三部分:網(wǎng)頁(yè)信息的處理方法,分別講述了有關(guān)商品銷(xiāo)售量的多元回歸分析模型及對(duì)網(wǎng)頁(yè)信息采用的“無(wú)監(jiān)督學(xué)習(xí)”文本聚類(lèi)方法.第四部分:K-Means算法的展開(kāi),從數(shù)據(jù)預(yù)處理、向量空間模型(VSM)、IDFTF-算法、與引用慣性權(quán)重的K-Means評(píng)價(jià)等詳細(xì)記錄了算法的實(shí)現(xiàn)流程.第五部分:實(shí)證部分,從環(huán)境配置、數(shù)據(jù)獲取與存儲(chǔ)、描述性分析、回歸分析、文本聚類(lèi)各環(huán)節(jié)構(gòu)建一套系統(tǒng)的數(shù)據(jù)探究方法,最大化探索數(shù)據(jù)價(jià)值以達(dá)到研究目的.第六部分:總結(jié)與展望.為電商網(wǎng)頁(yè)信息的數(shù)據(jù)挖掘及市場(chǎng)發(fā)展提供參考性建議支持.
【學(xué)位授予單位】:蘭州大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類(lèi)號(hào)】:F724.6;F274
【圖文】:

流程圖,系統(tǒng)性研究,流程圖


蘭州大學(xué)碩士學(xué)位論文 基于爬蟲(chóng)與數(shù)據(jù)挖掘的電商頁(yè)面信息分析研究將分為四個(gè)部分,分別從數(shù)據(jù)的爬蟲(chóng)獲取、數(shù)據(jù)庫(kù)存儲(chǔ)與提取、數(shù)據(jù)的簡(jiǎn)單描述性分析和數(shù)據(jù)探究性分析展開(kāi),建立一套系統(tǒng)的研究方法.研究結(jié)構(gòu)如下圖 1.4.

過(guò)程圖,第三方,過(guò)程,源碼


往往短短的幾行命令便可以實(shí)現(xiàn)其他編程軟件數(shù)行的作用.從爬蟲(chóng)的步驟來(lái)說(shuō)明,前兩步獲取網(wǎng)頁(yè)源碼和解析源碼都需要使用到python的第三方庫(kù),這里如圖2.3.1所示.例如在獲取數(shù)據(jù)方面,可以調(diào)用python的Requests庫(kù)、urllib包;而解析數(shù)據(jù)則可以使用Xpath包或者BeautifulSoup4庫(kù);當(dāng)進(jìn)階到工程式爬蟲(chóng)時(shí),則可以接觸 Python 的 Scrapy 框架,這是一款適用于滿(mǎn)足各種爬蟲(chóng)需要并可以根據(jù)需求方便修改的第三方庫(kù).這里不做過(guò)多介紹.如需了解可參考文獻(xiàn)[20].圖 2.3

可視化界面


2.3.3 非關(guān)系型數(shù)據(jù)庫(kù) MongoDB隨著海量數(shù)據(jù)的產(chǎn)生,傳統(tǒng)的文本文件保存方式已經(jīng)不能滿(mǎn)足日常的需要,并不是只有企業(yè)才需要數(shù)據(jù)庫(kù),對(duì)于一名數(shù)據(jù)研究人員,或想要從事數(shù)據(jù)研究的業(yè)余愛(ài)好者,掌握一門(mén)數(shù)據(jù)庫(kù)都是很明智的選擇.相比與 SQL、Oracle 等大型數(shù)據(jù)庫(kù),MongoDB 是一個(gè)集開(kāi)源、高性能、可分布式等多種優(yōu)點(diǎn)于一身的文檔型非關(guān)系數(shù)據(jù)庫(kù),非常適合于爬蟲(chóng)數(shù)據(jù)的存儲(chǔ).而Python 也有與之匹配的第三方庫(kù) pymongo 可以通過(guò)簡(jiǎn)單的命令存儲(chǔ)數(shù)據(jù).基于 Python 的相關(guān)安裝:(1)首先需要安裝 MongoDB 的數(shù)據(jù)庫(kù),可以選擇性安裝其可視化工具RoboMongo 便于查看數(shù)據(jù).(2)安裝用于操作 MongoDB 的 Python 的第三方庫(kù) pymongo.(3)推薦使用 Python 的編譯器 Pycharm,界面簡(jiǎn)單同時(shí)編程時(shí)有各種輔助性提示方便操作,其擁有 MongoDB 的插件更是可以對(duì) MongoDB 進(jìn)行可視化操作.插件名為 Mongo Plugin.

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 趙雅菲;;數(shù)據(jù)挖掘?qū)﹄娚唐脚_(tái)的影響[J];現(xiàn)代營(yíng)銷(xiāo)(下旬刊);2017年06期

2 劉宇;鄭成煥;;基于Scrapy的深層網(wǎng)絡(luò)爬蟲(chóng)研究[J];軟件;2017年07期

3 王寶義;;中國(guó)電子商務(wù)網(wǎng)絡(luò)零售產(chǎn)業(yè)演進(jìn)、競(jìng)爭(zhēng)態(tài)勢(shì)及發(fā)展趨勢(shì)[J];中國(guó)流通經(jīng)濟(jì);2017年04期

4 沈靜;;淺析中文分詞方法[J];漳州職業(yè)技術(shù)學(xué)院學(xué)報(bào);2016年03期

5 畢晨磊;王露露;楊進(jìn);張瑩;;從“雙十一”網(wǎng)購(gòu)盛宴看中國(guó)電商發(fā)展[J];商;2015年03期

6 成功;李小正;趙全軍;;一種網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)中URL去重方法的研究[J];中國(guó)新技術(shù)新產(chǎn)品;2014年12期

7 董日壯;郭曙超;;網(wǎng)絡(luò)爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦知識(shí)與技術(shù);2014年17期

8 翟東海;魚(yú)江;高飛;于磊;丁鋒;;最大距離法選取初始簇中心的K-means文本聚類(lèi)算法的研究[J];計(jì)算機(jī)應(yīng)用研究;2014年03期

9 崔建明;劉建明;廖周宇;;基于SVM算法的文本分類(lèi)技術(shù)研究[J];計(jì)算機(jī)仿真;2013年02期

10 陸雄文;褚榮偉;;國(guó)外電子商務(wù)發(fā)展的比較及啟示[J];市場(chǎng)營(yíng)銷(xiāo)導(dǎo)刊;2005年04期

相關(guān)會(huì)議論文 前1條

1 楊超;李仁發(fā);蔣斌;;一種高效的漢語(yǔ)自動(dòng)分詞詞典機(jī)制[A];NCIRCS2004第一屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年

相關(guān)碩士學(xué)位論文 前4條

1 安子建;基于Scrapy框架的網(wǎng)絡(luò)爬蟲(chóng)實(shí)現(xiàn)與數(shù)據(jù)抓取分析[D];吉林大學(xué);2017年

2 周海晨;基于爬蟲(chóng)與文本挖掘的“985”高校圖書(shū)館微信公眾號(hào)的調(diào)研[D];安徽大學(xué);2017年

3 范佳健;微博評(píng)論信息的聚類(lèi)分析[D];安徽大學(xué);2017年

4 張睿;基于k-means的中文文本聚類(lèi)算法的研究與實(shí)現(xiàn)[D];西北大學(xué);2009年



本文編號(hào):2771383

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/jingjilunwen/dianzishangwulunwen/2771383.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)2ee2d***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
色婷婷国产熟妇人妻露脸| 久久黄片免费播放大全| 国产av大片一区二区三区 | 亚洲国产精品久久综合网| 激情综合网俺也狠狠地| 一区二区三区日本高清| 日本理论片午夜在线观看| 国产欧美精品对白性色| 99福利一区二区视频| 欧美日韩国产免费看黄片| 成在线人免费视频一区二区| 国产精品欧美激情在线| 国产盗摄精品一区二区视频| 情一色一区二区三区四| 国产内射一级二级三级| 台湾综合熟女一区二区| 欧美日韩国产成人高潮| 国产精品内射婷婷一级二级| 欧美人妻免费一区二区三区| 国产又粗又猛又黄又爽视频免费| 亚洲三级视频在线观看免费| 午夜午夜精品一区二区| 国产精品免费视频视频| 我的性感妹妹在线观看| 欧美小黄片在线一级观看| 日韩中文字幕视频在线高清版| 中文字幕亚洲精品在线播放| 亚洲av秘片一区二区三区| 日韩免费成人福利在线| 99在线视频精品免费播放| 精品国产亚洲av成人一区| 初尝人妻少妇中文字幕在线| 又黄又色又爽又免费的视频| 国产不卡一区二区四区| 青青操在线视频精品视频| 国产一区二区三区色噜噜| 六月丁香六月综合缴情| 东京不热免费观看日本| 欧美老太太性生活大片| 办公室丝袜高跟秘书国产| 91日韩欧美在线视频|