當(dāng)前位置：主頁 > 經(jīng)濟(jì)論文 > 電子商務(wù)論文 >

基于爬蟲與數(shù)據(jù)挖掘的電商頁面信息分析

發(fā)布時(shí)間：2020-07-26 22:31

【摘要】：隨著互聯(lián)網(wǎng)產(chǎn)業(yè)的迅猛發(fā)展,計(jì)算機(jī)相關(guān)技術(shù)的跳躍式演變以及行業(yè)規(guī)模的不斷擴(kuò)大創(chuàng)新.電子商務(wù)從最初的不被信任到現(xiàn)在動(dòng)動(dòng)手指就可購物,電商平臺(tái)對(duì)老百姓生活產(chǎn)生的影響不言而喻.2017年“雙十一”這天,淘寶網(wǎng)單日平臺(tái)交易額突破了1682億人民幣,人民的日常生活早已離不開電子商務(wù)平臺(tái).在電商平臺(tái)的網(wǎng)絡(luò)交易中,消費(fèi)者可以通過瀏覽商品網(wǎng)頁獲取商品的各類信息,以此決定是否購買,而這些信息又可以為市場(chǎng)和營銷帶來更好的轉(zhuǎn)變機(jī)會(huì).因此,本文將結(jié)合爬蟲技術(shù)與相應(yīng)的數(shù)據(jù)挖掘方法對(duì)電商的網(wǎng)頁信息進(jìn)行采集與探究性分析,期望構(gòu)建一套從數(shù)據(jù)提取到數(shù)據(jù)挖掘的系統(tǒng)性研究方法,幫助店家及消費(fèi)者更好的探究需求,并為豐富電子商務(wù)市場(chǎng)營銷策劃提供參考.從消費(fèi)人群來看,80、90后年齡段的消費(fèi)者占比近八成多,是電子商務(wù)消費(fèi)的核心主導(dǎo)力量,而該階段的消費(fèi)者都要經(jīng)歷面試及就業(yè),因此選用西裝為研究對(duì)象很具有代表性.本文通過搭建web自動(dòng)化爬蟲框架獲取了淘寶網(wǎng)西裝商品全部共8000多家網(wǎng)店的網(wǎng)頁信息,并通過對(duì)數(shù)據(jù)信息檢查選擇出最適合該類數(shù)據(jù)的數(shù)據(jù)挖掘方法.最終決定使用描述性分析與回歸分析、文本聚類分析相結(jié)合的研究方法,探索其潛在的數(shù)據(jù)價(jià)值,從而為飛速發(fā)展的電商產(chǎn)業(yè)提供系統(tǒng)優(yōu)質(zhì)的數(shù)據(jù)挖掘技術(shù)支持.本文主要工作分為六個(gè)部分:第一部分:緒論,主要闡述研究的背景、綜述、研究的內(nèi)容與結(jié)構(gòu)安排.第二部分:數(shù)據(jù)提取與存儲(chǔ)的方法介紹,簡單闡述了需要使用的工具及其優(yōu)缺點(diǎn),為數(shù)據(jù)爬取奠定基礎(chǔ).第三部分:網(wǎng)頁信息的處理方法,分別講述了有關(guān)商品銷售量的多元回歸分析模型及對(duì)網(wǎng)頁信息采用的“無監(jiān)督學(xué)習(xí)”文本聚類方法.第四部分:K-Means算法的展開,從數(shù)據(jù)預(yù)處理、向量空間模型(VSM)、IDFTF-算法、與引用慣性權(quán)重的K-Means評(píng)價(jià)等詳細(xì)記錄了算法的實(shí)現(xiàn)流程.第五部分:實(shí)證部分,從環(huán)境配置、數(shù)據(jù)獲取與存儲(chǔ)、描述性分析、回歸分析、文本聚類各環(huán)節(jié)構(gòu)建一套系統(tǒng)的數(shù)據(jù)探究方法,最大化探索數(shù)據(jù)價(jià)值以達(dá)到研究目的.第六部分:總結(jié)與展望.為電商網(wǎng)頁信息的數(shù)據(jù)挖掘及市場(chǎng)發(fā)展提供參考性建議支持.
【學(xué)位授予單位】：蘭州大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2018
【分類號(hào)】：F724.6;F274
【圖文】：

流程圖,系統(tǒng)性研究,流程圖

蘭州大學(xué)碩士學(xué)位論文基于爬蟲與數(shù)據(jù)挖掘的電商頁面信息分析研究將分為四個(gè)部分,分別從數(shù)據(jù)的爬蟲獲取、數(shù)據(jù)庫存儲(chǔ)與提取、數(shù)據(jù)的簡單描述性分析和數(shù)據(jù)探究性分析展開,建立一套系統(tǒng)的研究方法.研究結(jié)構(gòu)如下圖 1.4.

過程圖,第三方,過程,源碼

往往短短的幾行命令便可以實(shí)現(xiàn)其他編程軟件數(shù)行的作用.從爬蟲的步驟來說明,前兩步獲取網(wǎng)頁源碼和解析源碼都需要使用到python的第三方庫,這里如圖2.3.1所示.例如在獲取數(shù)據(jù)方面,可以調(diào)用python的Requests庫、urllib包；而解析數(shù)據(jù)則可以使用Xpath包或者BeautifulSoup4庫；當(dāng)進(jìn)階到工程式爬蟲時(shí),則可以接觸 Python 的 Scrapy 框架,這是一款適用于滿足各種爬蟲需要并可以根據(jù)需求方便修改的第三方庫.這里不做過多介紹.如需了解可參考文獻(xiàn)[20].圖 2.3

可視化界面

2.3.3 非關(guān)系型數(shù)據(jù)庫 MongoDB隨著海量數(shù)據(jù)的產(chǎn)生,傳統(tǒng)的文本文件保存方式已經(jīng)不能滿足日常的需要,并不是只有企業(yè)才需要數(shù)據(jù)庫,對(duì)于一名數(shù)據(jù)研究人員,或想要從事數(shù)據(jù)研究的業(yè)余愛好者,掌握一門數(shù)據(jù)庫都是很明智的選擇.相比與 SQL、Oracle 等大型數(shù)據(jù)庫,MongoDB 是一個(gè)集開源、高性能、可分布式等多種優(yōu)點(diǎn)于一身的文檔型非關(guān)系數(shù)據(jù)庫,非常適合于爬蟲數(shù)據(jù)的存儲(chǔ).而Python 也有與之匹配的第三方庫 pymongo 可以通過簡單的命令存儲(chǔ)數(shù)據(jù).基于 Python 的相關(guān)安裝:（1）首先需要安裝 MongoDB 的數(shù)據(jù)庫,可以選擇性安裝其可視化工具RoboMongo 便于查看數(shù)據(jù).（2）安裝用于操作 MongoDB 的 Python 的第三方庫 pymongo.（3）推薦使用 Python 的編譯器 Pycharm,界面簡單同時(shí)編程時(shí)有各種輔助性提示方便操作,其擁有 MongoDB 的插件更是可以對(duì) MongoDB 進(jìn)行可視化操作.插件名為 Mongo Plugin.

【參考文獻(xiàn)】

相關(guān)期刊論文前10條

1 趙雅菲;;數(shù)據(jù)挖掘?qū)﹄娚唐脚_(tái)的影響[J];現(xiàn)代營銷(下旬刊);2017年06期

2 劉宇;鄭成煥;;基于Scrapy的深層網(wǎng)絡(luò)爬蟲研究[J];軟件;2017年07期

3 王寶義;;中國電子商務(wù)網(wǎng)絡(luò)零售產(chǎn)業(yè)演進(jìn)、競(jìng)爭態(tài)勢(shì)及發(fā)展趨勢(shì)[J];中國流通經(jīng)濟(jì);2017年04期

4 沈靜;;淺析中文分詞方法[J];漳州職業(yè)技術(shù)學(xué)院學(xué)報(bào);2016年03期

5 畢晨磊;王露露;楊進(jìn);張瑩;;從“雙十一”網(wǎng)購盛宴看中國電商發(fā)展[J];商;2015年03期

6 成功;李小正;趙全軍;;一種網(wǎng)絡(luò)爬蟲系統(tǒng)中URL去重方法的研究[J];中國新技術(shù)新產(chǎn)品;2014年12期

7 董日壯;郭曙超;;網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦知識(shí)與技術(shù);2014年17期

8 翟東海;魚江;高飛;于磊;丁鋒;;最大距離法選取初始簇中心的K-means文本聚類算法的研究[J];計(jì)算機(jī)應(yīng)用研究;2014年03期

9 崔建明;劉建明;廖周宇;;基于SVM算法的文本分類技術(shù)研究[J];計(jì)算機(jī)仿真;2013年02期

10 陸雄文;褚榮偉;;國外電子商務(wù)發(fā)展的比較及啟示[J];市場(chǎng)營銷導(dǎo)刊;2005年04期

相關(guān)會(huì)議論文前1條

1 楊超;李仁發(fā);蔣斌;;一種高效的漢語自動(dòng)分詞詞典機(jī)制[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年

相關(guān)碩士學(xué)位論文前4條

1 安子建;基于Scrapy框架的網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)與數(shù)據(jù)抓取分析[D];吉林大學(xué);2017年

2 周海晨;基于爬蟲與文本挖掘的“985”高校圖書館微信公眾號(hào)的調(diào)研[D];安徽大學(xué);2017年

3 范佳健;微博評(píng)論信息的聚類分析[D];安徽大學(xué);2017年

4 張睿;基于k-means的中文文本聚類算法的研究與實(shí)現(xiàn)[D];西北大學(xué);2009年

本文編號(hào)：2771383

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/jingjilunwen/dianzishangwulunwen/2771383.html

上一篇：網(wǎng)絡(luò)在線評(píng)論對(duì)偏好反轉(zhuǎn)的影響模式研究
下一篇：C2C環(huán)境下在線評(píng)論對(duì)消費(fèi)者購買意愿的影響研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于爬蟲與數(shù)據(jù)挖掘的電商頁面信息分析