基于爬蟲與數(shù)據(jù)挖掘的電商頁面信息分析
【學(xué)位授予單位】:蘭州大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:F724.6;F274
【圖文】:
蘭州大學(xué)碩士學(xué)位論文 基于爬蟲與數(shù)據(jù)挖掘的電商頁面信息分析研究將分為四個(gè)部分,分別從數(shù)據(jù)的爬蟲獲取、數(shù)據(jù)庫存儲(chǔ)與提取、數(shù)據(jù)的簡單描述性分析和數(shù)據(jù)探究性分析展開,建立一套系統(tǒng)的研究方法.研究結(jié)構(gòu)如下圖 1.4.
往往短短的幾行命令便可以實(shí)現(xiàn)其他編程軟件數(shù)行的作用.從爬蟲的步驟來說明,前兩步獲取網(wǎng)頁源碼和解析源碼都需要使用到python的第三方庫,這里如圖2.3.1所示.例如在獲取數(shù)據(jù)方面,可以調(diào)用python的Requests庫、urllib包;而解析數(shù)據(jù)則可以使用Xpath包或者BeautifulSoup4庫;當(dāng)進(jìn)階到工程式爬蟲時(shí),則可以接觸 Python 的 Scrapy 框架,這是一款適用于滿足各種爬蟲需要并可以根據(jù)需求方便修改的第三方庫.這里不做過多介紹.如需了解可參考文獻(xiàn)[20].圖 2.3
2.3.3 非關(guān)系型數(shù)據(jù)庫 MongoDB隨著海量數(shù)據(jù)的產(chǎn)生,傳統(tǒng)的文本文件保存方式已經(jīng)不能滿足日常的需要,并不是只有企業(yè)才需要數(shù)據(jù)庫,對(duì)于一名數(shù)據(jù)研究人員,或想要從事數(shù)據(jù)研究的業(yè)余愛好者,掌握一門數(shù)據(jù)庫都是很明智的選擇.相比與 SQL、Oracle 等大型數(shù)據(jù)庫,MongoDB 是一個(gè)集開源、高性能、可分布式等多種優(yōu)點(diǎn)于一身的文檔型非關(guān)系數(shù)據(jù)庫,非常適合于爬蟲數(shù)據(jù)的存儲(chǔ).而Python 也有與之匹配的第三方庫 pymongo 可以通過簡單的命令存儲(chǔ)數(shù)據(jù).基于 Python 的相關(guān)安裝:(1)首先需要安裝 MongoDB 的數(shù)據(jù)庫,可以選擇性安裝其可視化工具RoboMongo 便于查看數(shù)據(jù).(2)安裝用于操作 MongoDB 的 Python 的第三方庫 pymongo.(3)推薦使用 Python 的編譯器 Pycharm,界面簡單同時(shí)編程時(shí)有各種輔助性提示方便操作,其擁有 MongoDB 的插件更是可以對(duì) MongoDB 進(jìn)行可視化操作.插件名為 Mongo Plugin.
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 趙雅菲;;數(shù)據(jù)挖掘?qū)﹄娚唐脚_(tái)的影響[J];現(xiàn)代營銷(下旬刊);2017年06期
2 劉宇;鄭成煥;;基于Scrapy的深層網(wǎng)絡(luò)爬蟲研究[J];軟件;2017年07期
3 王寶義;;中國電子商務(wù)網(wǎng)絡(luò)零售產(chǎn)業(yè)演進(jìn)、競(jìng)爭態(tài)勢(shì)及發(fā)展趨勢(shì)[J];中國流通經(jīng)濟(jì);2017年04期
4 沈靜;;淺析中文分詞方法[J];漳州職業(yè)技術(shù)學(xué)院學(xué)報(bào);2016年03期
5 畢晨磊;王露露;楊進(jìn);張瑩;;從“雙十一”網(wǎng)購盛宴看中國電商發(fā)展[J];商;2015年03期
6 成功;李小正;趙全軍;;一種網(wǎng)絡(luò)爬蟲系統(tǒng)中URL去重方法的研究[J];中國新技術(shù)新產(chǎn)品;2014年12期
7 董日壯;郭曙超;;網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦知識(shí)與技術(shù);2014年17期
8 翟東海;魚江;高飛;于磊;丁鋒;;最大距離法選取初始簇中心的K-means文本聚類算法的研究[J];計(jì)算機(jī)應(yīng)用研究;2014年03期
9 崔建明;劉建明;廖周宇;;基于SVM算法的文本分類技術(shù)研究[J];計(jì)算機(jī)仿真;2013年02期
10 陸雄文;褚榮偉;;國外電子商務(wù)發(fā)展的比較及啟示[J];市場(chǎng)營銷導(dǎo)刊;2005年04期
相關(guān)會(huì)議論文 前1條
1 楊超;李仁發(fā);蔣斌;;一種高效的漢語自動(dòng)分詞詞典機(jī)制[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年
相關(guān)碩士學(xué)位論文 前4條
1 安子建;基于Scrapy框架的網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)與數(shù)據(jù)抓取分析[D];吉林大學(xué);2017年
2 周海晨;基于爬蟲與文本挖掘的“985”高校圖書館微信公眾號(hào)的調(diào)研[D];安徽大學(xué);2017年
3 范佳健;微博評(píng)論信息的聚類分析[D];安徽大學(xué);2017年
4 張睿;基于k-means的中文文本聚類算法的研究與實(shí)現(xiàn)[D];西北大學(xué);2009年
本文編號(hào):2771383
本文鏈接:http://sikaile.net/jingjilunwen/dianzishangwulunwen/2771383.html