基于爬蟲(chóng)與數(shù)據(jù)挖掘的電商頁(yè)面信息分析
【學(xué)位授予單位】:蘭州大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類(lèi)號(hào)】:F724.6;F274
【圖文】:
蘭州大學(xué)碩士學(xué)位論文 基于爬蟲(chóng)與數(shù)據(jù)挖掘的電商頁(yè)面信息分析研究將分為四個(gè)部分,分別從數(shù)據(jù)的爬蟲(chóng)獲取、數(shù)據(jù)庫(kù)存儲(chǔ)與提取、數(shù)據(jù)的簡(jiǎn)單描述性分析和數(shù)據(jù)探究性分析展開(kāi),建立一套系統(tǒng)的研究方法.研究結(jié)構(gòu)如下圖 1.4.
往往短短的幾行命令便可以實(shí)現(xiàn)其他編程軟件數(shù)行的作用.從爬蟲(chóng)的步驟來(lái)說(shuō)明,前兩步獲取網(wǎng)頁(yè)源碼和解析源碼都需要使用到python的第三方庫(kù),這里如圖2.3.1所示.例如在獲取數(shù)據(jù)方面,可以調(diào)用python的Requests庫(kù)、urllib包;而解析數(shù)據(jù)則可以使用Xpath包或者BeautifulSoup4庫(kù);當(dāng)進(jìn)階到工程式爬蟲(chóng)時(shí),則可以接觸 Python 的 Scrapy 框架,這是一款適用于滿(mǎn)足各種爬蟲(chóng)需要并可以根據(jù)需求方便修改的第三方庫(kù).這里不做過(guò)多介紹.如需了解可參考文獻(xiàn)[20].圖 2.3
2.3.3 非關(guān)系型數(shù)據(jù)庫(kù) MongoDB隨著海量數(shù)據(jù)的產(chǎn)生,傳統(tǒng)的文本文件保存方式已經(jīng)不能滿(mǎn)足日常的需要,并不是只有企業(yè)才需要數(shù)據(jù)庫(kù),對(duì)于一名數(shù)據(jù)研究人員,或想要從事數(shù)據(jù)研究的業(yè)余愛(ài)好者,掌握一門(mén)數(shù)據(jù)庫(kù)都是很明智的選擇.相比與 SQL、Oracle 等大型數(shù)據(jù)庫(kù),MongoDB 是一個(gè)集開(kāi)源、高性能、可分布式等多種優(yōu)點(diǎn)于一身的文檔型非關(guān)系數(shù)據(jù)庫(kù),非常適合于爬蟲(chóng)數(shù)據(jù)的存儲(chǔ).而Python 也有與之匹配的第三方庫(kù) pymongo 可以通過(guò)簡(jiǎn)單的命令存儲(chǔ)數(shù)據(jù).基于 Python 的相關(guān)安裝:(1)首先需要安裝 MongoDB 的數(shù)據(jù)庫(kù),可以選擇性安裝其可視化工具RoboMongo 便于查看數(shù)據(jù).(2)安裝用于操作 MongoDB 的 Python 的第三方庫(kù) pymongo.(3)推薦使用 Python 的編譯器 Pycharm,界面簡(jiǎn)單同時(shí)編程時(shí)有各種輔助性提示方便操作,其擁有 MongoDB 的插件更是可以對(duì) MongoDB 進(jìn)行可視化操作.插件名為 Mongo Plugin.
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 趙雅菲;;數(shù)據(jù)挖掘?qū)﹄娚唐脚_(tái)的影響[J];現(xiàn)代營(yíng)銷(xiāo)(下旬刊);2017年06期
2 劉宇;鄭成煥;;基于Scrapy的深層網(wǎng)絡(luò)爬蟲(chóng)研究[J];軟件;2017年07期
3 王寶義;;中國(guó)電子商務(wù)網(wǎng)絡(luò)零售產(chǎn)業(yè)演進(jìn)、競(jìng)爭(zhēng)態(tài)勢(shì)及發(fā)展趨勢(shì)[J];中國(guó)流通經(jīng)濟(jì);2017年04期
4 沈靜;;淺析中文分詞方法[J];漳州職業(yè)技術(shù)學(xué)院學(xué)報(bào);2016年03期
5 畢晨磊;王露露;楊進(jìn);張瑩;;從“雙十一”網(wǎng)購(gòu)盛宴看中國(guó)電商發(fā)展[J];商;2015年03期
6 成功;李小正;趙全軍;;一種網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)中URL去重方法的研究[J];中國(guó)新技術(shù)新產(chǎn)品;2014年12期
7 董日壯;郭曙超;;網(wǎng)絡(luò)爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦知識(shí)與技術(shù);2014年17期
8 翟東海;魚(yú)江;高飛;于磊;丁鋒;;最大距離法選取初始簇中心的K-means文本聚類(lèi)算法的研究[J];計(jì)算機(jī)應(yīng)用研究;2014年03期
9 崔建明;劉建明;廖周宇;;基于SVM算法的文本分類(lèi)技術(shù)研究[J];計(jì)算機(jī)仿真;2013年02期
10 陸雄文;褚榮偉;;國(guó)外電子商務(wù)發(fā)展的比較及啟示[J];市場(chǎng)營(yíng)銷(xiāo)導(dǎo)刊;2005年04期
相關(guān)會(huì)議論文 前1條
1 楊超;李仁發(fā);蔣斌;;一種高效的漢語(yǔ)自動(dòng)分詞詞典機(jī)制[A];NCIRCS2004第一屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年
相關(guān)碩士學(xué)位論文 前4條
1 安子建;基于Scrapy框架的網(wǎng)絡(luò)爬蟲(chóng)實(shí)現(xiàn)與數(shù)據(jù)抓取分析[D];吉林大學(xué);2017年
2 周海晨;基于爬蟲(chóng)與文本挖掘的“985”高校圖書(shū)館微信公眾號(hào)的調(diào)研[D];安徽大學(xué);2017年
3 范佳健;微博評(píng)論信息的聚類(lèi)分析[D];安徽大學(xué);2017年
4 張睿;基于k-means的中文文本聚類(lèi)算法的研究與實(shí)現(xiàn)[D];西北大學(xué);2009年
本文編號(hào):2771383
本文鏈接:http://sikaile.net/jingjilunwen/dianzishangwulunwen/2771383.html