基于Scrapy的電子商務(wù)網(wǎng)絡(luò)測量與網(wǎng)絡(luò)特征分析
本文關(guān)鍵詞:基于Scrapy的電子商務(wù)網(wǎng)絡(luò)測量與網(wǎng)絡(luò)特征分析,由筆耕文化傳播整理發(fā)布。
【摘要】:互聯(lián)網(wǎng)的廣泛使用和互聯(lián)網(wǎng)應(yīng)用的不斷豐富為電子商務(wù)蓬勃發(fā)展提供了良好的環(huán)境和契機。目前淘寶網(wǎng)是我國最具實力的個人對個人的網(wǎng)上交易網(wǎng)站,關(guān)于電子商務(wù)網(wǎng)絡(luò)特征的研究主要集中在淘寶網(wǎng)上,都是以電子商務(wù)的營銷為目的來剖析網(wǎng)上交易行為,主要包括信用評價體制、營銷策略、賣家銷售參數(shù)的統(tǒng)計分析等。本文將從圖論的角度來研究電子商務(wù)網(wǎng)絡(luò),首先通過數(shù)據(jù)抓取技術(shù)得到一個真實的網(wǎng)絡(luò)數(shù)據(jù)集,然后在該數(shù)據(jù)集上分析淘寶網(wǎng)的拓撲特征及其中用戶行為特點。目的是探究在線社會網(wǎng)絡(luò)中的用戶行為對網(wǎng)上交易的影響。主要工作包括以下三個方面: 第一,由于網(wǎng)絡(luò)規(guī)模非常龐大且網(wǎng)絡(luò)結(jié)構(gòu)非常復(fù)雜,引入抽樣技術(shù)成為大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)測量中不可缺少的環(huán)節(jié)。本文提出了一種適用于二分網(wǎng)絡(luò)的抽樣算法,該算法是通過理論推導(dǎo)和算法實現(xiàn)的適應(yīng)性修改將適用于普通圖的抽樣算法MHRW(Metropolis—Hastings Random Walk)算法推廣到二分圖上。MHRW算法是一種性能比較好的無偏的抽樣算法。為了驗證該算法在二分圖上的抽樣性能,本文分別在合成圖和實際網(wǎng)絡(luò)數(shù)據(jù)集上檢測MHRW算法的抽樣效果。 第二,本文選用Scrapy爬蟲框架作為爬取數(shù)據(jù)的工具。通過對淘寶網(wǎng)頁頁面格式的深入分析,結(jié)合BFS和MHRW兩種抽樣方法,在5臺PC上同時并發(fā)連續(xù)運行爬蟲程序30天,最終得到淘寶分享網(wǎng)絡(luò)的數(shù)據(jù)集。本文中列出了數(shù)據(jù)抓取過程中遇到的主要問題,并通過對問題本質(zhì)的剖析給出了最終的解決方法。為了分析分享平臺與賣家特性的關(guān)系,本文還抓取了淘寶網(wǎng)中服裝類所有賣家的信息。分析發(fā)現(xiàn):網(wǎng)絡(luò)中的商家存在短時間內(nèi)迅速崛起的現(xiàn)象,說明電子商務(wù)為新生的有強勁發(fā)展實力的賣家創(chuàng)造了良好的環(huán)境,為新創(chuàng)業(yè)者提供了一個較好的平臺。 第三,在淘寶分享平臺數(shù)據(jù)集上分析用戶行為特征。本文給出了所得數(shù)據(jù)集的規(guī)模參數(shù),分析了買家、寶貝、賣家三類節(jié)點的屬性特征,進一步給出了賣家與相連買家的各屬性之間的關(guān)系,最后討論了在買家分享網(wǎng)絡(luò)的特點。分析結(jié)果表明,淘寶分享網(wǎng)絡(luò)中買家和寶貝節(jié)點的度值大部分處于10~100之間;寶分享平臺本質(zhì)上是大買家為大賣家做廣告的一個平臺,而其他的中小買家的分享行為只是幫助大買家支撐著這個平臺,中小賣家也很少從這個分享平臺中獲益;最后發(fā)現(xiàn)相似買家的分享行為會有越來越相似的趨勢,并且這個概率隨著時間的推移逐漸增大,另外規(guī)模越大的買家團發(fā)生相同分享的概率也越大。
【關(guān)鍵詞】:電子商務(wù) 淘寶網(wǎng) 二分網(wǎng)絡(luò) 抽樣方法 MHRW Scrapy 用戶行為
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP393.09
【目錄】:
- 致謝5-6
- 中文摘要6-7
- ABSTRACT7-11
- 1 引言11-19
- 1.1 研究背景11-13
- 1.2 研究現(xiàn)狀13-15
- 1.3 研究意義15-16
- 1.4 論文主要工作及結(jié)構(gòu)安排16-19
- 2 電子商務(wù)網(wǎng)絡(luò)測量中的抽樣算法研究19-27
- 2.1 常見抽樣算法簡介19-20
- 2.2 MHRW算法在二分圖上的推廣20-22
- 2.2.1 算法推廣的理論基礎(chǔ)20-21
- 2.2.2 算法實現(xiàn)的適應(yīng)性修改21-22
- 2.3 MHRW算法抽樣結(jié)果測試22-26
- 2.3.1 關(guān)于抽樣比的討論22-23
- 2.3.2 合成圖抽樣性能23-25
- 2.3.3 實際網(wǎng)絡(luò)數(shù)據(jù)抽樣性能25-26
- 2.4 本章小結(jié)26-27
- 3 淘寶網(wǎng)數(shù)據(jù)爬取技術(shù)和爬取策略27-48
- 3.1 爬蟲技術(shù)簡介27-29
- 3.2 本文采用數(shù)據(jù)抓取技術(shù)29-34
- 3.2.1 Scrapy基本原理29-30
- 3.2.2 功能模塊定制30-34
- 3.3 測量中的問題及解決方法34-42
- 3.3.1 網(wǎng)頁動態(tài)數(shù)據(jù)提取問題34-37
- 3.3.2 存儲問題37
- 3.3.3 下一頁鏈接提取問題37-38
- 3.3.4 MHRW抽樣算法應(yīng)用問題38-41
- 3.3.5 測量頻率限制問題41
- 3.3.6 連續(xù)抓取的安全性問題41-42
- 3.4 大規(guī)模數(shù)據(jù)抓取策略42-43
- 3.4.1 抓取策略思路42
- 3.4.2 數(shù)據(jù)規(guī)模分析42-43
- 3.5 數(shù)據(jù)集描述43-47
- 3.5.1 據(jù)結(jié)構(gòu)描述43-45
- 3.5.2 所得數(shù)據(jù)集描述45-47
- 3.6 本章小結(jié)47-48
- 4 寶網(wǎng)用戶行為特征分析48-66
- 4.1 淘寶網(wǎng)體系結(jié)構(gòu)簡介48-50
- 4.2 淘寶網(wǎng)中賣家特征的分析50-51
- 4.3 淘寶分享網(wǎng)絡(luò)特征分析51-60
- 4.3.1 淘寶分享網(wǎng)絡(luò)拓撲特征分析52-54
- 4.3.2 分享平臺與賣家屬性相關(guān)分析54-57
- 4.3.3 分享平臺中兩類節(jié)點分享效果分析57-60
- 4.4 買家網(wǎng)絡(luò)特征分析60-64
- 4.4.1 買家網(wǎng)絡(luò)拓撲特征分析60-62
- 4.4.2 買家團參數(shù)分析62-63
- 4.4.3 買家團后續(xù)分享行為變化趨勢63-64
- 4.5 本章小結(jié)64-66
- 5 結(jié)論與展望66-68
- 5.1 全文總結(jié)66-67
- 5.2 未來展望67-68
- 參考文獻68-70
- 作者簡歷70-72
- 學(xué)位論文數(shù)據(jù)集72
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前6條
1 俞金國;王麗華;連顯淼;;電子商鋪空間分布規(guī)律及其影響因素探究——來自淘寶網(wǎng)的實證[J];地域研究與開發(fā);2010年06期
2 胡俠;;C2C電子商務(wù)信用評價方法探析——對比Ebay與淘寶[J];大眾標準化;2010年01期
3 鄭倩冰;朱培棟;王永文;徐明;;基于在線社會網(wǎng)絡(luò)的網(wǎng)絡(luò)協(xié)議增強機制研究[J];計算機科學(xué);2011年06期
4 李維安;吳德勝;徐皓;;網(wǎng)上交易中的聲譽機制——來自淘寶網(wǎng)的證據(jù)[J];南開管理評論;2007年05期
5 江耘;;網(wǎng)絡(luò)商業(yè)信用的價值 基于淘寶網(wǎng)交易評價的實證分析[J];商業(yè)時代;2010年32期
6 李曉虎;;淘寶網(wǎng)營銷模式研究[J];中國商貿(mào);2011年12期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 張宇;在線社會網(wǎng)絡(luò)信任計算與挖掘分析中若干模型與算法研究[D];浙江大學(xué);2009年
本文關(guān)鍵詞:基于Scrapy的電子商務(wù)網(wǎng)絡(luò)測量與網(wǎng)絡(luò)特征分析,由筆耕文化傳播整理發(fā)布。
,本文編號:409268
本文鏈接:http://sikaile.net/jingjilunwen/dianzishangwulunwen/409268.html