電子商務環(huán)境中異常數據應用研究
本文關鍵詞:電子商務環(huán)境中異常數據應用研究,由筆耕文化傳播整理發(fā)布。
【摘要】:異常檢測作為數據挖掘的重要部分,其應用不已僅僅是數據采集方面,在科學研究、股票、金融、保險、電信和Internet等領域都有廣泛的應用。網絡和電子商務的飛速發(fā)展,使得電子商務企業(yè)積累了大量的客戶資料,電子商務企業(yè)迫切需要從大量的數據中挖掘出企業(yè)急需的知識和信息,異常數據就是其中重要的一部分,對這些異常數據不夠重視或者視為錯誤來處理,很可能會遺漏很多重要的信息,這些異常數據往往能為企業(yè)帶來大量的利潤。本文圍繞電子商務環(huán)境下異常檢測的關鍵技術展開,主要論述異常檢測在電子商務領域的應用,并以B公司為實例進行實證研究,進行電子商務環(huán)境下異常檢測在客戶關系管理中的應用研究。主要包括以下幾點: 1.對異常檢測的相關理論進行了詳細的分析。本文對異常值、異常檢測進行了概念界定,并對異常檢測定義和相關算法的國內外研究現(xiàn)狀進行了歸納和總結,在比較各種算法的優(yōu)點和缺點后,最后選取基于距離的異常檢測算法作為本文實證部分的算法。 2.構建了B網絡搜索公司的異常客戶檢測指標體系。設置了15個指標從過去價值、當前價值、潛在價值、行為日志數據、推廣方案數據幾個的方面反映客戶信息,,應用因子分析法從指標體系中篩選出影響客戶綜合得分的最重要的六個指標,這六個指標也是影響客戶異常的最重要指標。在分析異?蛻舫霈F(xiàn)異常原因的時候,結合實際證明本研究得到的這六個指標的解釋力足夠。 3.選取了基于距離的異常檢測算法和因子分析法進行實證分析。依據設計好的指標體系,對B司的50個客戶進行基于距離的異常檢測,得到02、21、23和29四個異常客戶。應用拉依達準則對客戶主因子綜合得分進行異常判定,所得結果與基于距離的異常檢測算法進行對照,發(fā)現(xiàn)有21和23兩個客戶是相同的,而其他客戶結果不一致。 4.針對各個異?蛻暨M行甄別和異常原因的分析,并制定相應的管理和營銷策略。對基于距離的異常檢測算法和因子分析法挖掘出的兩個異?蛻簦Y合實際情況進行分析,找出導致異常的原因,根據這些原因制定相應的應對策略。對于兩種算法不一致的02、29個客戶,最后判定為異常客戶,確定基于距離的異常檢測解釋力更強。同時,對得到主因子綜合得分較高的20、24客戶和綜合得分最低的14、16客戶進行分析,經過分析證明這四個客戶不是異?蛻,同時也給出了一些管理建議。
【關鍵詞】:電子商務 數據挖掘 異常檢測 因子分析
【學位授予單位】:蘭州交通大學
【學位級別】:碩士
【學位授予年份】:2013
【分類號】:TP311.13
【目錄】:
- 摘要4-5
- Abstract5-9
- 1 緒論9-13
- 1.1 背景與意義9-11
- 1.1.1 背景9-10
- 1.1.2 電子商務環(huán)境下異常數據研究的意義10-11
- 1.2 論文的主要工作11-12
- 1.3 本文的章節(jié)設置12-13
- 2 異常檢測概述13-18
- 2.1 異常檢測的概念界定13-14
- 2.2 產生異常數據的原因14-15
- 2.3 異常檢測的電子商務應用15-18
- 2.3.1 異常檢測在證券股票分析中的運用15-16
- 2.3.2 異常檢測在電子商務欺詐中的運用16
- 2.3.3 異常檢測在客戶關系管理中的運用16-18
- 3 異常檢測算法研究綜述18-23
- 3.1 異常檢測建模方法18-19
- 3.1.1 對樣本集都進行建模18
- 3.1.2 不依賴先驗知識的建模方法18-19
- 3.1.3 依賴先驗知識的建模方法19
- 3.2 異常檢測算法19-23
- 3.2.1 基于統(tǒng)計學原理的異常檢測算法19-20
- 3.2.2 基于密度的異常檢測算法20-21
- 3.2.3 基于距離的異常檢測算法21-22
- 3.2.4 基于聚類的異常檢測算法22
- 3.2.5 基于人工神經網絡模型的異常檢測算法22-23
- 4 電子商務環(huán)境中算法的選擇與指標設置23-31
- 4.1 異常檢測算法的選擇23-24
- 4.2 基于距離的異常檢測算法簡介24-26
- 4.2.1 距離的度量24-25
- 4.2.2 基于距離的異常檢測算法的種類及描述25-26
- 4.3 拉依達準則(3σ準則)26-27
- 4.4 電子商務環(huán)境下異常檢測指標體系的設計27-31
- 5 實證研究31-53
- 5.1 企業(yè)背景介紹31-32
- 5.2 采用基于距離的異常檢測算法的客戶關系管理應用過程32-34
- 5.3 計算分析34-38
- 5.4 因子分析38-47
- 5.5 結果分析47-53
- 6 總結與展望53-54
- 6.1 總結53
- 6.2 展望和不足53-54
- 致謝54-55
- 參考文獻55-58
- 附錄 A 客戶數據58-61
- 攻讀學位期間的研究成果61
【共引文獻】
中國期刊全文數據庫 前10條
1 范進;;產業(yè)結構對產業(yè)集群影響力的實證分析[J];安徽廣播電視大學學報;2006年04期
2 于立紅;杜蕓;;數據挖掘中數據預處理方法與技術[J];安徽電子信息職業(yè)技術學院學報;2009年04期
3 舒堅;鄭誠;陳振;;基于關聯(lián)分類方法的Web使用挖掘研究[J];安徽大學學報(自然科學版);2006年02期
4 唐超禮;魏圓圓;;基于數據挖掘的植保預測系統(tǒng)[J];安徽農業(yè)科學;2008年12期
5 劉秋生;吳小倩;;基于數據挖掘的固定資產投資效益評價[J];安徽農業(yè)科學;2011年11期
6 張友志;錢萌;程玉勝;;基于關聯(lián)規(guī)則web日志挖掘方法的研究[J];安慶師范學院學報(自然科學版);2006年01期
7 吳煥瑞,張紅霞;數據庫技術的新發(fā)展與新特點[J];保定師范?茖W校學報;2004年02期
8 高洪歌;趙會群;;關聯(lián)規(guī)則挖掘在乒乓球比賽技戰(zhàn)術分析中的應用[J];北方工業(yè)大學學報;2006年01期
9 賀巍巍;鄭力;高本河;;供應商選擇多層次熵權綜合評價法研究[J];北京交通大學學報(社會科學版);2007年03期
10 李燕琴;一種生態(tài)旅游者的識別與細分方法——以北京市百花山自然保護區(qū)為例[J];北京大學學報(自然科學版);2005年06期
中國重要會議論文全文數據庫 前10條
1 楊青;劉曄;張東旭;劉暢;;快速查找最優(yōu)初始聚類數K的改進K-means算法[A];中國自動化學會控制理論專業(yè)委員會A卷[C];2011年
2 薛魯華;張楠;;聚類分析在Web數據挖掘中的應用[A];北京市第十三次統(tǒng)計科學討論會論文選編[C];2006年
3 楊雯怡;鄭康鋒;楊義先;;一種自適應的網絡安全防護方案[A];中國電子學會第十五屆信息論學術年會暨第一屆全國網絡編碼學術年會論文集(上冊)[C];2008年
4 張宇;;基于XML的Web數據自動挖掘[A];科技創(chuàng)新與節(jié)能減排——吉林省第五屆科學技術學術年會論文集(上冊)[C];2008年
5 張秋彤;;數據挖掘與高校圖書館個性化信息服務[A];第九屆中國不確定系統(tǒng)年會、第五屆中國智能計算大會、第十三屆中國青年信息與管理學者大會論文集[C];2011年
6 丁信宙;仇環(huán);蘇曉慶;;基于云理論的缺損數據推理和預測[A];山東省測繪學術年會論文集[C];2006年
7 丁琳琳;孟軍;;豬肉價格風險預警模型的建立與應用[A];畜牧業(yè)環(huán)境、生態(tài)、安全生產與管理——2010年家畜環(huán)境與生態(tài)學術研討會論文集[C];2010年
8 張艷;周國祥;;Web挖掘在個性化信息檢索中的應用[A];計算機技術與應用進展·2007——全國第18屆計算機技術與應用(CACIS)學術會議論文集[C];2007年
9 單科華;李郴;習穎慧;王飛;;煤炭企業(yè)投資決策系統(tǒng)的分析與研究[A];第18屆全國煤礦自動化與信息化學術會議論文集[C];2008年
10 李林博;付忠廣;;基于決策樹和模糊邏輯的轉子振動故障診斷系統(tǒng)[A];第十二屆全國設備故障診斷學術會議論文集[C];2010年
中國博士學位論文全文數據庫 前10條
1 于翔;基于網格的數據流聚類方法研究[D];哈爾濱工程大學;2010年
2 祁瑞華;不完整數據分類知識發(fā)現(xiàn)算法研究[D];大連理工大學;2011年
3 郜巒;基于文獻分析的“肺與大腸相表里”證治規(guī)律及其關系研究[D];北京中醫(yī)藥大學;2011年
4 盧又燃;放射科隨訪數據庫建立與粗糙集方法輔助診斷膠質瘤分級的應用分析[D];復旦大學;2009年
5 金海浩;五行相生間接補法古代應用規(guī)律研究[D];南京中醫(yī)藥大學;2011年
6 楊瑞龍;基于短語特征的Web文檔聚類方法研究[D];重慶大學;2010年
7 韓建光;企業(yè)財務困境預測動態(tài)建模研究[D];哈爾濱工業(yè)大學;2011年
8 雷震;隨機森林及其在遙感影像處理中應用研究[D];上海交通大學;2012年
9 劉丹紅;各類疾病住院患者危重度分級研究[D];中國人民解放軍第四軍醫(yī)大學;2003年
10 周海燕;空間數據挖掘的研究[D];中國人民解放軍信息工程大學;2003年
中國碩士學位論文全文數據庫 前10條
1 王本超;基于KPCA與SVM的人臉識別研究[D];大連理工大學;2010年
2 張進;我國施工勞動生產率管理研究[D];大連理工大學;2010年
3 劉美玲;基于綜合策略支持向量機的孤立點檢測技術[D];大連理工大學;2010年
4 李仁良;決策樹算法在臨床診斷中的應用研究[D];遼寧工程技術大學;2009年
5 劉芳;改進的蟻群聚類算法在森林火災預測中的應用研究[D];遼寧工程技術大學;2009年
6 劉曉英;知識關聯(lián)及其應用研究[D];湘潭大學;2010年
7 劉巍;基于聚類的孤立點發(fā)現(xiàn)技術研究及其在審計中的應用[D];中國海洋大學;2010年
8 韓成勇;高校學評教決策支持系統(tǒng)設計與實現(xiàn)[D];蘇州大學;2010年
9 方少卿;Web就業(yè)信息抽取系統(tǒng)的實現(xiàn)研究[D];合肥工業(yè)大學;2010年
10 年愛華;數據挖掘在職校普通話等級考試成績分析中的應用[D];蘭州大學;2010年
本文關鍵詞:電子商務環(huán)境中異常數據應用研究,由筆耕文化傳播整理發(fā)布。
本文編號:452257
本文鏈接:http://sikaile.net/jingjilunwen/dianzishangwulunwen/452257.html