基于物流信息的關聯(lián)規(guī)則算法及其應用研究
第一章緒論
1.1論文研究背景及意義
隨著互聯(lián)網(wǎng)的快速發(fā)展,以及RFID數(shù)據(jù)釆集技術和數(shù)據(jù)庫存儲技術的不斷改進,企業(yè)從自身的物流活動積累了大量的業(yè)務數(shù)據(jù)。如何有效的利用海量數(shù)據(jù)來改善企業(yè)業(yè)務,提高自身盈利水平,已成為物流企業(yè)的核心任務。數(shù)據(jù)挖掘作為一門新興的交叉學科,將傳統(tǒng)的數(shù)據(jù)分析技術和機器學習,人工智能等復雜算法相結(jié)合,能有效地挖掘出隱藏在數(shù)據(jù)背后的規(guī)律,給企業(yè)帶來巨大的經(jīng)濟效益,正吸引著眾多企業(yè)的廣泛關注⑴。關聯(lián)規(guī)則是數(shù)據(jù)挖掘領域的重要組成部分,以企業(yè)的交易數(shù)據(jù)庫為主要的研究對象,其目標在于發(fā)現(xiàn)隱藏在交易數(shù)據(jù)庫中商品之間的強關聯(lián)關系。經(jīng)典的關聯(lián)規(guī)則挖掘算法主要被應用于處理布爾型屬性的數(shù)據(jù)集,并且以支持度和置信度作為度量框架,直接影響最后的算法結(jié)果[2]。但是現(xiàn)實的企業(yè)數(shù)據(jù)集包含大量的數(shù)值型屬性(銷量,單價,年齡,薪水等),利用傳統(tǒng)的算法無法準確的發(fā)現(xiàn)商品之間的關系。同時有些強關聯(lián)規(guī)則由于商品購買頻次較低,無法被傳統(tǒng)的度量框架發(fā)現(xiàn),但是往往這些關聯(lián)規(guī)則存在較高的商業(yè)價值,造成企業(yè)的經(jīng)濟損失[3]。因此,改進現(xiàn)階段的關聯(lián)規(guī)則算法,使改進算法能夠良好適用于含有數(shù)值型屬性的數(shù)據(jù)集,同時對度量框架進行改進,要求改進的度量框架能夠發(fā)現(xiàn)支持度較低的強關聯(lián)規(guī)則并且過濾掉冗余或者無效的關聯(lián)規(guī)則,對于擴大關聯(lián)規(guī)則算法的實際應用場景具有重要的意義。商品之間的關聯(lián)關系能夠指導企業(yè)獲得額外的交叉銷售機會,提高企業(yè)的盈利水平。因此,各個行業(yè)包括電信,保險零售等都在利用這類規(guī)則來提高自身競爭力。但是由于我國物流行業(yè)發(fā)展較晚,和發(fā)達國家相比,企業(yè)物流整體成本較高隨著近年企業(yè)逐漸重視物流發(fā)展,企業(yè)物流信息化水平普遍提高,并積累了大量數(shù)據(jù)致力于降低物流成本。但是現(xiàn)階段的很多物流企業(yè)僅利用這些數(shù)據(jù)進行簡單的查詢管理等操作,并不立足于發(fā)現(xiàn)隱藏在這些海量數(shù)據(jù)背后商品之間的強關聯(lián)關系。因此如何利用關聯(lián)規(guī)則算法發(fā)現(xiàn)的商品之間的關聯(lián)關系,來改善物流業(yè)務,降低企業(yè)的物流成本,對于企業(yè)具有重大的研究意義。
.........
1.2國內(nèi)外研究現(xiàn)狀
關聯(lián)規(guī)則己經(jīng)逐漸成為數(shù)據(jù)挖掘領域的研究熱點之一,但是現(xiàn)階段關于關聯(lián)規(guī)則的改進算法主要集中在如何降低算法運行的時間復雜度和空間復雜度,例如Han等提出了 FP增長算法,利用樹結(jié)構(gòu)來減少數(shù)據(jù)庫的讀取次數(shù)。Toivonen提出了基于抽樣的頻繁項集的產(chǎn)生方法,同樣只需要掃描一遍數(shù)據(jù)庫,其他算法還包括樹投影和H-Mine_等。然而算法的結(jié)果需要最終為商業(yè)決策服務,算法的研究不能只看重算法運行的快慢而忽略了算法結(jié)果的有效性和適用性。量化關聯(lián)規(guī)則能夠有效處理連續(xù)型屬性,擴大關聯(lián)規(guī)則算法的應用范圍,而客觀興趣度度量能夠增強所提取的關聯(lián)規(guī)則的有效性,但是國內(nèi)外這方面的研究相對較少。目前的關聯(lián)規(guī)則算法主要用于處理布爾型屬性,在數(shù)據(jù)集中出現(xiàn)數(shù)值型屬性時,一種很自然的策略是將數(shù)值型屬性轉(zhuǎn)化為布爾型,從而將原始問題轉(zhuǎn)化為布爾型的關聯(lián)規(guī)則問題。當數(shù)值屬性取值較少時,可以將每個取值設定為布爾屬性;若取值較多時,需要將取值范圍劃分為多個區(qū)間,每個區(qū)間分別被映射成為布爾屬性。這是國內(nèi)外關于量化關聯(lián)規(guī)則研究的熱點,同時由于區(qū)間劃分存在的邊界尖銳問題,一部分學者還提出了模糊關聯(lián)規(guī)則的相關概念。
.......
第二章數(shù)據(jù)挖掘理論綜述
2.1引言
上一章介紹了研究背景和意義,同時在分析國內(nèi)外前沿研究的基礎上,提出了論文的主要研究框架和思路。本章將對本文研究所涉及的相關領域進行概述,主要包括數(shù)據(jù)挖掘定義,按掘任務的分類和核心算法對比,以及數(shù)據(jù)挖掘的整體建模過程。數(shù)據(jù)挖掘概念:關聯(lián)規(guī)則是數(shù)據(jù)挖掘的核心領域,從海量數(shù)據(jù)提取有價值的趨勢,模式和關系都可以認為是數(shù)據(jù)挖掘的任務,正確定義數(shù)據(jù)挖掘能夠幫助處理實際企業(yè)需求。數(shù)據(jù)挖掘任務分類和算法對比:數(shù)據(jù)挖掘任務主要分為聚類,分類,以及關聯(lián)規(guī)則。三個部分雖然任務,處理算法不同,但是在算法研究和實際應用場景中,經(jīng)常將三個部分的算法融合應用,以提高實際應用效果。詳細分析各個任務算法的優(yōu)缺點能夠為下文算法改進提供基礎。數(shù)據(jù)挖掘的整體建模過程:數(shù)據(jù)挖掘并不是簡單的應用挖掘算法的過程,要產(chǎn)生具有實際應用價值的規(guī)律,需要經(jīng)歷定義挖掘目標,預處理,模型構(gòu)建,模型評價等一系列的過程。明確各個環(huán)節(jié)的任務及注意事項是挖掘任務順利完成的保障,因此,本章首先需要對數(shù)據(jù)挖掘的整體建模過程進行敘述,為后面章節(jié)的實際應用做鋪塾。
..........
2.2數(shù)據(jù)挖掘的起源與概念
數(shù)據(jù)采集和數(shù)據(jù)庫存儲技術的快速發(fā)展使得各個行業(yè)積累了海量數(shù)據(jù),這些海量數(shù)據(jù)如實記錄著企業(yè)的運作,具有很高的商業(yè)價值。這些商業(yè)價值也吸引著企業(yè)尋找合適的分析工具,來尋找隱藏在數(shù)據(jù)中的運營規(guī)律,為商業(yè)智能決策提供有價值的建議,提高企業(yè)收益能力。同時,豐富的數(shù)據(jù)也對現(xiàn)階段的數(shù)據(jù)分析工具技術提出了極大的挑戰(zhàn),傳統(tǒng)的數(shù)據(jù)分析技術己經(jīng)無法滿足現(xiàn)階段數(shù)據(jù)可伸縮,高維性,異種類型[41]等特征。數(shù)據(jù)挖掘?qū)⒑A繑?shù)據(jù)復雜算法融合到傳統(tǒng)數(shù)據(jù)分析技術中,能有效處理現(xiàn)階段數(shù)據(jù)的復雜特征。這些數(shù)據(jù)處理方法和復雜算法來源于多個學科,并在數(shù)據(jù)挖掘領域融合創(chuàng)新。首先數(shù)據(jù)倉庫,和互聯(lián)網(wǎng)等技術的高速發(fā)展創(chuàng)新使得企業(yè)具備存儲海量數(shù)據(jù)的能力,這些能力伴隨著訪問技術的改進為數(shù)據(jù)挖掘的實際應用研究提供了必要條件。其次人工智能等理論和技術被成功應用于商業(yè)處理也對數(shù)據(jù)挖掘的發(fā)展起到了極大的推動作用⑴。本文認為:數(shù)據(jù)挖掘(Data mining)就是從海量數(shù)據(jù)(包括文本數(shù)據(jù))中挖掘出未知的,隱藏在數(shù)據(jù)中,對最終決策有價值的趨勢,模式和關系,并利用發(fā)現(xiàn)的規(guī)則和知識來建立決策支持模型,并提供決策支持的工具,方法和過程。這些建立的決策支持模型和方法可以被實際企業(yè)應用于商業(yè)分析,需求預測等?傊,企業(yè)的運作產(chǎn)生了大量的數(shù)據(jù),這些數(shù)據(jù)和信息如實記錄著企業(yè)的運作情況,通過數(shù)據(jù)挖掘技術分析,能夠幫助企業(yè)發(fā)現(xiàn)自身商業(yè)運作中的趨勢,并可應用于預測未來的發(fā)展。數(shù)據(jù)挖掘技術已經(jīng)成為了物流企業(yè)降低成本,吸引客戶,保持市場競爭力的必要工具。
........
第三章關聯(lián)規(guī)則算法分析.......14
3.1關聯(lián)規(guī)則概述.......14
3.2 Apriori 算法.......15
3.3頻繁項集緊湊表示.......18
3.3.1極大頻繁項集.......18
3.3.2閉頻繁項集.......18
3.4算法優(yōu)缺點分析.......20
3.5本章小結(jié).......21
第四章基于聚類的量化關聯(lián)規(guī)則算法.......22
4.1引言.......22
4.2量化關聯(lián)規(guī)則現(xiàn)狀.......23
4.3基于聚類的量化關聯(lián)規(guī)則.......24
4.4量化關聯(lián)規(guī)則算法實例.......26
4.5本章小結(jié).......32
第五章關聯(lián)規(guī)則客觀興趣度度量研究.......33
5.1引言.......33
5.2傳統(tǒng)客觀興趣度度量的描述.......34
5.3新型客觀性度量的描述.......37
5.4客觀興趣度度量分析比較.......40
5.5本章小結(jié).......42
第六章基于關聯(lián)規(guī)則的改進庫存管理方法
庫存管理是物流管理的核心領域,其目的在于及時滿足市場和生產(chǎn)需求。庫存管理的最終目的在于降低庫存系統(tǒng)的運作成本。由于庫存項目種類繁多,很多企業(yè)利用ABC分類法進行重點項目分類管理。本文在此基礎上,針對ABC分類法未考慮交叉銷售效果的缺點,提出了量化關聯(lián)規(guī)則和ABC方法相結(jié)合的分類方法,該方法利用量化關聯(lián)規(guī)則度量交叉銷售效果,且在算法中引入了新型的度量指標確保規(guī)則的有效性。實驗結(jié)果證明,新型的ABC分類方法結(jié)果和傳統(tǒng)ABC分類結(jié)果存在較大的差異,但是改進算法的最終結(jié)果能夠更好的反映商品的價值,具有更好的商業(yè)指導性。
6.1引言
庫存管理的最終目的在于通過確定最優(yōu)補貨批量和最佳的補貨時機來最小化庫存系統(tǒng)成本。國內(nèi)外研究人員主要通過針對具體的庫存系統(tǒng)建立數(shù)學模型,模型的目標函數(shù)是最小化整體庫存系統(tǒng)的運作成本,決策變量為補貨批量和補貨時機,并且針對具體的實際問題建立相應的約束條件。通過求解數(shù)學模型,從而得到最優(yōu)的庫存管理策略。然而在實際庫存管理系統(tǒng)中,由于庫存商品品類繁多,為每種商品制定個性化的庫存控制策略(安全庫存,補貨策略)并不可行,通常是將所有商品針對優(yōu).先級進行分類,對同一類別的商品采用統(tǒng)一的庫存管理策略。ABC分類法【70】基于“關鍵少數(shù),次要多數(shù)”的思想,并被廣泛應用于商品優(yōu)先級排序分類。在傳統(tǒng)ABC分類法中,金額占用作為一個重要的衡量指標來體現(xiàn)商品的重要性,除此之外,缺貨影響,庫存維持成本,供貨穩(wěn)定性等參數(shù)也被國內(nèi)外研究人員和企業(yè)應用于庫存商品的分類。
總結(jié)
本文主要針對數(shù)據(jù)挖掘領域關聯(lián)規(guī)則的算法理論及其庫存分類應用進行了如下多方面的研究工作:
(1)歸納總結(jié)了數(shù)據(jù)挖掘的起源,定義以及任務,并對每個任務涉及的算法進行比較分析,同時梳理了整體建模過程,描述了挖掘技術及其物流應用現(xiàn)狀。
(2)概述了關聯(lián)規(guī)則的核心思想,介紹了其中Apriori算法,且總結(jié)了現(xiàn)階段關聯(lián)規(guī)則的缺點:首先,Apriori算法只能處理布爾值屬性,無法處理實際數(shù)據(jù)集中包含的可量化屬性;其次,支持度和置信度度量框架無法有效提取低支持度但是有效的規(guī)則,同時所產(chǎn)生的規(guī)則存在較多的冗余和虛假情況。
(3)針對研宄內(nèi)容(2)中第一個缺點,提出了一個基于快速聚類法的改進量化關聯(lián)規(guī)則算法,通過將連續(xù)性屬性投影到離散區(qū)間實現(xiàn)屬性的離散化。同時快速聚類法考慮了樣本各個屬性的相關性,且不受離群點的影響,具有較好的聚類效果。
(4)針對研究內(nèi)容(2)中關聯(lián)規(guī)則的第二個缺點,本文研究了國內(nèi)外較為經(jīng)典的度量指標’并對經(jīng)典指標進行對比分析,同時在此基礎了引入了相關性和熵的概念,提出了一個新型的度量框架,能夠有效的挖掘出隱藏在數(shù)據(jù)集中的關聯(lián)規(guī)則。
.........
參考文獻(略)
,
本文編號:37486
本文鏈接:http://sikaile.net/wenshubaike/lwfw/37486.html