客戶關(guān)系管理中基于約束的關(guān)聯(lián)規(guī)則挖掘方法研究
本文關(guān)鍵詞:客戶關(guān)系管理中基于約束的關(guān)聯(lián)規(guī)則挖掘方法研究,由筆耕文化傳播整理發(fā)布。
當(dāng)前位置:首頁 >> 經(jīng)管營銷 >> 客戶關(guān)系管理中基于約束的關(guān)聯(lián)規(guī)則挖掘方法研究
第 !" 卷第 # 期 - " " # 年# 月
計算機(jī)集成制造系統(tǒng)—$%&' $)./0123 %412536127 &640869103:45 ';<12.<
()*+ !" ,)+ # =/3 + - " " #
文章編號: !""> ? @A!! -""#) ? "#>@ ? "> ( "#
客戶關(guān)系管理中基于約束的 關(guān)聯(lián)規(guī)則挖掘方法研究
王扶東, 李B 兵, 薛勁松, 朱云龍
( 中國科學(xué)院沈陽自動化研究所, 遼寧B 沈陽B !!""!>)
B B 摘B 要: 分析功能的深化是客戶關(guān)系管理的一大發(fā)展趨勢, 交叉銷售分析是客戶關(guān)系管理中主要分析的內(nèi)容 之一.針對企業(yè)需求, 分析和描述了交叉銷售中的兩類問題, 根據(jù)其特點(diǎn)提出了一種前件固定, 后件受約束的關(guān)聯(lián) 規(guī)則快速挖掘算法, 以及一種后件固定, 前件受約束的關(guān)聯(lián)規(guī)則快速挖掘算法. 關(guān)鍵詞: 數(shù)據(jù)挖掘; 關(guān)聯(lián)規(guī)則; 客戶關(guān)系管理; 商業(yè)智能 中圖分類號: JKC!!B B B 文獻(xiàn)標(biāo)識碼: =
!" 引言
隨著 %4123421 時代的到來, 電子商務(wù)得到了飛 速發(fā)展, 一切從客戶角度出發(fā)的, 基于客戶關(guān)系的經(jīng) 營理念, 已成為企業(yè)發(fā)展的基石, 以此為特征的客戶 $L&) 關(guān)系管理 $0<1).23 L2*61:)4<M:/ &64652.241, ( 技術(shù)與相關(guān)系統(tǒng), 已經(jīng)成為企業(yè)贏得競爭優(yōu)勢的重 要手段.分析型 $L& 主要用于分析客戶關(guān)系的性 能, 以利于企業(yè)發(fā)現(xiàn)客戶行為趨勢, 理解客戶對公司 的真正價值, 從而使企業(yè)能更好, 更快地根據(jù)客戶的 特點(diǎn) 為 其 提 供 個 性 化 服 務(wù).分 析 功 能 的 深 化 是 $L& 發(fā) 展 的 一 大 趨 勢.交 叉 銷 售 分 析 是 分 析 型 $L& 的重要部分, 它對現(xiàn)有客戶購買行為的數(shù)據(jù)進(jìn) 行關(guān)聯(lián)分析, 發(fā)現(xiàn)交叉銷售和升級銷售的機(jī)會, 從而 為客戶提供更周全的服務(wù), 為提升和發(fā)展企業(yè)的銷 售策略提供充分的依據(jù). 利用數(shù)據(jù)挖掘 本文根據(jù) $L& 的具體需求特征, 中的關(guān)聯(lián)規(guī)則挖掘技術(shù), 在經(jīng)典的 =/3:)3: 算法的基 礎(chǔ)上提出了一種前件固定, 后件受約束的關(guān)聯(lián)規(guī)則 的快速挖掘算法, 以及一種后件固定, 前件受約束的 關(guān)聯(lián)規(guī)則的快速挖掘算法, 并給出仿真結(jié)果.仿真
收稿日期: -""C ? "# ? !#; 修訂日期: -""C ? "A ? "!. 基金項(xiàng)目: 國家 D>C E $%&' 主題資助項(xiàng)目 (-""!==#!#-!") .
結(jié)果表明, 該算法挖掘效率高, 能有效地為企業(yè)的交 叉銷售和升級銷售策略提供科學(xué)的決策依據(jù).
#" 問題描述
交叉銷售是指同時向一位顧客銷售多種相關(guān)的 服務(wù)或產(chǎn)品, 這是一種發(fā)現(xiàn)顧客多種需求, 并滿足其 多種需求的一對一營銷方式.交叉銷售是建立在 " 雙贏" 原則的基礎(chǔ)之上的, 客戶因得到更多, 更好 符合個性需求的服務(wù)而滿足, 企業(yè)也因銷售增長而 獲益.企業(yè)制定交叉銷售策略必須有一定的依據(jù), 如果將毫不相關(guān)的產(chǎn)品交叉銷售, 不但不會促進(jìn)產(chǎn) 品的銷售, 反而會使顧客產(chǎn)生反感.$L& 中的交叉 銷售分析從企業(yè)以往的銷售數(shù)據(jù)中挖掘關(guān)聯(lián)規(guī)則, 分析顧客的購買習(xí)慣, 發(fā)現(xiàn)哪些產(chǎn)品頻繁地被顧客 同時購買, 從而可以將他們進(jìn)行交叉銷售.同時, 分 析結(jié)果還可以幫助企業(yè)進(jìn)行市場規(guī)劃, 新產(chǎn)品推廣, 分類設(shè)計和打折銷售分析等. #$ #" 基本概念 關(guān)聯(lián)規(guī)則的概念由美國 %N& =*.6724 L2<2639M $24123 的 =536H6* 等人于 !AAC 年提出, 是數(shù)據(jù)挖掘 中一種簡單而實(shí)用的規(guī)則.關(guān)聯(lián)規(guī)則從大量商業(yè)事
作者簡介: 王扶東 (!AF# ? ) 女, , 山東人, 中國科學(xué)院沈陽自動化所博士研究生, 主要從事客戶關(guān)系管理, 數(shù)據(jù)挖掘, 商業(yè)智能和決策支持等方 面的研究.G ? .6:*: H87I <:6+ 69+ 94.
萬 方數(shù)據(jù)
PDD
計算機(jī)集成制造系統(tǒng)—!"#$
第 %& 卷
務(wù)記錄中發(fā)現(xiàn)各個項(xiàng)集之間有趣的相關(guān)聯(lián)系. " " 是 設(shè)任 設(shè) ! '{"% ,( …,# } # 個不同項(xiàng)的集合, 務(wù)相關(guān)的數(shù)據(jù) $ 是數(shù)據(jù)庫事務(wù)的集合, 其中每個事 務(wù) % 是項(xiàng)的集合, 使得 % . !, 每個事務(wù)有一個標(biāo)志 符, 稱作 )"*.關(guān)聯(lián)規(guī)則是形如 & 0 ' 的蘊(yùn)含式, 其 中 &.!, .!, ' 并且 &3' ' (. 一般用支持度和置信度來衡量一條關(guān)聯(lián)規(guī)則, 對于形如 & 0 ' 的關(guān)聯(lián)規(guī)則, 支持度是指同時出現(xiàn) 物品集 & 和物品集 ' 的事務(wù)占總事務(wù)的百分比, 簡 記為: ( &0')' ) & 8 ') 置信度是指在出現(xiàn)了 +,( , 物品集 & 的事務(wù)中, 物品集 ' 出現(xiàn)的概率有多大, 即規(guī)則確定性的度量, 簡記為: ( & 0 ')' ) ' 2 ./01 ( &) 一般 的 關(guān) 聯(lián) 規(guī) 則 滿 足 最 小 支 持 度 閾 值 340 5 , ( +,-) 和最小置信度閾值 3405./01) ( 時才被認(rèn)為是有 意義的. 6789+: ;<=7>7? 等 人 提 出 了 著 名 的 ;-=4/=4 算
[%] 法 , 該算法是關(guān)聯(lián)規(guī)則挖掘的核心算法, 其后有
售, 以帶動其他產(chǎn)品的銷售.為此, 可以采用這樣的 銷售策略: 針對某產(chǎn)品銷售較好的情況 例如產(chǎn)品 ( &) 看 & 經(jīng)常和哪些價值比其小的產(chǎn)品 例如 '% , , ( '( , ' * ) …, 一起被購買, 找到這些價值較小的產(chǎn)品 后, 可以考慮在客戶購買產(chǎn)品 & 時, 同時贈送或打 折銷售這些產(chǎn)品. 基于此, 我們提出一種前件固定, 后件受約束的 關(guān)聯(lián)規(guī)則挖掘問題, 挖掘的結(jié)果可以為企業(yè)制定具 有以上效果的交叉銷售策略提供有力的依據(jù).為了 確保企業(yè)的利益, 其約束條件即為: $,35-=4.9 '% , ( , ' * ) 37M5+,3-=4.9 ( ' …, , 其中, $,35-=4.9 '% , ( , ' * ) ( ' …, 為規(guī)則后件產(chǎn) 品的價格之和; 37M5+,3-=4.9 為規(guī)則后件價格之和 的最大值, 由用戶根據(jù)產(chǎn)品 & 的價格確定.這種約 束是反單調(diào)的, 即如果一個項(xiàng)集不滿足該約束, 它的 任何超集也不可能滿足該約束. 例如, 如果 $,35-=4.9 '% , ( )N 37M5+,3-=4.9, ( ' 那么, % , ( 的 任 何 超 集 都 不 可 能 小 于 等 于 37M 5 ' ' +,3-=4.9, 這樣, 可以裁掉 ( @ 項(xiàng)集中的{'% , ( } 減 ' , 少了候選項(xiàng)的數(shù)目, 可有效地對類—;-=4/=4 算法進(jìn) 行剪枝, 極大地提高了算法產(chǎn)生頻繁項(xiàng)集的效率. 前件固定的規(guī)則具有以下特點(diǎn): 對于規(guī)則 & 0 '% 和 &0'% , ( , ' 因?yàn)?./01 &0'% ) + ( ./01 &0'% , ( ) + ( ' 并且 +,- &, % )2 +,- &, % , ( ) ( ' ( ' ' +,- &) + +,- &) ( ( 所以 ./01 &0'% )2 ./01 &0'% , ( ) ( ( ' O O 即如果規(guī)則 & 0 '% 不滿足最小置信度的要求, 則以規(guī)則后件 '% 的超集為后件的規(guī)則 例如, 0 ( & '% , ( ) 也不可能滿足最小置信度的要求, ' , 這樣, 在 ' 裁掉, 以利于下 產(chǎn)生項(xiàng)集的時候, ( @ 項(xiàng)集{&, % } 將 一級項(xiàng)集的快速產(chǎn)生. 對于前件固定的關(guān)聯(lián)規(guī)則挖掘, 由置信度計算 公式可以看出, 只需找出包含用戶指定的規(guī)則前件 的各個頻繁項(xiàng), 不包含用戶指定的規(guī)則前件的事務(wù) 可完全不必考察, 這樣, 可以減少掃描數(shù)據(jù)庫的時 間.因此, 我們選出包含規(guī)則前件的所有事務(wù)放入 +,- &, % ) ( ' +,- &) ( +,- &, % , ( ) ( ' ' +,- &) (
許多改進(jìn) ;-=4/=4 算法, 統(tǒng)稱為類 @ ;-=4/=4 算法, 其 思路分以下兩步: 找出所有滿足最小支持度要求 ! 的數(shù)據(jù)項(xiàng)組合, 這些組合稱為頻繁項(xiàng)集或大項(xiàng)集; " 對于每個頻繁項(xiàng)集, 產(chǎn)生滿足最小置信度要求的規(guī) 則. 求出頻繁項(xiàng)集后, 在產(chǎn)生規(guī)則時會出現(xiàn)下列兩 個問題: 組合產(chǎn)生大量的規(guī)則, 使用戶難以理解眾 ! 多的, 較長的規(guī)則, 并且有的規(guī)則用戶并不需要; " 有的規(guī)則是冗余的, 不能提供任何新的信息. 上述問題可以用基于約束的關(guān)聯(lián)規(guī)則挖掘來解 決, 目前有很多人針對要解決的不同問題, 從不同側(cè) 面對基于約束的關(guān)聯(lián)規(guī)則挖掘進(jìn)行了研究.6A $=4B 870C 等人研究了項(xiàng)集受約束的關(guān)聯(lián)規(guī)則挖掘
[D]
, 只
挖掘出包含某布爾表達(dá)式的頻繁項(xiàng)集.6A )A E< 等 人提出傳統(tǒng)的關(guān)聯(lián)規(guī)則挖掘過程缺少用戶的參與和 控制, 整個過程像一個黑箱
[F]
, 提出將挖掘過程分
為兩步, 并提出了基于約束的關(guān)聯(lián)查詢的概念, 根據(jù) 用戶的查詢挖掘相應(yīng)的規(guī)則.文中黑箱的比喻并不 恰當(dāng), 挖掘算法運(yùn)行之前的各種約束參數(shù)的確定即 體現(xiàn)了用戶的自主性, 而所謂的關(guān)聯(lián)查詢就是設(shè)定 各種約束.6/G9=C/ HA I7J7=K/ H= 等人提出了稠密數(shù) 據(jù)庫中基于約束的關(guān)聯(lián)規(guī)則的挖掘 了改進(jìn)度的概念. !" #$ 前件固定, 后件受約束問題 萬 方數(shù)據(jù) 企業(yè)可以利用銷售情況較好的產(chǎn)品進(jìn)行交叉銷
[L]
, 根據(jù)稠密數(shù)
據(jù)庫的特點(diǎn), 為了限制大量無意義規(guī)則的產(chǎn)生, 提出
第! 期
王扶東 等: 客戶關(guān)系管理中基于約束的關(guān)聯(lián)規(guī)則挖掘新方法研究
!ON
一個臨時表中, 以后的處理均針對該臨時表, 這樣, 也可以提高處理速度.另外, 由于臨時表中的每個 事務(wù)肯定包含規(guī)則前件項(xiàng), 每個頻繁項(xiàng)中都包含該 項(xiàng), 所以完全不必考察該項(xiàng), 這樣, 也可以減少數(shù)據(jù) 庫掃描時間. 根據(jù)以上原理, 設(shè)計出算法 ""#$%&$% 如下: "'(&$%)*+: ""#$%&$% %,#-): +%,./-# 最小支持度) +%,.0&,1 最小置 ( , ( 信度) +23./-+#$%04 規(guī)則后件價格之和最大值) , ( , 2,)40454,) 固定的規(guī)則前件) 數(shù)據(jù)庫 !; ( , &-)#-): 滿足 +%,./-#, +%,.0&,1, +23./-+#$%04, 2,)40454,) 約束的所有規(guī)則.
64(%,: %1 2,)40454,) %/ -,1$47-4,) )*4, 8 $4)-$,; /4'40) " 1$&+ ! 9*4$4 0&,)2%, 2,)40454,) %,)& !#; 54'4)4 1$&+ !# 9*4$4 商品代碼 : 2,)40454,); $; : 1%,5.1$47-4,).; < %)4+/4)/ !=) > 產(chǎn)生頻繁 ; 項(xiàng)集 ( ;> 54'4)4 " 9*4$4 ,&) 0&,)2%, $; ; (4,.$-'4/ ;,$; ) > > 產(chǎn)生以頻繁 ; 項(xiàng)集為后件的規(guī)則 ( ; 1&$ % : ?; & < ; 9'; @ @ ) ( $ % {8 ( & : 2#$%#$%.(4, $ & < ; , ./-#,+23./-+#$%04) > > 產(chǎn)生 & ( +%, ; 項(xiàng)集 8 $ & : /-6/4) ( & , ; > 產(chǎn)生頻繁 & 項(xiàng)集 ( !#) > 8 (4,.$-'4/ %,$ & ) } ) 產(chǎn)生以頻繁 & 項(xiàng)集為后件的規(guī)則 ( ;) $4)-$,;
出所有確保滿足該約束的集合, 可以在支持度計數(shù) 開始之前 就 精 確 地 產(chǎn) 生 滿 足 它 的 集 合, 免 了 產(chǎn) 避 生—測試方式的過大開銷, 加快了頻繁項(xiàng)集的產(chǎn)生 速度. 另外, 一般企業(yè)中客戶一次購買的產(chǎn)品的種類 不會太多, 規(guī)則前件長度太長, 并不能有效地指導(dǎo)企 業(yè)的交叉銷售, 反而會使人難以理解, 所以本文增加 了以下約束: 0&-,) 2,)40454,)) +23.2,)40454,).0&-,) ( , 式中: ( 2,)40454,)) 0&-,) —規(guī)則前件的數(shù)目; +23.2,)40454,).0&-,)—規(guī)則前件數(shù)目最大值 ( 由用戶根據(jù)實(shí)際情況確定) . 這是一個反單調(diào)約束, 阻止了長模式的產(chǎn)生, 減 少了掃描數(shù)據(jù)庫的次數(shù), 有效地降低了運(yùn)行時間. 對于后件固定的規(guī)則, 有的復(fù)雜規(guī)則相對于其 子規(guī)則來說, 不能提供任何有用的信息, 例如: *; , ? 0(8 ( 0&,1%54,04 : ABC ) ( 規(guī)則 ;) * 8 *; 0(8 ( 0&,1%54,04 : ADC ) ( 規(guī)則 ?) 8 規(guī)則 ; 意味著在購買了產(chǎn)品 *; 和 *? 的顧客中 有 ABC 的人購買了產(chǎn)品 (, 一般認(rèn)為, 這一規(guī)則是有 意義的, 可以較好地理解產(chǎn)品 ( 購買的普遍性.但 是相對規(guī)則 ?, 規(guī)則 ; 的意義就不那么明顯. EFG "'+254, H4/42$0* I4,)4$ 的 H&64$)& JK 62L M2$5&$ J$K 等人在研究稠密數(shù)據(jù)庫中基于約束的關(guān)聯(lián)
[A] 規(guī)則挖掘中提出了改進(jìn)度的概念 , 規(guī)則的改進(jìn)度
!" #$ 后件固定, 前件受約束問題 企業(yè)在推出新型號產(chǎn)品時, 可以利用交叉銷售 或打折銷售的方式促進(jìn)用戶對產(chǎn)品的了解, 進(jìn)而促 進(jìn)其銷售.對于企業(yè)欲推廣的新型號產(chǎn)品 例如產(chǎn) ( 品 !) 企業(yè)現(xiàn)在并沒有該產(chǎn)品的銷售數(shù)據(jù), , 但通常 有該產(chǎn)品 的 前 一 代 產(chǎn) 品, 功 能 與 其 相 近 的 產(chǎn) 品 或 ( 例如產(chǎn)品 () 的銷售數(shù)據(jù), 則此時可以利用產(chǎn)品 ( 的銷售數(shù)據(jù)來制定相應(yīng)的銷售策略. 為此, 企業(yè)可以采用這樣的銷售策略: 一般看哪 * …, 經(jīng)常和產(chǎn)品 ( 一 些產(chǎn)品 例如產(chǎn)品 *; , ? , * + ) ( 起被購買, 找到這些產(chǎn)品以后, 可以考慮在客戶購買 這些產(chǎn)品時, 同時贈送或打折銷售產(chǎn)品 !.這就形 成了一種后件固定, 前件受約束的關(guān)聯(lián)規(guī)則挖掘問 題.為了確保企業(yè)的利益, 規(guī)則前件中每件商品要 #$%04 滿足以下約束: ( * , ) +%,.#$%04. 2 式中: ( * , ) #$%04 —規(guī)則前件中的任何一項(xiàng)的價格; +%,.#$%04—規(guī)則前件價格的最小值 由用戶 ( 根據(jù)規(guī)則后件的價格決定) . 萬 方數(shù)據(jù) 這是一種簡潔性約束, 我們可以列出并且僅列
即在規(guī)則前件固定的情況下, 一個規(guī)則的置信度與 其子規(guī)則置信度差的最小值.例如, 對于規(guī)則 ( 0 -, 其改進(jìn)度為: ( ( 0 -): +%, /(# ? (, ( ( %+# ( 0&,1 ( ) 由于 稠 密 數(shù) 據(jù) 庫 自 身 的 特 0-)< 0&,1 (# 0 -) , 點(diǎn), 定義的改進(jìn)度必須大于 B.從交叉銷售的意義 分析, 規(guī)則 *; , ? 0 ( 為企業(yè)提供的信息, * 就是購買 產(chǎn)品 *; 和 *? 的顧客很有可能購買了產(chǎn)品 (.為了 促銷產(chǎn)品 (, 企業(yè)可以制定一定的交叉銷售的策略, 在顧客一次購買了產(chǎn)品 *; 和 *? 時, 可以向其贈送產(chǎn) 品 ( 或再同時購買產(chǎn)品 ( 時給予一定的折扣.在 企業(yè)制定交叉銷售策略時, 如果規(guī)則 *; , ? 0 ( 的 * 改進(jìn)度小于 B, 即表示規(guī)則 *; , ? 0( 的置信度小于 * 規(guī)則 *; 0 ( 或 *? 0 ( 的置信度, 但從銷售收入來 看, 客戶同時購買產(chǎn)品 *; , ? 和 ( 的銷售收入要高 * 于顧客同時購買產(chǎn)品 *; , 或產(chǎn)品 *? , 所以即使 ( (, 置信度低, 該規(guī)則也仍有一定的意義, 所以改進(jìn)度可 以小于 B, 該值應(yīng)由用戶根據(jù)產(chǎn)品 *; , ? 和 ( 的銷售 * 收入來確定.
UWV
計算機(jī)集成制造系統(tǒng)—!"#$
第 %& 卷
根據(jù)以上原理, 設(shè)計出算法 !'()*+)* 如下所示: ',-+)*./0: !'()*+)* *1(2.: 0*1342( 最小支持度) 0*135+16 最小置 ( , ( 信度) 078 3 71.959:91. 3 5+21. 規(guī) 則 前 件 的 最 大 數(shù) , ( 目) 0*13()*59 規(guī)則前件價格最小值) 5+149;291. , ( , ( 固定的規(guī)則后件) 0*13*0( 最小改進(jìn)度) 數(shù)據(jù)庫 , ( , !. +2.(2.: 滿足 0*1342(, 0*135+16, 0*13()*59, 0783 71.959:91.35+21., 0*13*0(, 5+149;291. 約束的所有規(guī) 則.
<9-*1: = 將 ! 中所有事務(wù)選出放入臨時表 !"; = *6 5+149;291. *4 6)9;291. ./91 = = 7:: 5+149;291. .+ #% ; = 9,49 = = )9.2)1; #% > #% ? 6*1:36)9;291.3% @ *.9049.4 !A) B 產(chǎn)生頻繁 % 項(xiàng)集 ( ;B :9,9.9 $ C/9)9 1+. 5+1.7*1 #% ; C/*,9( # % @ % 9& 71: ' D > '1.959:91.!+21. ? %) ( 0*1342() B B 產(chǎn)生 % 項(xiàng)集 ; { ( % > 7()*()*3-91 # % @ % , # % > 42<49. ( % , ) ) ) 產(chǎn)生頻繁 % 項(xiàng)集 ( !' ; -913)2,94 ', % , % @ % ) B 產(chǎn)生具有固定后件的規(guī)則 ( # # }B )9.2)1; ()+59:2)9 -913)2,94 ',# % ,# % @ % ) ( = 6+) 975/ * *1 # % = = *6 5+149;291..* {= 5+16 > 42( 5) 42( 5 @ 5+149;291.) ( B ( ; *6 5+16 E > 0*135+16 ./91 {= 078342<5+16 > &; 6+) 7,,( ' @ %)@ 42<49. 4 *1( 5 @ 5+149;291.) *6 5+16 4)E 078342<5+16 ./91 078342<5+16 > 5+16 4) ( ( ; *6( 5+16 @ 078342<5+16) 20*13*0( ./91 +2.(2. ./9 )2,9 5 @ 5+149;291.05+149;291. C*./; 5+16*:9159 > 5+16 71: 42((+). > 42( *); } ( } )9.2)1;
簡, 挖掘所用字段包括交易代碼 G3"H) 商品代碼 ( , , ( 和商品價格 I3I)*59) ( ( I3"H) 商品名稱 I3J709) 等, 去掉其他冗余字段. !# !" 目標(biāo)數(shù)據(jù)預(yù)處理 數(shù)據(jù)預(yù)處理步驟中主要是處理不完整數(shù)據(jù), 并 將記錄型數(shù)據(jù)處理成事務(wù)型數(shù)據(jù).現(xiàn)實(shí)世界的數(shù)據(jù) 中都存在不完整的, 含噪聲的數(shù)據(jù), 因此, 在挖掘之 前需要對數(shù)據(jù)進(jìn)行預(yù)處理.關(guān)聯(lián)規(guī)則挖掘?qū)υ肼晹?shù) 據(jù)的敏感性不像分類算法那么強(qiáng), 因此不必特殊處 理.空缺值的處理方法包括忽略元組, 人工填寫空 缺值, 使用一個全局常量填充空缺值和使用屬性的 平均值填充空缺值等等.由于關(guān)聯(lián)規(guī)則挖掘針對事 務(wù), 刪除某條記錄不會對整條事務(wù)產(chǎn)生太大影響, 因 此對于有空缺值的記錄, 采用忽略元組的方法.對 目標(biāo)數(shù)據(jù)進(jìn)行掃描, 如果某條記錄的交易代碼 G3 ( "H) 或商品代碼 I3"H) ( 兩個主要字段有空缺值, 則 將整條記錄刪除.關(guān)聯(lián)規(guī)則挖掘針對事務(wù)型數(shù)據(jù), 而企業(yè)的銷售數(shù)據(jù)一般都以記錄的形式存儲, 因此 需要將企業(yè)的銷售數(shù)據(jù)處理成事務(wù)型數(shù)據(jù).根據(jù)每 筆交易代碼, 將交易代碼相同的記錄合并成一項(xiàng)事 務(wù), 從而將企業(yè)的銷售數(shù)據(jù)從記錄型變成事務(wù)型.
%" 試驗(yàn)結(jié)果分析
"K# 數(shù)據(jù)生成器應(yīng)用比較成熟, 可以為各類數(shù) 據(jù)挖掘算法提供測試數(shù)據(jù), 目前被廣泛采用.另外, 由于企業(yè)的銷售數(shù)據(jù)都以記錄的形式存儲, 故本試 驗(yàn)采用 "K# 數(shù)據(jù)生成器生成的記錄型關(guān)聯(lián)規(guī)則測 試數(shù)據(jù)進(jìn)行算法的測試.同時考慮到算法中的約束 主要為價格約束, 因此又將每個項(xiàng)目元素賦予價格. 計算機(jī)內(nèi)存 本試驗(yàn)環(huán)境基于 L*1M&&& $9)N9) 平臺, OM&#K, 主頻 OP&#QR, 測試數(shù)據(jù)各項(xiàng)參數(shù)如表 %.
表 $" 測試數(shù)據(jù)的各項(xiàng)參數(shù)
記錄數(shù)目 O&PM& 條 事務(wù)數(shù)目 O&&& 個 項(xiàng)目元素 個數(shù) MS% 個 最小支持度 最小置信度 &T % &T %
!" 數(shù)據(jù)準(zhǔn)備
!F# 系統(tǒng)的數(shù)據(jù)庫中的用戶交易信息, 商品本 身信息和用戶個人信息都與交叉銷售分析有關(guān), 是 交叉銷售分析所涉及到的源數(shù)據(jù). !# $" 從源數(shù)據(jù)中選擇目標(biāo)數(shù)據(jù) 源數(shù)據(jù)中包括交易代碼, 商品代碼, 商品名稱, 客戶代碼, 客戶描述信息, 負(fù)責(zé)員工信息和商品描述 信息等.由于進(jìn)行的是單維布爾關(guān)聯(lián)規(guī)則的挖掘, 表中存在客戶代碼, 負(fù)責(zé)員工信息, 客戶描述信息和 一些商品描述信息等冗余字段.考慮到數(shù)據(jù)挖掘算 萬 方數(shù)據(jù) 法的效率和挖掘出的信息的準(zhǔn)確性, 數(shù)據(jù)字段要精
%# $" 前件固定, 后件受約束的 &&'()*() 算法實(shí) 驗(yàn)結(jié)果分析 ''()*+)* 算法的前件固定, 后件的價格之和受 約束, 在數(shù)據(jù)庫的 MS% 個項(xiàng)目元素中, 元素的最高價 格為 USSP.在頻繁 % 項(xiàng)集中, 項(xiàng)集的最 高 價 格 為 UUMP, 因此, 我們將價格為 UUMP 的項(xiàng) *UUMP 定為固 定的前件. 圖 % 為 ''()*+)* 算法運(yùn)行時間隨后件價格之和
第! 期
王扶東 等: 客戶關(guān)系管理中基于約束的關(guān)聯(lián)規(guī)則挖掘新方法研究
!.0
約束的變化而變化的情形.從圖中可以看出, 運(yùn)行 時間 隨 著 后 件 價 格 之 和 的 減 小 而 減 小.圖 " 為 ##$%&'%& 算法規(guī)則數(shù)目隨后件價格之和約束的變化 而變化的情形, " 表明, 圖 隨著后件價格之和的減 小, 規(guī)則的數(shù)目也減少.根據(jù) () " 節(jié)所述, 在實(shí)際應(yīng) 用中一般只需考慮虛線 (!!"* 價格對應(yīng)的線) 以左 的部分.
標(biāo)準(zhǔn) #$%&'%& ##$%&'%&# 2#$%&'%&#
表 !" 規(guī)則數(shù)目與運(yùn)行時間的比較
規(guī)則數(shù)目 -." "* "* 運(yùn)行時間 + , !/0) !*! 11) !"( "//) (31
#$ !" 后件固定, 前件受約束的 %&'()*() 算法實(shí) 驗(yàn)結(jié)果分析 2#$%&'%& 算法的后件固定, 前件的價格受約束, 本實(shí)驗(yàn)取頻繁 ( 項(xiàng)集中價格為 !"/ 的項(xiàng) &!"/ 為固 定后件, 該價格在頻繁 ( 項(xiàng)集中屬于較低的價格. 前件數(shù)量的約束比較容易理解, 且對長頻繁模式的 作用較為明顯, 這里不再過多解釋. 本試驗(yàn)規(guī)定, 規(guī)則前件的最大數(shù)目為 -.圖 為 2#$%&'%& 算法隨前件價格約束的變化規(guī)則數(shù)目的 變化圖, - 表明隨著前件價格約束的增大, 圖 規(guī)則的 數(shù)目相應(yīng)減少.改進(jìn)度 &4$) ( 對規(guī)則數(shù)目的影響也 較為明顯, 但對運(yùn)行時間的影響不太明顯.圖 ! 為 2#$%&'%& 算法在 &4$ 5 6 3) ( 的情況下, 運(yùn)行時間隨 前件價格約束的變化而變化的情形.從圖中可以看 出, 運(yùn)行時間隨著前件價格約束的增加而減小.當(dāng) 前件價格約束足夠小時, 該約束已失去意義.
當(dāng)后件價格約束足夠大時, 規(guī)則的數(shù)目以及運(yùn) 行時間都不再變化, 價格的約束已經(jīng)失去意義, 這 時, 我們將算法 ##$%&'%& 叫做 ##$%&'%&#, ##$%&'%&# 與標(biāo)準(zhǔn) #$%&'%& 算法的規(guī)則數(shù)目和運(yùn)行時間方面的 可以看出, 前件固定這一約束的作用 比較列于表 ", 非常明顯. 置信度最大不會超過 (, 且該實(shí)驗(yàn)的最小置信 度為 3) *, 所以當(dāng) &4$ 5 6 3) * 時, 該約束已經(jīng)沒有 意義, 這時, 我們將算法 2#$%&'%& 叫做 2#$%&'%& #, 2#$%&'%&#與標(biāo)準(zhǔn) #$%&'%& 算法的規(guī)則數(shù)目和運(yùn)行時 間方面的比較列于表 ", 可以看出, 后件固定這一約 束的作用也非常明顯.
+" 結(jié)論
萬 方數(shù)據(jù)
本文根據(jù) 278 中交叉銷售分析的需求, 結(jié)合企
XO&
計算機(jī)集成制造系統(tǒng)—!"#$
'
第 %& 卷
業(yè)實(shí)際情況, 提出了兩種基于約束的關(guān)聯(lián)規(guī)則挖掘 算法, 挖掘的結(jié)果為企業(yè)制定交叉銷售策略提供了 有力的依據(jù).試驗(yàn)結(jié)果表明, 這兩種算法挖掘效率 較高, 可以有效地支持企業(yè)的決策.在下一步的工 作中, 我們將針對客戶的個人信息與銷售信息結(jié)合 進(jìn)行多維的量化關(guān)聯(lián)規(guī)則, 為企業(yè)向客戶提供個性 化服務(wù)提供有力的支持, 以提高客戶的滿意度和響 應(yīng)度. 參考文獻(xiàn):
[%] ()*(+(, *,"#"-,".$/" 0, ' $+(#" (1 #23234 56678259273 :;<=6 >=9?==3 6=96 7@ 29=A6 23 <5:4= B595>56= (] C:78==B234 7@ [ 1 9D= %EEF (!# G $")#HI "39=:3592735< !73@=:=38= 73 #5354=J A=39 7@ I595 !] .=? K7:L, [ 1 M$(: (!# C:=66,%EEF1 N&O G N%P1 [N] ()*(+(, *,$*"/(.0 *1 Q569 5<47:29DA5 @7: A23234 5667825J ' 9273 :;<=6 (] C:781 N&9D "391 !73@1 73 R,IS !] $53 Q:53J [ 1 [ 1 82687, M$(:#7:453 /5;@A533 C;><26D=:6 "381 , %EEF1 N&O G N%P1 [F] #(.",( T, ' 0H"RH.-. T1 -@@282=39 5<47:29DA6 @7: B2687U=:234 56J 678259273 :;<=6 (] C:78==B234 7@ (((" +7:L $D7V [ 1
' /37?<=B4= I2687U=:W 23 B595>56= ! ] 1 !(, [ M$(: (((" C:=66, %EEX1 %Y% G %EN1 [X] C(*/ Z $,!T-. #234W531 (3 =@@=892U= D56D G >56=B 5<47:29DA ' @7: A23234 56678259273 :;<=6 (] C:78==B234 7@ 9D= %EE[ (!# G [ 1 $")#HI "39=:3592735< !73@=:=38= 73 #5354=A=39 7@ I595 !] [ 1 .=? K7:L, M$(: (!# C:=66, %EE[1 %O[ G %YP1 [[] T(. Z, Z1 #23234 @:=\;=39 V599=:36 ?29D7;9 853B2B59= 4=3=:5J ' C-" 9273 (] "3 V:781 N&&& (!# G $")#HI "391 !73@ 1 #5354=A=39 [ 1 7@ I595 !] .=? K7:L, [ 1 M$(: (!# C:=66, N&&&1 % G %N1 [P] $*"/(.0 *, ]1 #23234 56678259273 :;<=6 ?29D "9=A 87369:52396 ' RM [ (] C:781 7@ 9D= 0D2:B "39^< !73@1 73 /37?<=B4= I2687U=:W 23 1 I595S56=6 53B I595 #23234 !] !(, [ 1 M$(: (((" C:=66, %EEO1 PO G OF1 [O] .) * 0, ' ,(/$T#(.(. R $, T(. Z , C(.) (1 -_V<7:597:W A23234 53B V:;3234 7V92A2'592736 7@ 87369:523=B 56678259273 :;<=6 [ (] C:781 7@ 9D= %EEY ((!# G $")#HI "39^< !73@1 73 #53J 1 54=A=39 7@ I595 !] .=? K7:L, [ 1 M$(: (!# C:=66, %EEY1 %F G NX1 [Y] S(K(*IH * Z, ' ()*(+(, Z *1 !7369:5239 G >56=B :;<= A23234 23 <5:4=,B=36= B595>56= Z] I595 #23234 53B /37?<=B4= I26J [ 1 87U=:W, N&&&, N a F) N%O G NX&1 X ( : [E ]' T(. Z,/(#S-* #1 I595 A23234: 8738=V96 53B 9=8D32\;=6 [ #] $53 Q:5382687, #7:453 /5;@A533 C;><26D=:6, 1 !(: N&&%1 [%&] +"00-. , T, ' Q*(./ -1 I595 A23234 #] $53 Q:5382687, [ 1 !(: #7:453 /5;@A533 C;><26D=:6, N&&&1 [%%] S-*$H. (, ' $#"0T $, 0T-(*,".) /1 S;2
本文關(guān)鍵詞:客戶關(guān)系管理中基于約束的關(guān)聯(lián)規(guī)則挖掘方法研究,,由筆耕文化傳播整理發(fā)布。
本文編號:171764
本文鏈接:http://sikaile.net/guanlilunwen/kehuguanxiguanli/171764.html