數(shù)據(jù)挖掘過程中的可解釋性問題研究
發(fā)布時間:2020-09-16 07:02
數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價值的信息的非平凡過程。隨著信息技術的迅猛發(fā)展,許多行業(yè)如商業(yè)、企業(yè)、科研機構和政府部門等都積累了海量的、不同形式存儲的數(shù)據(jù)資料。這些海量數(shù)據(jù)中往往隱含著各種各樣有用的信息。數(shù)據(jù)挖掘的過程中通常需要應用機器學習算法來建立模型。在機器學習和數(shù)據(jù)挖掘領域,模型的可解釋性一直具有重要的理論和實踐價值?山忉屝愿叩臋C器學習模型更值得信賴,也更可能被用戶采納。可解釋性研究已有二十多年的發(fā)展歷史,并且積累了豐富的研究成果。然而,當前的可解釋性研究仍然存在著一些不足之處,如很少考慮人的認知因素、無監(jiān)督學習可解釋性研究較少等。特別地,當前的可解釋性研究主要針對建模階段的可解釋性問題,忽略了數(shù)據(jù)挖掘過程中其它階段可解釋性問題的研究。針對這些不足,本文在已有研究工作的基礎上,對數(shù)據(jù)挖掘過程中涉及的可解釋性問題進行了系統(tǒng)研究,主要工作如下:(1)提出了一種基于數(shù)據(jù)挖掘過程的可解釋性研究框架。針對可解釋性研究領域至今沒有一個公認的可解釋性的定義的情況,本文對可解釋性的定義、內涵進行了分析。然后從數(shù)據(jù)挖掘過程的角度,提出了一種基于CRISP-DM(Cross-Industry Standard Process for Data Mining)的可解釋性研究框架,充分考慮了數(shù)據(jù)挖掘過程中各個階段對可解釋性的影響,并提出了“可解釋性平面”對最重要的階段(建模階段)的可解釋性問題進行劃分。(2)提出了一種原始數(shù)據(jù)理解流程。數(shù)據(jù)理解階段的可解釋性研究目標是使用合適的方法提高人對原始數(shù)據(jù)的理解程度。本文提出的原始數(shù)據(jù)理解流程考慮了有監(jiān)督學習和無監(jiān)督學習兩種情況,并且運用了可視化技術,可以很好的滿足用戶在數(shù)據(jù)理解階段中希望能夠快速直觀的了解數(shù)據(jù)的需求,以便盡快開展后續(xù)工作的目標。對于有監(jiān)督學習而言,該流程主要從樣本和特征兩個維度考慮,包括理解問題的難度、找出各類的典型樣本和識別重要特征。對于無監(jiān)督學習而言,該流程包括理解問題的難度和探索數(shù)據(jù)。(3)提出了一種高維稀疏數(shù)據(jù)特征選擇框架。鑒于數(shù)據(jù)準備階段中高維數(shù)據(jù)的特征選擇對最終模型可解釋性的影響很大,本文提出了一種高維稀疏數(shù)據(jù)特征選擇框架,用于提高待建模數(shù)據(jù)集的可解釋性。該框架主要針對具有稀疏性的高維數(shù)據(jù)的特征選擇。它集成了去稀疏列特征、Filter方法和Wrapper方法。同時還對實際應用中常用的一種特征選擇算法(SFS算法)進行了改進,并將改進后的SFS算法應用在該高維特征選擇框架中。實驗證實該特征選擇框架具有較高的有效性。(4)提出了一種基于人分類學習的黑盒模型解釋方法。鑒于可解釋性與人的認知能力相關,該黑盒模型解釋方案通過集成人分類學習理論中的原型理論、范例理論和選擇性注意理論對黑盒分類器進行解釋,它包括原型解釋和范例解釋。當解釋一條數(shù)據(jù)時,首先使用原型進行解釋,如果該數(shù)據(jù)不符合原型解釋,則采用范例進行解釋。實驗表明該方法能夠比較有效地解釋黑盒分類器的分類結果。(5)提出了一種基于用戶滿意度的聚類方法。由于無監(jiān)督學習的可解釋性研究相對較少,而聚類是無監(jiān)督學習的代表,其可解釋性研究具有重要的應用價值。因此,本文對聚類的可解釋性進行了研究。鑒于目前還沒有一個通用的指標去評估一個聚類的好壞,本文提出將用戶滿意度作為評價聚類結果的指標,同時將可解釋性納入滿意度指標中。然后根據(jù)該指標,提出了基于用戶滿意度的聚類方法,實驗表明該方法能有效地提高聚類的可解釋性。本文關于數(shù)據(jù)挖掘過程可解釋性問題的研究在一定程度上彌補了現(xiàn)有研究的不足,其研究結果為數(shù)據(jù)挖掘領域可解釋性研究提供了有價值的線索。
【學位單位】:重慶大學
【學位級別】:博士
【學位年份】:2018
【中圖分類】:TP311.13
【部分圖文】:
并且其參數(shù)很容易確定[108]。1)算法思想DP 算法假設聚類中心被較低局部密度的點所圍繞,并且這些聚類中心離具有更高局部密度的點有相對較遠。因此,對于數(shù)據(jù)集中的任意數(shù)據(jù)點 i, DP 算法需要計算出它的局部密度(ρi)和它離更高密度點的距離(δi),其計算公式如下:( )i ij cj d d(3.1)如果 x<0,則 ( x) 1,否則 ( x) 0。ρi的值等價于到數(shù)據(jù)點 i 的距離小于dc的所有數(shù)據(jù)點的數(shù)量。:min ( )j ii ijj p p d (3.2)2)聚類過程通常認為局部密度 ρi較大且離更高密度點的距離 δi較大的點是類簇的中心點;局部密度 ρi較小但 δi較大的點是異常點。在確定了類簇中心之后,其他數(shù)據(jù)點根據(jù)其最鄰近高密度點的類標進行分類。
重慶大學博士學位論文小,所以是異常點。3)聚類分析聚類分析中通常需要確定每個點劃分給某個類簇的可靠性。在該算法中首先為每個類簇定義一個邊界區(qū)域,即劃分給該類簇但是距離其他類簇的點的距離小于dc的點。然后為每個類簇找到其邊界區(qū)域的局部密度最大的點,假設其局部密度為 ρh。該類簇中所有局部密度大于 ρh的點被認為是類簇核心的一部分,即將該點劃分給該類簇的可靠性很大。其余的點被認為是該類簇的光暈(halo),即可以認為是噪音。圖 3.3 為 DP 算法在人工合成數(shù)據(jù)上的實驗結果。
圖 3.4 DP 算法在不同數(shù)據(jù)分布上的測試結果Fig. 3.4 Results for test cases in different data distributions②一種改進后的 DP 算法DP 算法是一種簡潔的能識別各種形狀類簇的優(yōu)秀聚類算法,由于該算法是基于密度的,因此,可以稍加改進使其能識別各個類簇的任意高密度區(qū)域。該功能適用于選擇典型樣本的情況。DP 算法改進的基本思想是首先預設一個密度值 p 作為參數(shù),然后使 DP 算法能夠接收該參數(shù),最后將 DP 算法中的光暈(halo)點定義為所有局部密度值小于參數(shù) p 的數(shù)據(jù)點。改進后的 DP 算法的描述如下:算法 3.1 改進后的 DP 算法輸入:數(shù)據(jù)集 X = { x1, x2, , xn∈RN},X 中樣本的維數(shù)為 d預設密度參數(shù) p
本文編號:2819548
【學位單位】:重慶大學
【學位級別】:博士
【學位年份】:2018
【中圖分類】:TP311.13
【部分圖文】:
并且其參數(shù)很容易確定[108]。1)算法思想DP 算法假設聚類中心被較低局部密度的點所圍繞,并且這些聚類中心離具有更高局部密度的點有相對較遠。因此,對于數(shù)據(jù)集中的任意數(shù)據(jù)點 i, DP 算法需要計算出它的局部密度(ρi)和它離更高密度點的距離(δi),其計算公式如下:( )i ij cj d d(3.1)如果 x<0,則 ( x) 1,否則 ( x) 0。ρi的值等價于到數(shù)據(jù)點 i 的距離小于dc的所有數(shù)據(jù)點的數(shù)量。:min ( )j ii ijj p p d (3.2)2)聚類過程通常認為局部密度 ρi較大且離更高密度點的距離 δi較大的點是類簇的中心點;局部密度 ρi較小但 δi較大的點是異常點。在確定了類簇中心之后,其他數(shù)據(jù)點根據(jù)其最鄰近高密度點的類標進行分類。
重慶大學博士學位論文小,所以是異常點。3)聚類分析聚類分析中通常需要確定每個點劃分給某個類簇的可靠性。在該算法中首先為每個類簇定義一個邊界區(qū)域,即劃分給該類簇但是距離其他類簇的點的距離小于dc的點。然后為每個類簇找到其邊界區(qū)域的局部密度最大的點,假設其局部密度為 ρh。該類簇中所有局部密度大于 ρh的點被認為是類簇核心的一部分,即將該點劃分給該類簇的可靠性很大。其余的點被認為是該類簇的光暈(halo),即可以認為是噪音。圖 3.3 為 DP 算法在人工合成數(shù)據(jù)上的實驗結果。
圖 3.4 DP 算法在不同數(shù)據(jù)分布上的測試結果Fig. 3.4 Results for test cases in different data distributions②一種改進后的 DP 算法DP 算法是一種簡潔的能識別各種形狀類簇的優(yōu)秀聚類算法,由于該算法是基于密度的,因此,可以稍加改進使其能識別各個類簇的任意高密度區(qū)域。該功能適用于選擇典型樣本的情況。DP 算法改進的基本思想是首先預設一個密度值 p 作為參數(shù),然后使 DP 算法能夠接收該參數(shù),最后將 DP 算法中的光暈(halo)點定義為所有局部密度值小于參數(shù) p 的數(shù)據(jù)點。改進后的 DP 算法的描述如下:算法 3.1 改進后的 DP 算法輸入:數(shù)據(jù)集 X = { x1, x2, , xn∈RN},X 中樣本的維數(shù)為 d預設密度參數(shù) p
【參考文獻】
相關期刊論文 前7條
1 袁曉蕾;李曉東;吉運;王茁;;大學生上網情況與學業(yè)成績關系的實證研究[J];中國教育信息化;2015年10期
2 王國霞;劉賀平;;個性化推薦系統(tǒng)綜述[J];計算機工程與應用;2012年07期
3 化柏林;;數(shù)據(jù)挖掘與知識發(fā)現(xiàn)關系探析[J];情報理論與實踐;2008年04期
4 楊燕;靳蕃;KAMEL Mohamed;;聚類有效性評價綜述[J];計算機應用研究;2008年06期
5 陳凱;朱鈺;;機器學習及其相關算法綜述[J];統(tǒng)計與信息論壇;2007年05期
6 毛勇;周曉波;夏錚;尹征;孫優(yōu)賢;;特征選擇算法研究綜述[J];模式識別與人工智能;2007年02期
7 梁曉紅;;淺析網絡游戲對大學生的影響[J];科教文匯(上半月);2006年07期
相關博士學位論文 前1條
1 唐東明;聚類分析及其應用研究[D];電子科技大學;2010年
相關碩士學位論文 前1條
1 姜百寧;機器學習中的特征選擇算法研究[D];中國海洋大學;2009年
本文編號:2819548
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2819548.html