基于決策函數的多標簽分類研究
發(fā)布時間:2021-11-12 09:54
近年來,隨著計算機技術的迅猛發(fā)展和社會的日益信息化,日常生活中的交易數據呈爆炸式涌現(xiàn).如何從海量數據中獲取有用的信息并對其進行合理歸類,是數據時代需要研究的一個至關重要的問題.多標簽分類是指把一個實例分派到多個不同標簽的一個集合,這個問題等價于尋找一個多值的決策函數,把每一個實例映射到二元類的一個向量.通常,用于多標簽分類的算法有二元相關性方法和鏈分類器,當貝葉斯網絡增廣的樸素貝葉斯作為基礎模型時,這兩個方法可以誘導出一個多項式表示的決策函數.本文主要基于此決策函數對多標簽分類進行深入研究,主要研究工作如下:首先,為了提高決策函數的分類質量,本文提出了一個新的特征權重的方法——概率特征權重.它把特征屬性的正負類實例的頻率比作為權重,此特征權重來源于數據本身,能夠較好的適應于數據集的改變.由于概率特征權重只是出現(xiàn)在決策函數的條件概率估計中,它可以保證對決策函數的分類結果施加一個正影響.通過在多標簽數據集上的實驗結果表明,概率特征權重方法能夠較好地提升決策函數的分類質量.此外,為了簡化決策函數,減少決策函數的計算復雜度,本文提出了決策函數無關變量的判別定理,通過對無關變量的選擇和消除來簡化...
【文章來源】:西安電子科技大學陜西省 211工程院校 教育部直屬院校
【文章頁數】:73 頁
【學位級別】:碩士
【部分圖文】:
單標簽分類圖
圖 1.1 單標簽分類圖 圖 1.2 多標簽分類圖在多標簽分類中,標簽中的不平衡現(xiàn)象廣泛存在,多標簽不平衡問題也是問題中需要研究的一個重點內容.在傳統(tǒng)的多標簽分類算法中,算法對多分類能力要遠遠高于對少數類的分類能力,然而,在不平衡數據分類中,的是少數類的分類情況.舉例如下:若一組數據集中一共有一百條實例,五條為同一個類,而另外五條屬于另一個類,如果算法把所有數據都分成多算法的分類精度達到了百分之九十五,這對于正常的分類算法來說,分類于高的范疇,但是算法對少數類的識別率為零,所以,將此算法用于標簽分類是不合理的.多標簽不平衡現(xiàn)象在現(xiàn)實生活中也很常見,一個現(xiàn)象是現(xiàn)情況的預測問題[4].對當前的教育現(xiàn)狀來說,學生在學校的學習生活情生常談和飽受關注的問題,一些在學校表現(xiàn)不好,學習成績差,違反學校學的學生個數要遠遠少于正常的學生,對影響學生的學習成績,學校生活和心理素質等因素的數據集進行采集,非正常學生采集的數據自然要比正據少的多,因此,對學生在學校表現(xiàn)情況進行評估預測,就是解決一個多
標簽分類問題是指把一個實例指派給一個標簽集的子集,這個問題等價值的決策函數[20],即把每一個實例映射到一個二元類的向量.解決一個題就是把每一個實例1( , , )nx = x x映射到 h 個標簽的一個子集,即1 1{y , , y },n hW=W ′ ′ W Y í y= i 是第i個屬性的取值空間, ,i i iW ì R W = m<¥ .im 是第 i 個屬性取值簽集,iy 指第 i 個標簽.通常多標簽分類問題可以轉化為一個多維的二元就是說,尋找一個h值決策函數 f 把含有n個預測變量的實例 x映射到向量1( , , ),hc = c c其中 { 1, 1} ,ic - + 即11 1: { 1, 1}( , , ) ( , , ),hnn hfx x c cW=W ′ ′W - + 1ic =+ 表示在預測標簽集Y 中第 i 個標簽是存在的, 1ic =- 表示在預第i個標簽是不存在的.我們把分類預測變量1, ,nX X和二元類變量C變量.
【參考文獻】:
博士論文
[1]貝葉斯網絡應用基礎研究[D]. 董立巖.吉林大學 2007
碩士論文
[1]基于卷積神經網絡的多標簽場景分類[D]. 陳智.山東大學 2015
[2]規(guī)范化標簽傳遞法處理標簽不平衡問題的研究[D]. 薛曼.大連理工大學 2013
[3]離散化算法研究與應用[D]. 王哲.大連理工大學 2009
[4]連續(xù)屬性離散化方法研究[D]. 闕夏.合肥工業(yè)大學 2006
本文編號:3490674
【文章來源】:西安電子科技大學陜西省 211工程院校 教育部直屬院校
【文章頁數】:73 頁
【學位級別】:碩士
【部分圖文】:
單標簽分類圖
圖 1.1 單標簽分類圖 圖 1.2 多標簽分類圖在多標簽分類中,標簽中的不平衡現(xiàn)象廣泛存在,多標簽不平衡問題也是問題中需要研究的一個重點內容.在傳統(tǒng)的多標簽分類算法中,算法對多分類能力要遠遠高于對少數類的分類能力,然而,在不平衡數據分類中,的是少數類的分類情況.舉例如下:若一組數據集中一共有一百條實例,五條為同一個類,而另外五條屬于另一個類,如果算法把所有數據都分成多算法的分類精度達到了百分之九十五,這對于正常的分類算法來說,分類于高的范疇,但是算法對少數類的識別率為零,所以,將此算法用于標簽分類是不合理的.多標簽不平衡現(xiàn)象在現(xiàn)實生活中也很常見,一個現(xiàn)象是現(xiàn)情況的預測問題[4].對當前的教育現(xiàn)狀來說,學生在學校的學習生活情生常談和飽受關注的問題,一些在學校表現(xiàn)不好,學習成績差,違反學校學的學生個數要遠遠少于正常的學生,對影響學生的學習成績,學校生活和心理素質等因素的數據集進行采集,非正常學生采集的數據自然要比正據少的多,因此,對學生在學校表現(xiàn)情況進行評估預測,就是解決一個多
標簽分類問題是指把一個實例指派給一個標簽集的子集,這個問題等價值的決策函數[20],即把每一個實例映射到一個二元類的向量.解決一個題就是把每一個實例1( , , )nx = x x映射到 h 個標簽的一個子集,即1 1{y , , y },n hW=W ′ ′ W Y í y= i 是第i個屬性的取值空間, ,i i iW ì R W = m<¥ .im 是第 i 個屬性取值簽集,iy 指第 i 個標簽.通常多標簽分類問題可以轉化為一個多維的二元就是說,尋找一個h值決策函數 f 把含有n個預測變量的實例 x映射到向量1( , , ),hc = c c其中 { 1, 1} ,ic - + 即11 1: { 1, 1}( , , ) ( , , ),hnn hfx x c cW=W ′ ′W - + 1ic =+ 表示在預測標簽集Y 中第 i 個標簽是存在的, 1ic =- 表示在預第i個標簽是不存在的.我們把分類預測變量1, ,nX X和二元類變量C變量.
【參考文獻】:
博士論文
[1]貝葉斯網絡應用基礎研究[D]. 董立巖.吉林大學 2007
碩士論文
[1]基于卷積神經網絡的多標簽場景分類[D]. 陳智.山東大學 2015
[2]規(guī)范化標簽傳遞法處理標簽不平衡問題的研究[D]. 薛曼.大連理工大學 2013
[3]離散化算法研究與應用[D]. 王哲.大連理工大學 2009
[4]連續(xù)屬性離散化方法研究[D]. 闕夏.合肥工業(yè)大學 2006
本文編號:3490674
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3490674.html
最近更新
教材專著