基于支持向量機主動學習的網(wǎng)頁分類方法
發(fā)布時間:2021-11-09 09:14
隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展以及信息量爆炸式的增長,如何對這些海量數(shù)據(jù)進行自動分類已成為當今網(wǎng)頁分類領域研究熱點。在眾多網(wǎng)頁自動分類算法中,支持向量機(SVM)以其出色的學習能力和較高的分類精度,已被各個互聯(lián)網(wǎng)公司的科研部門所采納。本文中介紹了支持向量機的研究現(xiàn)狀、理論基礎和訓練過程。分析了主動學習思想在支持向量機中的應用以及多類別分類問題。針對在傳統(tǒng)主動學習算法中隨機或者根據(jù)先驗概率來選取初始樣本點的問題,以及在選取訓練集時奇異點對整體算法的影響等因素,提出了一種新的選擇標準:首先應用最大最小距離算法獲取初始聚類中心,然后應用K-means算法得到精確的聚類中心并以聚類中心作為初始樣本點,從而避免了隨機地選擇初始樣本點;在進行訓練樣本點選取時應用樣本點縮減的思想,將縮減后的樣本集聚類,以聚類中心作為新的訓練點,該方法能夠減小選到奇異點的風險。由于支持向量機只能處理兩類分類問題,而現(xiàn)實的網(wǎng)頁分類通常為多類別分類。所以本文結(jié)合訓練集縮減聚類選擇的主動學習方法,提出一種基于二叉樹的多類主動學習分類算法。最后,將改進的主動學習訓練算法應用到網(wǎng)頁分類中,對改進算法進行試驗對比。實驗結(jié)果表明,改進算...
【文章來源】:中國石油大學(華東)山東省 211工程院校 教育部直屬院校
【文章頁數(shù)】:62 頁
【學位級別】:碩士
【部分圖文】:
非線
27 圖3-6 查全率與查全率對比Fig3-6 Comparison of recall and precision表3-5是使用改進算法和主動學習算法所得到分類器分別對測試集樣本進行分類所得到的查準率和查全率的值,而圖 3-6 則是對這兩組數(shù)據(jù)通過圖表的形式進行更直觀的展示。從上述結(jié)果中不難看出,兩類算法都具有很好的可擴展性,即對新的未知樣本能夠有一個很好的分類,但改進算法整體的性能是高于主動學習算法的。從圖表中我們還能看出一個客觀的結(jié)論,那就是查準率和查全率一般是成反比的關(guān)系,即查全率高的查準率往往比較低,這也從另一方面驗證了我們程序的正確性。3.5 本章小結(jié)在本章中針對主動學習中存在的問題提出了一種改進算法。由于基于主動學習算法選取初始樣本點的隨機性或者根據(jù)先驗概率而沒有一個選取標準的問題。本文提出了先聚類,然后選取聚類中心點作為初始訓練樣本點的方法,在該過程中首先采用最大最小距離法得到初始的聚類中心,然后應用 K-means 算法優(yōu)化聚類中心從而得到最終的初始樣本點
Fig4-1 the process of DAG decision碼分類多類分類問題時,我們最好根據(jù)該問題的特征來構(gòu)造出這些兩類分類的決策函數(shù),最后根據(jù)這些決策函策函數(shù)。不失一般性,我們來考慮將 M 個類進行分 L 個小的兩類分類問題。數(shù)據(jù)進行預處理完后將得陣ijMLSs ( ),該矩陣是 M L階。該矩陣的第i行把第i類在第 j 個兩類分類問題中看作是正類的話別看成是負類,并且 1ijs 。下面解決的問題就是函數(shù)。我們以第 j 個兩類問題為例,那么就能對于任意一個輸入值x,應該先用得到的 L 個決策
【參考文獻】:
期刊論文
[1]基于集成的非均衡數(shù)據(jù)分類主動學習算法[J]. 李卓然,張永. 計算機應用與軟件. 2012(06)
[2]文本分類中改進型CHI特征選擇方法的研究[J]. 裴英博,劉曉霞. 計算機工程與應用. 2011(04)
[3]一種基于中心文檔的KNN中文文本分類算法[J]. 魯婷,王浩,姚宏亮. 計算機工程與應用. 2011(02)
[4]支持帶有通配符的字符串匹配算法[J]. 運正佳,李軼男,楊曉春. 計算機科學與探索. 2010(11)
[5]屬性加權(quán)的樸素貝葉斯集成分類器[J]. 張雯,張化祥. 計算機工程與應用. 2010(29)
[6]對網(wǎng)絡爬蟲技術(shù)的研究[J]. 楊靖韜,陳會果. 科技創(chuàng)業(yè)月刊. 2010(10)
[7]基于統(tǒng)計方法的Web新詞分詞方法研究[J]. 張敏,王春紅. 計算機工程與科學. 2010(05)
[8]一種基于預分類的高效SVM中文網(wǎng)頁分類器[J]. 許世明,武波,馬翠,邸思,徐洪奎,杜如虛. 計算機工程與應用. 2010(01)
[9]主動學習研究綜述[J]. 龍軍,殷建平,祝恩,趙文濤. 計算機研究與發(fā)展. 2008(S1)
[10]中文文本分類中的特征選擇算法研究[J]. 胡佳妮,徐蔚然,郭軍,鄧偉洪. 光通信研究. 2005(03)
碩士論文
[1]中文Web文檔傾向性自動分類研究[D]. 胡蓉.四川大學 2003
本文編號:3485049
【文章來源】:中國石油大學(華東)山東省 211工程院校 教育部直屬院校
【文章頁數(shù)】:62 頁
【學位級別】:碩士
【部分圖文】:
非線
27 圖3-6 查全率與查全率對比Fig3-6 Comparison of recall and precision表3-5是使用改進算法和主動學習算法所得到分類器分別對測試集樣本進行分類所得到的查準率和查全率的值,而圖 3-6 則是對這兩組數(shù)據(jù)通過圖表的形式進行更直觀的展示。從上述結(jié)果中不難看出,兩類算法都具有很好的可擴展性,即對新的未知樣本能夠有一個很好的分類,但改進算法整體的性能是高于主動學習算法的。從圖表中我們還能看出一個客觀的結(jié)論,那就是查準率和查全率一般是成反比的關(guān)系,即查全率高的查準率往往比較低,這也從另一方面驗證了我們程序的正確性。3.5 本章小結(jié)在本章中針對主動學習中存在的問題提出了一種改進算法。由于基于主動學習算法選取初始樣本點的隨機性或者根據(jù)先驗概率而沒有一個選取標準的問題。本文提出了先聚類,然后選取聚類中心點作為初始訓練樣本點的方法,在該過程中首先采用最大最小距離法得到初始的聚類中心,然后應用 K-means 算法優(yōu)化聚類中心從而得到最終的初始樣本點
Fig4-1 the process of DAG decision碼分類多類分類問題時,我們最好根據(jù)該問題的特征來構(gòu)造出這些兩類分類的決策函數(shù),最后根據(jù)這些決策函策函數(shù)。不失一般性,我們來考慮將 M 個類進行分 L 個小的兩類分類問題。數(shù)據(jù)進行預處理完后將得陣ijMLSs ( ),該矩陣是 M L階。該矩陣的第i行把第i類在第 j 個兩類分類問題中看作是正類的話別看成是負類,并且 1ijs 。下面解決的問題就是函數(shù)。我們以第 j 個兩類問題為例,那么就能對于任意一個輸入值x,應該先用得到的 L 個決策
【參考文獻】:
期刊論文
[1]基于集成的非均衡數(shù)據(jù)分類主動學習算法[J]. 李卓然,張永. 計算機應用與軟件. 2012(06)
[2]文本分類中改進型CHI特征選擇方法的研究[J]. 裴英博,劉曉霞. 計算機工程與應用. 2011(04)
[3]一種基于中心文檔的KNN中文文本分類算法[J]. 魯婷,王浩,姚宏亮. 計算機工程與應用. 2011(02)
[4]支持帶有通配符的字符串匹配算法[J]. 運正佳,李軼男,楊曉春. 計算機科學與探索. 2010(11)
[5]屬性加權(quán)的樸素貝葉斯集成分類器[J]. 張雯,張化祥. 計算機工程與應用. 2010(29)
[6]對網(wǎng)絡爬蟲技術(shù)的研究[J]. 楊靖韜,陳會果. 科技創(chuàng)業(yè)月刊. 2010(10)
[7]基于統(tǒng)計方法的Web新詞分詞方法研究[J]. 張敏,王春紅. 計算機工程與科學. 2010(05)
[8]一種基于預分類的高效SVM中文網(wǎng)頁分類器[J]. 許世明,武波,馬翠,邸思,徐洪奎,杜如虛. 計算機工程與應用. 2010(01)
[9]主動學習研究綜述[J]. 龍軍,殷建平,祝恩,趙文濤. 計算機研究與發(fā)展. 2008(S1)
[10]中文文本分類中的特征選擇算法研究[J]. 胡佳妮,徐蔚然,郭軍,鄧偉洪. 光通信研究. 2005(03)
碩士論文
[1]中文Web文檔傾向性自動分類研究[D]. 胡蓉.四川大學 2003
本文編號:3485049
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3485049.html
最近更新
教材專著