基于支持向量機(jī)主動(dòng)學(xué)習(xí)的網(wǎng)頁(yè)分類方法
發(fā)布時(shí)間:2021-11-09 09:14
隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展以及信息量爆炸式的增長(zhǎng),如何對(duì)這些海量數(shù)據(jù)進(jìn)行自動(dòng)分類已成為當(dāng)今網(wǎng)頁(yè)分類領(lǐng)域研究熱點(diǎn)。在眾多網(wǎng)頁(yè)自動(dòng)分類算法中,支持向量機(jī)(SVM)以其出色的學(xué)習(xí)能力和較高的分類精度,已被各個(gè)互聯(lián)網(wǎng)公司的科研部門(mén)所采納。本文中介紹了支持向量機(jī)的研究現(xiàn)狀、理論基礎(chǔ)和訓(xùn)練過(guò)程。分析了主動(dòng)學(xué)習(xí)思想在支持向量機(jī)中的應(yīng)用以及多類別分類問(wèn)題。針對(duì)在傳統(tǒng)主動(dòng)學(xué)習(xí)算法中隨機(jī)或者根據(jù)先驗(yàn)概率來(lái)選取初始樣本點(diǎn)的問(wèn)題,以及在選取訓(xùn)練集時(shí)奇異點(diǎn)對(duì)整體算法的影響等因素,提出了一種新的選擇標(biāo)準(zhǔn):首先應(yīng)用最大最小距離算法獲取初始聚類中心,然后應(yīng)用K-means算法得到精確的聚類中心并以聚類中心作為初始樣本點(diǎn),從而避免了隨機(jī)地選擇初始樣本點(diǎn);在進(jìn)行訓(xùn)練樣本點(diǎn)選取時(shí)應(yīng)用樣本點(diǎn)縮減的思想,將縮減后的樣本集聚類,以聚類中心作為新的訓(xùn)練點(diǎn),該方法能夠減小選到奇異點(diǎn)的風(fēng)險(xiǎn)。由于支持向量機(jī)只能處理兩類分類問(wèn)題,而現(xiàn)實(shí)的網(wǎng)頁(yè)分類通常為多類別分類。所以本文結(jié)合訓(xùn)練集縮減聚類選擇的主動(dòng)學(xué)習(xí)方法,提出一種基于二叉樹(shù)的多類主動(dòng)學(xué)習(xí)分類算法。最后,將改進(jìn)的主動(dòng)學(xué)習(xí)訓(xùn)練算法應(yīng)用到網(wǎng)頁(yè)分類中,對(duì)改進(jìn)算法進(jìn)行試驗(yàn)對(duì)比。實(shí)驗(yàn)結(jié)果表明,改進(jìn)算...
【文章來(lái)源】:中國(guó)石油大學(xué)(華東)山東省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:62 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
非線
27 圖3-6 查全率與查全率對(duì)比Fig3-6 Comparison of recall and precision表3-5是使用改進(jìn)算法和主動(dòng)學(xué)習(xí)算法所得到分類器分別對(duì)測(cè)試集樣本進(jìn)行分類所得到的查準(zhǔn)率和查全率的值,而圖 3-6 則是對(duì)這兩組數(shù)據(jù)通過(guò)圖表的形式進(jìn)行更直觀的展示。從上述結(jié)果中不難看出,兩類算法都具有很好的可擴(kuò)展性,即對(duì)新的未知樣本能夠有一個(gè)很好的分類,但改進(jìn)算法整體的性能是高于主動(dòng)學(xué)習(xí)算法的。從圖表中我們還能看出一個(gè)客觀的結(jié)論,那就是查準(zhǔn)率和查全率一般是成反比的關(guān)系,即查全率高的查準(zhǔn)率往往比較低,這也從另一方面驗(yàn)證了我們程序的正確性。3.5 本章小結(jié)在本章中針對(duì)主動(dòng)學(xué)習(xí)中存在的問(wèn)題提出了一種改進(jìn)算法。由于基于主動(dòng)學(xué)習(xí)算法選取初始樣本點(diǎn)的隨機(jī)性或者根據(jù)先驗(yàn)概率而沒(méi)有一個(gè)選取標(biāo)準(zhǔn)的問(wèn)題。本文提出了先聚類,然后選取聚類中心點(diǎn)作為初始訓(xùn)練樣本點(diǎn)的方法,在該過(guò)程中首先采用最大最小距離法得到初始的聚類中心,然后應(yīng)用 K-means 算法優(yōu)化聚類中心從而得到最終的初始樣本點(diǎn)
Fig4-1 the process of DAG decision碼分類多類分類問(wèn)題時(shí),我們最好根據(jù)該問(wèn)題的特征來(lái)構(gòu)造出這些兩類分類的決策函數(shù),最后根據(jù)這些決策函策函數(shù)。不失一般性,我們來(lái)考慮將 M 個(gè)類進(jìn)行分 L 個(gè)小的兩類分類問(wèn)題。數(shù)據(jù)進(jìn)行預(yù)處理完后將得陣ijMLSs ( ),該矩陣是 M L階。該矩陣的第i行把第i類在第 j 個(gè)兩類分類問(wèn)題中看作是正類的話別看成是負(fù)類,并且 1ijs 。下面解決的問(wèn)題就是函數(shù)。我們以第 j 個(gè)兩類問(wèn)題為例,那么就能對(duì)于任意一個(gè)輸入值x,應(yīng)該先用得到的 L 個(gè)決策
【參考文獻(xiàn)】:
期刊論文
[1]基于集成的非均衡數(shù)據(jù)分類主動(dòng)學(xué)習(xí)算法[J]. 李卓然,張永. 計(jì)算機(jī)應(yīng)用與軟件. 2012(06)
[2]文本分類中改進(jìn)型CHI特征選擇方法的研究[J]. 裴英博,劉曉霞. 計(jì)算機(jī)工程與應(yīng)用. 2011(04)
[3]一種基于中心文檔的KNN中文文本分類算法[J]. 魯婷,王浩,姚宏亮. 計(jì)算機(jī)工程與應(yīng)用. 2011(02)
[4]支持帶有通配符的字符串匹配算法[J]. 運(yùn)正佳,李軼男,楊曉春. 計(jì)算機(jī)科學(xué)與探索. 2010(11)
[5]屬性加權(quán)的樸素貝葉斯集成分類器[J]. 張?chǎng)?張化祥. 計(jì)算機(jī)工程與應(yīng)用. 2010(29)
[6]對(duì)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的研究[J]. 楊靖韜,陳會(huì)果. 科技創(chuàng)業(yè)月刊. 2010(10)
[7]基于統(tǒng)計(jì)方法的Web新詞分詞方法研究[J]. 張敏,王春紅. 計(jì)算機(jī)工程與科學(xué). 2010(05)
[8]一種基于預(yù)分類的高效SVM中文網(wǎng)頁(yè)分類器[J]. 許世明,武波,馬翠,邸思,徐洪奎,杜如虛. 計(jì)算機(jī)工程與應(yīng)用. 2010(01)
[9]主動(dòng)學(xué)習(xí)研究綜述[J]. 龍軍,殷建平,祝恩,趙文濤. 計(jì)算機(jī)研究與發(fā)展. 2008(S1)
[10]中文文本分類中的特征選擇算法研究[J]. 胡佳妮,徐蔚然,郭軍,鄧偉洪. 光通信研究. 2005(03)
碩士論文
[1]中文Web文檔傾向性自動(dòng)分類研究[D]. 胡蓉.四川大學(xué) 2003
本文編號(hào):3485049
【文章來(lái)源】:中國(guó)石油大學(xué)(華東)山東省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:62 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
非線
27 圖3-6 查全率與查全率對(duì)比Fig3-6 Comparison of recall and precision表3-5是使用改進(jìn)算法和主動(dòng)學(xué)習(xí)算法所得到分類器分別對(duì)測(cè)試集樣本進(jìn)行分類所得到的查準(zhǔn)率和查全率的值,而圖 3-6 則是對(duì)這兩組數(shù)據(jù)通過(guò)圖表的形式進(jìn)行更直觀的展示。從上述結(jié)果中不難看出,兩類算法都具有很好的可擴(kuò)展性,即對(duì)新的未知樣本能夠有一個(gè)很好的分類,但改進(jìn)算法整體的性能是高于主動(dòng)學(xué)習(xí)算法的。從圖表中我們還能看出一個(gè)客觀的結(jié)論,那就是查準(zhǔn)率和查全率一般是成反比的關(guān)系,即查全率高的查準(zhǔn)率往往比較低,這也從另一方面驗(yàn)證了我們程序的正確性。3.5 本章小結(jié)在本章中針對(duì)主動(dòng)學(xué)習(xí)中存在的問(wèn)題提出了一種改進(jìn)算法。由于基于主動(dòng)學(xué)習(xí)算法選取初始樣本點(diǎn)的隨機(jī)性或者根據(jù)先驗(yàn)概率而沒(méi)有一個(gè)選取標(biāo)準(zhǔn)的問(wèn)題。本文提出了先聚類,然后選取聚類中心點(diǎn)作為初始訓(xùn)練樣本點(diǎn)的方法,在該過(guò)程中首先采用最大最小距離法得到初始的聚類中心,然后應(yīng)用 K-means 算法優(yōu)化聚類中心從而得到最終的初始樣本點(diǎn)
Fig4-1 the process of DAG decision碼分類多類分類問(wèn)題時(shí),我們最好根據(jù)該問(wèn)題的特征來(lái)構(gòu)造出這些兩類分類的決策函數(shù),最后根據(jù)這些決策函策函數(shù)。不失一般性,我們來(lái)考慮將 M 個(gè)類進(jìn)行分 L 個(gè)小的兩類分類問(wèn)題。數(shù)據(jù)進(jìn)行預(yù)處理完后將得陣ijMLSs ( ),該矩陣是 M L階。該矩陣的第i行把第i類在第 j 個(gè)兩類分類問(wèn)題中看作是正類的話別看成是負(fù)類,并且 1ijs 。下面解決的問(wèn)題就是函數(shù)。我們以第 j 個(gè)兩類問(wèn)題為例,那么就能對(duì)于任意一個(gè)輸入值x,應(yīng)該先用得到的 L 個(gè)決策
【參考文獻(xiàn)】:
期刊論文
[1]基于集成的非均衡數(shù)據(jù)分類主動(dòng)學(xué)習(xí)算法[J]. 李卓然,張永. 計(jì)算機(jī)應(yīng)用與軟件. 2012(06)
[2]文本分類中改進(jìn)型CHI特征選擇方法的研究[J]. 裴英博,劉曉霞. 計(jì)算機(jī)工程與應(yīng)用. 2011(04)
[3]一種基于中心文檔的KNN中文文本分類算法[J]. 魯婷,王浩,姚宏亮. 計(jì)算機(jī)工程與應(yīng)用. 2011(02)
[4]支持帶有通配符的字符串匹配算法[J]. 運(yùn)正佳,李軼男,楊曉春. 計(jì)算機(jī)科學(xué)與探索. 2010(11)
[5]屬性加權(quán)的樸素貝葉斯集成分類器[J]. 張?chǎng)?張化祥. 計(jì)算機(jī)工程與應(yīng)用. 2010(29)
[6]對(duì)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的研究[J]. 楊靖韜,陳會(huì)果. 科技創(chuàng)業(yè)月刊. 2010(10)
[7]基于統(tǒng)計(jì)方法的Web新詞分詞方法研究[J]. 張敏,王春紅. 計(jì)算機(jī)工程與科學(xué). 2010(05)
[8]一種基于預(yù)分類的高效SVM中文網(wǎng)頁(yè)分類器[J]. 許世明,武波,馬翠,邸思,徐洪奎,杜如虛. 計(jì)算機(jī)工程與應(yīng)用. 2010(01)
[9]主動(dòng)學(xué)習(xí)研究綜述[J]. 龍軍,殷建平,祝恩,趙文濤. 計(jì)算機(jī)研究與發(fā)展. 2008(S1)
[10]中文文本分類中的特征選擇算法研究[J]. 胡佳妮,徐蔚然,郭軍,鄧偉洪. 光通信研究. 2005(03)
碩士論文
[1]中文Web文檔傾向性自動(dòng)分類研究[D]. 胡蓉.四川大學(xué) 2003
本文編號(hào):3485049
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3485049.html
最近更新
教材專著