天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于多示例多標(biāo)簽支持向量機(jī)的網(wǎng)頁分類方法

發(fā)布時間:2018-05-15 23:33

  本文選題:多示例多標(biāo)簽 + 網(wǎng)頁分類; 參考:《中國石油大學(xué)(華東)》2014年碩士論文


【摘要】:隨著互聯(lián)網(wǎng)的普及,網(wǎng)絡(luò)的信息量呈指數(shù)增長,給人們從互聯(lián)網(wǎng)上獲取有用信息帶來了巨大的挑戰(zhàn),由此網(wǎng)頁分類技術(shù)應(yīng)運(yùn)而生,它可以幫助人們有效的組織和利用網(wǎng)絡(luò)上的海量信息。在眾多網(wǎng)頁自動分類算法中,多示例多標(biāo)簽框架下的支持向量機(jī)因其出色的學(xué)習(xí)能力,已成為機(jī)器學(xué)習(xí)界的研究熱點(diǎn)。介紹了網(wǎng)頁分類的一般流程及關(guān)鍵技術(shù),分析了支持向量機(jī)的發(fā)展、基本原理以及常用訓(xùn)練算法,闡述了目前幾種常用的多示例多標(biāo)簽框架下的訓(xùn)練算法,研究了最新的多示例多標(biāo)簽框架下的支持向量機(jī)算法——E-MIMLSVM+算法。針對目前多示例多標(biāo)簽支持向量機(jī)中的信息丟失問題,即標(biāo)簽與示例間的聯(lián)系信息和標(biāo)簽之間聯(lián)系信息,對多示例多標(biāo)簽支持向量機(jī)算法進(jìn)行改進(jìn),提出了基于集成分類器鏈的E-MIMLSVM+算法的改進(jìn)方法,集成分類器鏈?zhǔn)且环N能夠利用標(biāo)簽間聯(lián)系信息的技術(shù),這種技術(shù)因采用了特征空間和示例空間上的隨機(jī)子集選取策略,具有較低的時間復(fù)雜度和空間復(fù)雜度,能夠極大地提高算法的分類速度和準(zhǔn)確率。針對傳統(tǒng)監(jiān)督學(xué)習(xí)中存在的小樣本問題,提出了多示例多標(biāo)簽框架下的直推式支持向量機(jī)分類算法,這是一種半監(jiān)督學(xué)習(xí)方法,在已標(biāo)記樣本的數(shù)量有限的情況下,可以充分利用大量的未標(biāo)記樣本來訓(xùn)練分類模型,由于大量未標(biāo)記樣本的參與使得訓(xùn)練出的分類模型能夠更加準(zhǔn)確地反映樣本數(shù)據(jù)的分布規(guī)律,在遇到新樣本時分類模型可以給出更適合的分類輸出,有效地提高了分類算法的泛化能力。最后,根據(jù)改進(jìn)算法設(shè)計網(wǎng)頁分類系統(tǒng),并進(jìn)行了分類實(shí)驗(yàn)和實(shí)驗(yàn)結(jié)果分析。實(shí)驗(yàn)數(shù)據(jù)表明,改進(jìn)算法能夠提高分類速度和準(zhǔn)確率。
[Abstract]:With the popularity of the Internet, the amount of information on the network has increased exponentially, which has brought great challenges to people to obtain useful information from the Internet. As a result, the technology of web page classification has emerged as the times require. It can help people to effectively organize and use the vast amount of information on the network. Among many automatic web page classification algorithms, support vector machine (SVM) based on multi-example and multi-label framework has become a hot topic in the field of machine learning because of its excellent learning ability. This paper introduces the general flow and key technology of web page classification, analyzes the development, basic principle and common training algorithm of support vector machine, and expounds several common training algorithms under the framework of multi-example and multi-label. In this paper, the new support vector machine (SVM) algorithm based on multi-example and multi-label framework is studied. Aiming at the problem of information loss in multi-example multi-tag support vector machine, that is, the contact information between tag and example and the contact information between tags, the algorithm of multi-example multi-label support vector machine is improved. An improved method of E-MIMLSVM algorithm based on ensemble classifier chain is proposed. The integrated classifier chain is a technique that can utilize the information between tags. This technique adopts the strategy of random subset selection in feature space and sample space. With low time complexity and space complexity, the classification speed and accuracy of the algorithm can be greatly improved. In order to solve the problem of small sample in traditional supervised learning, this paper proposes a classification algorithm of direct push support vector machine (SVM) under the framework of multi-example and multi-label, which is a semi-supervised learning method, with a limited number of labeled samples. A large number of unlabeled samples can be fully used to train the classification model. Because of the participation of a large number of unlabeled samples, the trained classification model can more accurately reflect the distribution of sample data. When new samples are encountered, the classification model can give a more suitable classification output, which effectively improves the generalization ability of the classification algorithm. Finally, the web page classification system is designed according to the improved algorithm, and the classification experiments and experimental results are carried out. Experimental data show that the improved algorithm can improve the classification speed and accuracy.
【學(xué)位授予單位】:中國石油大學(xué)(華東)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP393.092

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 林茜卡;傅秀芬;滕少華;李云;;協(xié)同標(biāo)簽系統(tǒng)的應(yīng)用研究[J];暨南大學(xué)學(xué)報(自然科學(xué)與醫(yī)學(xué)版);2009年01期

2 吳超;周波;;基于復(fù)雜網(wǎng)絡(luò)的社會化標(biāo)簽分析[J];浙江大學(xué)學(xué)報(工學(xué)版);2010年11期

3 吳金成;曹嬌;趙文棟;張磊;;標(biāo)簽集中式發(fā)布訂閱機(jī)制性能分析[J];指揮控制與仿真;2010年06期

4 李曉燕;陳剛;壽黎但;董金祥;;一種面向協(xié)作標(biāo)簽系統(tǒng)的圖片檢索聚類方法[J];中國圖象圖形學(xué)報;2010年11期

5 袁柳;張龍波;;基于概率主題模型的標(biāo)簽預(yù)測[J];計算機(jī)科學(xué);2011年07期

6 張斌;張引;高克寧;郭朋偉;孫達(dá)明;;融合關(guān)系與內(nèi)容分析的社會標(biāo)簽推薦[J];軟件學(xué)報;2012年03期

7 王永剛;嚴(yán)寒冰;許俊峰;胡建斌;陳鐘;;垃圾標(biāo)簽的抵御方法研究[J];計算機(jī)研究與發(fā)展;2013年10期

8 汪祥;賈焰;周斌;陳儒華;韓毅;;基于交互關(guān)系的微博用戶標(biāo)簽預(yù)測[J];計算機(jī)工程與科學(xué);2013年10期

9 顧亦然;陳敏;;一種三部圖網(wǎng)絡(luò)中標(biāo)簽時間加權(quán)的推薦方法[J];計算機(jī)科學(xué);2012年08期

10 趙亞楠;董晶;董佳梁;;基于社會化標(biāo)注的博客標(biāo)簽推薦方法[J];計算機(jī)工程與設(shè)計;2012年12期

相關(guān)會議論文 前6條

1 朱廣飛;董超;王衡;汪國平;;照片標(biāo)簽的智能化管理[A];第四屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會議論文集[C];2008年

2 房冠南;袁彩霞;王小捷;李江;宋占江;;面向?qū)υ捳Z料的標(biāo)簽推薦[A];中國計算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

3 梅放;林鴻飛;;基于社會化標(biāo)簽的移動音樂檢索[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年

4 李靜;林鴻飛;;基于用戶情感標(biāo)簽的音樂檢索算法[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年

5 駱雄武;萬小軍;楊建武;吳於茜;;基于后綴樹的Web檢索結(jié)果聚類標(biāo)簽生成方法[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年

6 王波;唐常杰;段磊;尹佳;左R,

本文編號:1894454


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1894454.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7207e***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com