天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于MIMLRBF神經(jīng)網(wǎng)絡(luò)的網(wǎng)頁分類方法

發(fā)布時間:2018-08-04 20:14
【摘要】:隨著科技和網(wǎng)絡(luò)的發(fā)展與普及,海量信息通過網(wǎng)絡(luò)進行發(fā)布。為使人們能夠從海量的網(wǎng)頁中獲得有用的信息,網(wǎng)頁自動分類技術(shù)應(yīng)運而生,它是一種基于機器學(xué)習(xí)的網(wǎng)頁類別自動標(biāo)注的方法。其中,多示例多標(biāo)簽學(xué)習(xí)框架下的RBF神經(jīng)網(wǎng)絡(luò)有出色的學(xué)習(xí)和分類能力,已成為機器學(xué)習(xí)的研究熱點。介紹了RBF神經(jīng)網(wǎng)絡(luò)的發(fā)展歷程、原理以及相關(guān)技術(shù),分析了常用的RBF神經(jīng)網(wǎng)絡(luò)的訓(xùn)練分類算法,研究了多示例多標(biāo)簽這種新型的學(xué)習(xí)框架以及相關(guān)算法,重點討論了用RBF神經(jīng)網(wǎng)絡(luò)來解決多示例多標(biāo)簽問題而提出的MIMLRBF神經(jīng)網(wǎng)絡(luò)算法。在不平衡樣本集情況下,MIMLRBF神經(jīng)網(wǎng)絡(luò)產(chǎn)生隱層神經(jīng)元數(shù)量不平衡,訓(xùn)練時忽略了樣本較少的類,使得分類效果變差。針對此問題,本文提出了改進算法,首先確定樣本較少的類,根據(jù)此類別的樣本數(shù)量為每個類選擇一定數(shù)量并且相距較遠的初始聚類中心;對于各類別中的剩余樣本,根據(jù)此類樣本數(shù)量大小來判斷能否作為一個新的聚類中心;最后利用相關(guān)算法優(yōu)化中心對象。一個聚類中心對應(yīng)一個隱層神經(jīng)元,這樣就可以根據(jù)各類樣本的數(shù)量動態(tài)確定隱層神經(jīng)元的數(shù)量,使其趨于平衡,減少了不平衡性對網(wǎng)絡(luò)性能的影響。經(jīng)典的MIMLRBF神經(jīng)網(wǎng)絡(luò)算法為每一個徑向基函數(shù)選擇統(tǒng)一的寬度參數(shù)值,沒有考慮到每個中心點附近的樣本分布疏密情況。針對此問題,本文提出了考慮類簇內(nèi)樣本分布的改進算法。首先利用相關(guān)算法找到各個類別的中心點,計算中心點之間的平均距離和方差,中心點的分布反映整體樣本集的分布情況;然后計算每個類簇中樣本分布的方差,這個值反映了每個類簇內(nèi)樣本的分布情況;最后根據(jù)類簇分布和整體樣本分布為每個徑向基函數(shù)確定適當(dāng)?shù)膶挾戎?從而使得整個網(wǎng)絡(luò)更趨于平滑。最后,將本文算法與三個經(jīng)典算法在兩個通用數(shù)據(jù)集上做實驗對比,并將改進算法應(yīng)用于網(wǎng)頁分類系統(tǒng)中。實驗數(shù)據(jù)表明,本文提出的改進算法的分類效率和效果更勝一籌。
[Abstract]:With the development and popularization of science and technology and network, massive information is released through the network. In order to obtain useful information from a large number of web pages, the automatic classification technology of web pages emerges as the times require. It is a kind of automatic labeling method of web pages based on machine learning. Among them, the RBF neural network with multi-example and multi-label learning framework has excellent learning and classification ability, and has become a research hotspot in machine learning. This paper introduces the development course, principle and related technology of RBF neural network, analyzes the training classification algorithm of RBF neural network, and studies the new learning framework and related algorithm of multi-example and multi-label. The MIMLRBF neural network algorithm which uses RBF neural network to solve multi-example and multi-label problem is discussed. In the case of unbalanced sample set the MIMLRBF neural network produces an imbalance in the number of hidden layer neurons and neglects the classes with fewer samples during training which makes the classification effect worse. In order to solve this problem, an improved algorithm is proposed. Firstly, the class with fewer samples is determined. According to the number of samples in this class, the initial cluster center is selected for each class, which is far away from each class. According to the size of the samples, we can determine whether we can be a new cluster center. Finally, we use the correlation algorithm to optimize the center object. A cluster center corresponds to a hidden layer neuron, so the number of hidden layer neurons can be determined dynamically according to the number of samples, which tends to balance and reduces the effect of imbalance on network performance. The classical MIMLRBF neural network algorithm selects a uniform width parameter value for each radial basis function without considering the density of samples near each center point. To solve this problem, an improved algorithm considering the distribution of samples in clusters is proposed. First, the correlation algorithm is used to find the center points of each class, and the average distance and variance between the center points are calculated. The distribution of the center points reflects the distribution of the whole sample set, and then the variance of the sample distribution in each cluster is calculated. This value reflects the distribution of samples in each cluster, and finally determines the appropriate width value for each radial basis function according to the cluster distribution and the overall sample distribution, thus making the whole network smoother. Finally, the algorithm is compared with three classical algorithms on two general data sets, and the improved algorithm is applied to the web page classification system. Experimental data show that the classification efficiency and effect of the proposed improved algorithm are superior.
【學(xué)位授予單位】:中國石油大學(xué)(華東)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP393.092;TP183

【相似文獻】

相關(guān)期刊論文 前10條

1 高波,張忠能,查志琴;基于文字鏈接比的網(wǎng)頁分類的研究[J];計算機工程與應(yīng)用;2004年27期

2 魯明羽;沈抖;郭崇慧;陸玉昌;;面向網(wǎng)頁分類的網(wǎng)頁摘要方法[J];電子學(xué)報;2006年08期

3 張茂元;鄒春燕;盧正鼎;;一種基于變調(diào)整學(xué)習(xí)規(guī)則的模糊網(wǎng)頁分類方法研究[J];計算機研究與發(fā)展;2007年01期

4 劉蓉;周建中;;一種網(wǎng)頁分類中基于圖的半指導(dǎo)學(xué)習(xí)算法[J];計算機應(yīng)用研究;2008年03期

5 肖靖;唐寧九;;網(wǎng)絡(luò)監(jiān)控系統(tǒng)中的實用網(wǎng)頁分類技術(shù)[J];軟件導(dǎo)刊;2009年01期

6 劉思含;賈美娟;;樹匹配算法在網(wǎng)頁分類中的應(yīng)用[J];電腦學(xué)習(xí);2010年04期

7 薛永大;;網(wǎng)頁分類技術(shù)研究綜述[J];電腦知識與技術(shù);2012年25期

8 黃科,馬少平;基于統(tǒng)計分詞的中文網(wǎng)頁分類[J];中文信息學(xué)報;2002年06期

9 孫建濤,沈抖,陸玉昌,石純一;網(wǎng)頁分類技術(shù)[J];清華大學(xué)學(xué)報(自然科學(xué)版);2004年01期

10 程傳鵬;;中文網(wǎng)頁分類的研究與實現(xiàn)[J];中原工學(xué)院學(xué)報;2007年01期

相關(guān)會議論文 前7條

1 李立宇;唐世渭;楊冬青;葉恒強;王騰蛟;;COMMIX-Classifier—自動網(wǎng)頁分類系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2002年

2 萬中英;王明文;廖海波;左家莉;;維數(shù)約簡在網(wǎng)頁分類中的應(yīng)用[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年

3 彭濤;左萬利;赫楓齡;張長利;;基于粒子群優(yōu)化算法的網(wǎng)頁分類技術(shù)[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2006年

4 劉艷民;;中文網(wǎng)頁分類方法的研究[A];2009年全國開放式分布與并行計算機學(xué)術(shù)會議論文集(下冊)[C];2009年

5 張迪;鄭德權(quán);趙鐵軍;于浩;;Blog網(wǎng)頁分類與識別技術(shù)研究[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(上冊)[C];2007年

6 張東娜;彭宏;吳鐵峰;;一種基于粗集與貝葉斯分類器的中文網(wǎng)頁分類方法[A];第一屆全國Web信息系統(tǒng)及其應(yīng)用會議(WISA2004)論文集[C];2004年

7 米曉芳;秦洋;王立宏;宋宜斌;;基于潛在語義差異的醫(yī)學(xué)網(wǎng)頁分類[A];2007北京地區(qū)高校研究生學(xué)術(shù)交流會通信與信息技術(shù)會議論文集(上冊)[C];2008年

相關(guān)碩士學(xué)位論文 前10條

1 周軍;中文網(wǎng)頁自動分類系統(tǒng)及關(guān)鍵技術(shù)研究與實現(xiàn)[D];國防科學(xué)技術(shù)大學(xué);2013年

2 王綿綿;基于MIMLRBF神經(jīng)網(wǎng)絡(luò)的網(wǎng)頁分類方法[D];中國石油大學(xué)(華東);2014年

3 王晶;面向通信管理的電子政務(wù)系統(tǒng)及其網(wǎng)頁分類的研究與實現(xiàn)[D];上海交通大學(xué);2009年

4 韓培培;網(wǎng)頁分類及存儲查詢系統(tǒng)的設(shè)計及實現(xiàn)[D];燕山大學(xué);2010年

5 張祥;一個網(wǎng)頁分類系統(tǒng)的研究與實現(xiàn)[D];北京郵電大學(xué);2013年

6 伍菲;面向主題型的網(wǎng)頁分類技術(shù)的研究與實現(xiàn)[D];華中科技大學(xué);2011年

7 段昕;基于視覺特征中文網(wǎng)頁分類方法的研究[D];山東大學(xué);2007年

8 汪雷;基于文本挖掘的網(wǎng)頁分類系統(tǒng)研究與實現(xiàn)[D];武漢理工大學(xué);2013年

9 許世明;中文網(wǎng)頁分類技術(shù)研究及預(yù)分類算法實現(xiàn)[D];西安電子科技大學(xué);2009年

10 劉康煒;基于支持向量機的網(wǎng)頁分類技術(shù)研究[D];中國石油大學(xué);2009年

,

本文編號:2165014

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2165014.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶cbcec***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com