基于MIMLRBF神經(jīng)網(wǎng)絡(luò)的網(wǎng)頁分類方法
[Abstract]:With the development and popularization of science and technology and network, massive information is released through the network. In order to obtain useful information from a large number of web pages, the automatic classification technology of web pages emerges as the times require. It is a kind of automatic labeling method of web pages based on machine learning. Among them, the RBF neural network with multi-example and multi-label learning framework has excellent learning and classification ability, and has become a research hotspot in machine learning. This paper introduces the development course, principle and related technology of RBF neural network, analyzes the training classification algorithm of RBF neural network, and studies the new learning framework and related algorithm of multi-example and multi-label. The MIMLRBF neural network algorithm which uses RBF neural network to solve multi-example and multi-label problem is discussed. In the case of unbalanced sample set the MIMLRBF neural network produces an imbalance in the number of hidden layer neurons and neglects the classes with fewer samples during training which makes the classification effect worse. In order to solve this problem, an improved algorithm is proposed. Firstly, the class with fewer samples is determined. According to the number of samples in this class, the initial cluster center is selected for each class, which is far away from each class. According to the size of the samples, we can determine whether we can be a new cluster center. Finally, we use the correlation algorithm to optimize the center object. A cluster center corresponds to a hidden layer neuron, so the number of hidden layer neurons can be determined dynamically according to the number of samples, which tends to balance and reduces the effect of imbalance on network performance. The classical MIMLRBF neural network algorithm selects a uniform width parameter value for each radial basis function without considering the density of samples near each center point. To solve this problem, an improved algorithm considering the distribution of samples in clusters is proposed. First, the correlation algorithm is used to find the center points of each class, and the average distance and variance between the center points are calculated. The distribution of the center points reflects the distribution of the whole sample set, and then the variance of the sample distribution in each cluster is calculated. This value reflects the distribution of samples in each cluster, and finally determines the appropriate width value for each radial basis function according to the cluster distribution and the overall sample distribution, thus making the whole network smoother. Finally, the algorithm is compared with three classical algorithms on two general data sets, and the improved algorithm is applied to the web page classification system. Experimental data show that the classification efficiency and effect of the proposed improved algorithm are superior.
【學(xué)位授予單位】:中國石油大學(xué)(華東)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP393.092;TP183
【相似文獻】
相關(guān)期刊論文 前10條
1 高波,張忠能,查志琴;基于文字鏈接比的網(wǎng)頁分類的研究[J];計算機工程與應(yīng)用;2004年27期
2 魯明羽;沈抖;郭崇慧;陸玉昌;;面向網(wǎng)頁分類的網(wǎng)頁摘要方法[J];電子學(xué)報;2006年08期
3 張茂元;鄒春燕;盧正鼎;;一種基于變調(diào)整學(xué)習(xí)規(guī)則的模糊網(wǎng)頁分類方法研究[J];計算機研究與發(fā)展;2007年01期
4 劉蓉;周建中;;一種網(wǎng)頁分類中基于圖的半指導(dǎo)學(xué)習(xí)算法[J];計算機應(yīng)用研究;2008年03期
5 肖靖;唐寧九;;網(wǎng)絡(luò)監(jiān)控系統(tǒng)中的實用網(wǎng)頁分類技術(shù)[J];軟件導(dǎo)刊;2009年01期
6 劉思含;賈美娟;;樹匹配算法在網(wǎng)頁分類中的應(yīng)用[J];電腦學(xué)習(xí);2010年04期
7 薛永大;;網(wǎng)頁分類技術(shù)研究綜述[J];電腦知識與技術(shù);2012年25期
8 黃科,馬少平;基于統(tǒng)計分詞的中文網(wǎng)頁分類[J];中文信息學(xué)報;2002年06期
9 孫建濤,沈抖,陸玉昌,石純一;網(wǎng)頁分類技術(shù)[J];清華大學(xué)學(xué)報(自然科學(xué)版);2004年01期
10 程傳鵬;;中文網(wǎng)頁分類的研究與實現(xiàn)[J];中原工學(xué)院學(xué)報;2007年01期
相關(guān)會議論文 前7條
1 李立宇;唐世渭;楊冬青;葉恒強;王騰蛟;;COMMIX-Classifier—自動網(wǎng)頁分類系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2002年
2 萬中英;王明文;廖海波;左家莉;;維數(shù)約簡在網(wǎng)頁分類中的應(yīng)用[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年
3 彭濤;左萬利;赫楓齡;張長利;;基于粒子群優(yōu)化算法的網(wǎng)頁分類技術(shù)[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2006年
4 劉艷民;;中文網(wǎng)頁分類方法的研究[A];2009年全國開放式分布與并行計算機學(xué)術(shù)會議論文集(下冊)[C];2009年
5 張迪;鄭德權(quán);趙鐵軍;于浩;;Blog網(wǎng)頁分類與識別技術(shù)研究[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(上冊)[C];2007年
6 張東娜;彭宏;吳鐵峰;;一種基于粗集與貝葉斯分類器的中文網(wǎng)頁分類方法[A];第一屆全國Web信息系統(tǒng)及其應(yīng)用會議(WISA2004)論文集[C];2004年
7 米曉芳;秦洋;王立宏;宋宜斌;;基于潛在語義差異的醫(yī)學(xué)網(wǎng)頁分類[A];2007北京地區(qū)高校研究生學(xué)術(shù)交流會通信與信息技術(shù)會議論文集(上冊)[C];2008年
相關(guān)碩士學(xué)位論文 前10條
1 周軍;中文網(wǎng)頁自動分類系統(tǒng)及關(guān)鍵技術(shù)研究與實現(xiàn)[D];國防科學(xué)技術(shù)大學(xué);2013年
2 王綿綿;基于MIMLRBF神經(jīng)網(wǎng)絡(luò)的網(wǎng)頁分類方法[D];中國石油大學(xué)(華東);2014年
3 王晶;面向通信管理的電子政務(wù)系統(tǒng)及其網(wǎng)頁分類的研究與實現(xiàn)[D];上海交通大學(xué);2009年
4 韓培培;網(wǎng)頁分類及存儲查詢系統(tǒng)的設(shè)計及實現(xiàn)[D];燕山大學(xué);2010年
5 張祥;一個網(wǎng)頁分類系統(tǒng)的研究與實現(xiàn)[D];北京郵電大學(xué);2013年
6 伍菲;面向主題型的網(wǎng)頁分類技術(shù)的研究與實現(xiàn)[D];華中科技大學(xué);2011年
7 段昕;基于視覺特征中文網(wǎng)頁分類方法的研究[D];山東大學(xué);2007年
8 汪雷;基于文本挖掘的網(wǎng)頁分類系統(tǒng)研究與實現(xiàn)[D];武漢理工大學(xué);2013年
9 許世明;中文網(wǎng)頁分類技術(shù)研究及預(yù)分類算法實現(xiàn)[D];西安電子科技大學(xué);2009年
10 劉康煒;基于支持向量機的網(wǎng)頁分類技術(shù)研究[D];中國石油大學(xué);2009年
,本文編號:2165014
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2165014.html