面向內(nèi)容的網(wǎng)頁(yè)分類方法研究與實(shí)現(xiàn)
本文選題:網(wǎng)頁(yè)分類 + 特征選擇��; 參考:《南京郵電大學(xué)》2017年碩士論文
【摘要】:在當(dāng)今信息化時(shí)代中,互聯(lián)網(wǎng)逐步滲透到社會(huì)生活的各個(gè)方面,從而使得瀏覽網(wǎng)頁(yè)成為人們獲取信息的主要方式。然而,隨著互聯(lián)網(wǎng)的飛速發(fā)展,互聯(lián)網(wǎng)中的網(wǎng)頁(yè)數(shù)量急速增長(zhǎng)。面對(duì)海量且復(fù)雜的網(wǎng)頁(yè),人們通常無(wú)法迅速地獲得自己所需的內(nèi)容而導(dǎo)致其用戶體驗(yàn)較差�;诖�,本文主要研究如何對(duì)網(wǎng)頁(yè)按照不同主題進(jìn)行分類,分類過(guò)程包括兩個(gè)步驟:網(wǎng)頁(yè)數(shù)據(jù)預(yù)處理與文本分類。在獲取到網(wǎng)頁(yè)數(shù)據(jù)之后,首先需要對(duì)其進(jìn)行預(yù)處理,網(wǎng)頁(yè)數(shù)據(jù)預(yù)處理的過(guò)程大致包括網(wǎng)頁(yè)去噪、中文分詞、特征選擇以及文本表示;其次,將得到的數(shù)值型數(shù)據(jù)輸入分類模型中進(jìn)行文本分類。本文主要針對(duì)特征選擇以及文本分類進(jìn)行改進(jìn)。首先根據(jù)網(wǎng)頁(yè)的內(nèi)容與結(jié)構(gòu)特性,結(jié)合并改進(jìn)布隆過(guò)濾器和TF-IDF算法,提出一種基于降維的特征選擇算法,以便剔除冗余的特征項(xiàng);其次,本文對(duì)能有效地處理較大規(guī)模數(shù)據(jù)的支持向量機(jī)算法進(jìn)行改進(jìn),通過(guò)分析核函數(shù)的原理和性質(zhì),構(gòu)建了一種全新的混合核函數(shù),并利用遺傳算法的交叉驗(yàn)證搜索方式來(lái)對(duì)新核函數(shù)尋求最佳參數(shù),由此提出了一個(gè)兼具學(xué)習(xí)能力與泛化能力的支持向量機(jī),接著通過(guò)仿真實(shí)驗(yàn)對(duì)比驗(yàn)證其在文本分類中的優(yōu)越性能。最后實(shí)現(xiàn)了一個(gè)基于該改進(jìn)算法的網(wǎng)頁(yè)分類系統(tǒng),將系統(tǒng)用于對(duì)網(wǎng)頁(yè)內(nèi)容的分類,實(shí)驗(yàn)結(jié)果表明,本文提出的算法在大部分情況下能取得較好的分類效果,該算法在網(wǎng)頁(yè)分類領(lǐng)域的應(yīng)用中有一定的實(shí)用價(jià)值。
[Abstract]:In today's information age, the Internet has gradually penetrated into all aspects of social life, thus making browsing the web page the main way for people to obtain information. However, with the rapid development of the Internet, the number of web pages in the Internet is growing rapidly. In the face of massive and complex web pages, people usually can not get the content they need quickly, resulting in poor user experience. Based on this, this paper mainly studies how to classify web pages according to different topics. The classification process includes two steps: page data preprocessing and text classification. After getting the web page data, we need to preprocess it first. The process of page data preprocessing includes web page denoising, Chinese word segmentation, feature selection and text representation. The obtained numerical data is input into the classification model for text classification. This paper mainly focuses on feature selection and text classification. First of all, according to the content and structure of the web page, combining and improving the Bron filter and TF-IDF algorithm, a feature selection algorithm based on dimensionality reduction is proposed in order to eliminate redundant feature items. In this paper, the support vector machine (SVM) algorithm, which can deal with large scale data effectively, is improved. By analyzing the principle and properties of kernel function, a new hybrid kernel function is constructed. A support vector machine with both learning ability and generalization ability is proposed to search for the best parameters of the new kernel function by using the cross-validation search method of genetic algorithm. Then the superior performance in text classification is verified by simulation experiments. Finally, a web page classification system based on the improved algorithm is implemented. The experimental results show that the proposed algorithm can achieve a good classification effect in most cases. The algorithm has some practical value in the field of web page classification.
【學(xué)位授予單位】:南京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP393.092;TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 沙泓州;劉慶云;柳廳文;周舟;郭莉;方濱興;;惡意網(wǎng)頁(yè)識(shí)別研究綜述[J];計(jì)算機(jī)學(xué)報(bào);2016年03期
2 韓冬煦;常寶寶;;中文分詞模型的領(lǐng)域適應(yīng)性方法[J];計(jì)算機(jī)學(xué)報(bào);2015年02期
3 羅元;;網(wǎng)頁(yè)凈化及去重研究綜述[J];現(xiàn)代計(jì)算機(jī);2013年15期
4 劉鯖潔;陳桂明;劉小方;楊慶;;基于遺傳算法的SVM參數(shù)組合優(yōu)化[J];計(jì)算機(jī)應(yīng)用與軟件;2012年04期
5 劉威;郭淵博;黃鵬;;基于多維布隆過(guò)濾器的模式匹配引擎[J];計(jì)算機(jī)應(yīng)用;2011年01期
6 臺(tái)德藝;王俊;;文本分類特征權(quán)重改進(jìn)算法[J];計(jì)算機(jī)工程;2010年09期
7 連可;黃建國(guó);王厚軍;龍兵;;一種基于遺傳算法的SVM決策樹(shù)多分類策略研究[J];電子學(xué)報(bào);2008年08期
8 崔自峰;徐寶文;張衛(wèi)豐;徐峻嶺;;一種近似Markov Blanket最優(yōu)特征選擇算法[J];計(jì)算機(jī)學(xué)報(bào);2007年12期
9 段軍峰;黃維通;陸玉昌;;中文網(wǎng)頁(yè)分類研究與系統(tǒng)實(shí)現(xiàn)[J];計(jì)算機(jī)科學(xué);2007年06期
10 趙華;趙鐵軍;張姝;王浩暢;;基于內(nèi)容分析的話題檢測(cè)研究[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào);2006年10期
相關(guān)碩士學(xué)位論文 前5條
1 王立達(dá);基于混合核函數(shù)的SVM及其應(yīng)用研究[D];大連海事大學(xué);2016年
2 王征;基于布隆過(guò)濾器算法的網(wǎng)頁(yè)消重技術(shù)的實(shí)現(xiàn)與應(yīng)用[D];北京交通大學(xué);2010年
3 蘇秀芝;網(wǎng)頁(yè)去噪與特征提取算法的研究及實(shí)現(xiàn)[D];西南交通大學(xué);2010年
4 張小歡;中文分詞系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[D];電子科技大學(xué);2010年
5 曹衛(wèi)峰;中文分詞關(guān)鍵技術(shù)研究[D];南京理工大學(xué);2009年
,本文編號(hào):1945531
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1945531.html