天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于SVM的web分類方案設(shè)計與研究

發(fā)布時間:2018-06-16 04:51

  本文選題:網(wǎng)頁分類 + 文本分類 ; 參考:《北京郵電大學(xué)》2014年碩士論文


【摘要】:近年來,web己經(jīng)迅速發(fā)展成為了全球數(shù)據(jù)量最大的公共信息源,如何從浩瀚的信息中方便快捷的定位和篩選用戶需要的信息,已經(jīng)成為迫切需要解決的難題,其核心問題是web的自動分類。Web的文本分類來源于web分類,是文本挖掘的主要組成部分。按主題對web進行分類,建立分類結(jié)果數(shù)據(jù)庫,生成分類信息資源,一方面可以為定制分類信息目錄,實現(xiàn)網(wǎng)頁分級管理和用戶上網(wǎng)信息推薦,有效提高用戶的搜索效率,快速、準(zhǔn)確的定位到目標(biāo)網(wǎng)頁;另一方面還可以根據(jù)不同用戶的類別興趣特征,實現(xiàn)個性化定制,過濾不良網(wǎng)頁和無關(guān)網(wǎng)頁,按照用戶的意愿實現(xiàn)web訪問控制。目前主流技術(shù)都是web文本分類,主要通過設(shè)計合理的網(wǎng)頁表示方式和文本分類算法實現(xiàn)web自動分類。 web文本自動分類的算法有很多,但是支持向量機(SVM)分類算法是當(dāng)今最流行,分類效果最好的算法之一。本論文設(shè)計了一套完整的基于SVM的web分類方案,并基于該分類方案設(shè)計與實現(xiàn)了一個自動網(wǎng)頁分類系統(tǒng),結(jié)合樣本數(shù)據(jù)進行實驗,利用分類結(jié)果對系統(tǒng)進行測試評估,驗證了該分類方案的可行性,同時也得到了一個高效的自動網(wǎng)頁分類系統(tǒng)。 本論文主要目標(biāo)是提出一套完整的基于SVM的web分類方案,并基于該方案設(shè)計實現(xiàn)一個自動網(wǎng)頁分類系統(tǒng),該系統(tǒng)是基于B/S架構(gòu),利用LAMP (linux+apache+mysql+php) web平臺開發(fā),選擇SVM分類器分類的一個自動分類系統(tǒng)。 本論文主要完成了以下幾個方面的工作: 首先,對網(wǎng)頁分類技術(shù)的課題背景、課題任務(wù)、論文結(jié)構(gòu)進行了分析和總結(jié)。 其次,系統(tǒng)地分析和研究了網(wǎng)頁自動分類過程中的關(guān)鍵技術(shù)和相關(guān)理論,包括數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、SVM分類器等。其中數(shù)據(jù)預(yù)處理又包括網(wǎng)頁去噪、文本分詞、特征選擇、特征量化等文本分類的預(yù)處理技術(shù),分類算法主要分析和研究了KNN和SVM,通過比較KNN和SVM的性能,最終選擇SVM算法作為本系統(tǒng)的分類算法。 再次,詳細介紹基于SVM算法的網(wǎng)頁分類方案的設(shè)計與研究,包括架構(gòu)設(shè)計和詳細設(shè)計。架構(gòu)設(shè)計是以web分類流程為基礎(chǔ)進行的設(shè)計,包括需求分析、實現(xiàn)目標(biāo)、開發(fā)環(huán)境和總體設(shè)計;詳細設(shè)計是基于模塊劃分的思想,將系統(tǒng)劃分為數(shù)據(jù)庫模塊、用戶交互模塊和分類模塊,各個模塊再進行詳細具體的設(shè)計。 然后,給出了一個基于SVM的web文本分類系統(tǒng)的實驗并對實驗結(jié)果進行分析,提出系統(tǒng)性能的優(yōu)化。 接著,提出了本文的創(chuàng)新點。在文本預(yù)處理階段,為了提高色情、暴力、賭博、毒品等優(yōu)先級比較高的類別的準(zhǔn)確性,本文在分詞之前對文本進行了預(yù)處理。首先抽取類別是色情、暴力、毒品等類熟語料,即知道相應(yīng)類別的URL,經(jīng)過頁面解析,抽取標(biāo)題內(nèi)容,進行分詞,計算詞頻,按降序排列,選擇靠前出現(xiàn)的關(guān)鍵詞組成一個預(yù)置關(guān)鍵詞表。然后再對訓(xùn)練樣本和預(yù)測樣本進行頁面解析,提取標(biāo)題關(guān)鍵字,和事先設(shè)置好的關(guān)鍵詞表進行對比匹配,匹配成功就給出相應(yīng)分類號,匹配不成功就繼續(xù)進行頁面內(nèi)容分詞,提取特征,svm分類,最后得出分類結(jié)果。 最后,對作者在碩士研究生期間的主要成果和本文的主要工作進行總結(jié)和展望。
[Abstract]:In recent years , web has been rapidly developed into the world ' s largest public information source , how to locate and screen the information needed by users conveniently and quickly from the vast information has become an urgent problem , and its core problem is the automatic classification of web .
on the other hand , the personalized customization can be realized according to the category interest characteristics of different users , the web access control can be realized according to the wishes of the user , and the present mainstream technology is the web text classification , and the web automatic classification is realized mainly by designing a reasonable webpage representation mode and a text classification algorithm .

There are many algorithms for the automatic classification of web text , but support vector machine ( SVM ) classification algorithm is one of the most popular and best classification algorithms . This paper designs a complete SVM - based web classification scheme , and designs and implements an automatic web page classification system based on the classification scheme . Based on the classification scheme , the feasibility of the classification scheme is verified , and a highly efficient automatic web page classification system is also obtained .

The main goal of this paper is to propose a complete SVM - based web classification scheme , which is based on the B / S architecture , which is developed by using the LAMP ( linux + apache + mysql + php ) web platform and selects an automatic classification system for SVM classifier classification .

The thesis mainly finished the following aspects :

Firstly , the thesis analyses and summarizes the subject background , task and paper structure of web page classification technology .

Secondly , the key technologies and relevant theories in the automatic classification of web pages are systematically analyzed and studied , including data acquisition , data preprocessing , SVM classifier , etc . The data preprocessing includes preprocessing technology of text classification such as webpage denoising , text segmentation , feature selection , feature quantization , etc . The classification algorithm mainly analyzes and studies KNN and SVM , and finally selects SVM algorithm as the classification algorithm of the system by comparing the performance of KNN and SVM .

Thirdly , the design and research of web page classification scheme based on SVM algorithm are introduced in detail , including architecture design and detailed design . The architecture design is based on the web classification process , including demand analysis , achievement goal , development environment and overall design .
The detailed design is based on the idea of module partition , divides the system into database module , user interaction module and classification module , and each module carries out detailed design .

Then , a web text classification system based on SVM is given and the experimental results are analyzed , and the optimization of the system performance is proposed .

In order to improve the accuracy of the categories of pornography , violence , gambling , drugs and so on , the text is preprocessed in the pre - processing stage of the text . First , the text is preprocessed in order to improve the priority of pornography , violence , gambling and drugs .

Finally , the author summarizes and prospects the author ' s main achievements during the master ' s graduate student ' s graduate student and the main work of this paper .
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP393.092

【參考文獻】

相關(guān)期刊論文 前10條

1 孟時;王彥;;larbin網(wǎng)絡(luò)爬蟲的體系結(jié)構(gòu)[J];電腦學(xué)習(xí);2010年04期

2 劉紅芝;;中文分詞技術(shù)的研究[J];電腦開發(fā)與應(yīng)用;2010年03期

3 陳益軍;;一種基于元數(shù)據(jù)方法的KNN網(wǎng)頁分類器的設(shè)計與實現(xiàn)[J];福建電腦;2007年06期

4 胡佳妮,徐蔚然,郭軍,鄧偉洪;中文文本分類中的特征選擇算法研究[J];光通信研究;2005年03期

5 黃發(fā)良,鐘智;用于分類的支持向量機[J];廣西師范學(xué)院學(xué)報(自然科學(xué)版);2004年03期

6 臺德藝;謝飛;胡學(xué)鋼;;文本分類技術(shù)研究[J];合肥學(xué)院學(xué)報(自然科學(xué)版);2007年03期

7 毛先領(lǐng);何靖;閆宏飛;;網(wǎng)頁去噪:研究綜述[J];計算機研究與發(fā)展;2010年12期

8 王利;劉宗田;王燕華;廖濤;;基于內(nèi)容相似度的網(wǎng)頁正文提取[J];計算機工程;2010年06期

9 胡濤;路紅英;;基于Nutch的搜索引擎的研究[J];計算機時代;2007年01期

10 匡春臨;夏清強;;基于SVM-KNN的文本分類算法及其分析[J];計算機時代;2010年08期

,

本文編號:2025406

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2025406.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶8024c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com