天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于SVM的web分類方案設計與研究

發(fā)布時間:2018-06-16 04:51

  本文選題:網(wǎng)頁分類 + 文本分類; 參考:《北京郵電大學》2014年碩士論文


【摘要】:近年來,web己經迅速發(fā)展成為了全球數(shù)據(jù)量最大的公共信息源,如何從浩瀚的信息中方便快捷的定位和篩選用戶需要的信息,已經成為迫切需要解決的難題,其核心問題是web的自動分類。Web的文本分類來源于web分類,是文本挖掘的主要組成部分。按主題對web進行分類,建立分類結果數(shù)據(jù)庫,生成分類信息資源,一方面可以為定制分類信息目錄,實現(xiàn)網(wǎng)頁分級管理和用戶上網(wǎng)信息推薦,有效提高用戶的搜索效率,快速、準確的定位到目標網(wǎng)頁;另一方面還可以根據(jù)不同用戶的類別興趣特征,實現(xiàn)個性化定制,過濾不良網(wǎng)頁和無關網(wǎng)頁,按照用戶的意愿實現(xiàn)web訪問控制。目前主流技術都是web文本分類,主要通過設計合理的網(wǎng)頁表示方式和文本分類算法實現(xiàn)web自動分類。 web文本自動分類的算法有很多,但是支持向量機(SVM)分類算法是當今最流行,分類效果最好的算法之一。本論文設計了一套完整的基于SVM的web分類方案,并基于該分類方案設計與實現(xiàn)了一個自動網(wǎng)頁分類系統(tǒng),結合樣本數(shù)據(jù)進行實驗,利用分類結果對系統(tǒng)進行測試評估,驗證了該分類方案的可行性,同時也得到了一個高效的自動網(wǎng)頁分類系統(tǒng)。 本論文主要目標是提出一套完整的基于SVM的web分類方案,并基于該方案設計實現(xiàn)一個自動網(wǎng)頁分類系統(tǒng),該系統(tǒng)是基于B/S架構,利用LAMP (linux+apache+mysql+php) web平臺開發(fā),選擇SVM分類器分類的一個自動分類系統(tǒng)。 本論文主要完成了以下幾個方面的工作: 首先,對網(wǎng)頁分類技術的課題背景、課題任務、論文結構進行了分析和總結。 其次,系統(tǒng)地分析和研究了網(wǎng)頁自動分類過程中的關鍵技術和相關理論,包括數(shù)據(jù)獲取、數(shù)據(jù)預處理、SVM分類器等。其中數(shù)據(jù)預處理又包括網(wǎng)頁去噪、文本分詞、特征選擇、特征量化等文本分類的預處理技術,分類算法主要分析和研究了KNN和SVM,通過比較KNN和SVM的性能,最終選擇SVM算法作為本系統(tǒng)的分類算法。 再次,詳細介紹基于SVM算法的網(wǎng)頁分類方案的設計與研究,包括架構設計和詳細設計。架構設計是以web分類流程為基礎進行的設計,包括需求分析、實現(xiàn)目標、開發(fā)環(huán)境和總體設計;詳細設計是基于模塊劃分的思想,將系統(tǒng)劃分為數(shù)據(jù)庫模塊、用戶交互模塊和分類模塊,各個模塊再進行詳細具體的設計。 然后,給出了一個基于SVM的web文本分類系統(tǒng)的實驗并對實驗結果進行分析,提出系統(tǒng)性能的優(yōu)化。 接著,提出了本文的創(chuàng)新點。在文本預處理階段,為了提高色情、暴力、賭博、毒品等優(yōu)先級比較高的類別的準確性,本文在分詞之前對文本進行了預處理。首先抽取類別是色情、暴力、毒品等類熟語料,即知道相應類別的URL,經過頁面解析,抽取標題內容,進行分詞,計算詞頻,按降序排列,選擇靠前出現(xiàn)的關鍵詞組成一個預置關鍵詞表。然后再對訓練樣本和預測樣本進行頁面解析,提取標題關鍵字,和事先設置好的關鍵詞表進行對比匹配,匹配成功就給出相應分類號,匹配不成功就繼續(xù)進行頁面內容分詞,提取特征,svm分類,最后得出分類結果。 最后,對作者在碩士研究生期間的主要成果和本文的主要工作進行總結和展望。
[Abstract]:In recent years , web has been rapidly developed into the world ' s largest public information source , how to locate and screen the information needed by users conveniently and quickly from the vast information has become an urgent problem , and its core problem is the automatic classification of web .
on the other hand , the personalized customization can be realized according to the category interest characteristics of different users , the web access control can be realized according to the wishes of the user , and the present mainstream technology is the web text classification , and the web automatic classification is realized mainly by designing a reasonable webpage representation mode and a text classification algorithm .

There are many algorithms for the automatic classification of web text , but support vector machine ( SVM ) classification algorithm is one of the most popular and best classification algorithms . This paper designs a complete SVM - based web classification scheme , and designs and implements an automatic web page classification system based on the classification scheme . Based on the classification scheme , the feasibility of the classification scheme is verified , and a highly efficient automatic web page classification system is also obtained .

The main goal of this paper is to propose a complete SVM - based web classification scheme , which is based on the B / S architecture , which is developed by using the LAMP ( linux + apache + mysql + php ) web platform and selects an automatic classification system for SVM classifier classification .

The thesis mainly finished the following aspects :

Firstly , the thesis analyses and summarizes the subject background , task and paper structure of web page classification technology .

Secondly , the key technologies and relevant theories in the automatic classification of web pages are systematically analyzed and studied , including data acquisition , data preprocessing , SVM classifier , etc . The data preprocessing includes preprocessing technology of text classification such as webpage denoising , text segmentation , feature selection , feature quantization , etc . The classification algorithm mainly analyzes and studies KNN and SVM , and finally selects SVM algorithm as the classification algorithm of the system by comparing the performance of KNN and SVM .

Thirdly , the design and research of web page classification scheme based on SVM algorithm are introduced in detail , including architecture design and detailed design . The architecture design is based on the web classification process , including demand analysis , achievement goal , development environment and overall design .
The detailed design is based on the idea of module partition , divides the system into database module , user interaction module and classification module , and each module carries out detailed design .

Then , a web text classification system based on SVM is given and the experimental results are analyzed , and the optimization of the system performance is proposed .

In order to improve the accuracy of the categories of pornography , violence , gambling , drugs and so on , the text is preprocessed in the pre - processing stage of the text . First , the text is preprocessed in order to improve the priority of pornography , violence , gambling and drugs .

Finally , the author summarizes and prospects the author ' s main achievements during the master ' s graduate student ' s graduate student and the main work of this paper .
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP393.092

【參考文獻】

相關期刊論文 前10條

1 孟時;王彥;;larbin網(wǎng)絡爬蟲的體系結構[J];電腦學習;2010年04期

2 劉紅芝;;中文分詞技術的研究[J];電腦開發(fā)與應用;2010年03期

3 陳益軍;;一種基于元數(shù)據(jù)方法的KNN網(wǎng)頁分類器的設計與實現(xiàn)[J];福建電腦;2007年06期

4 胡佳妮,徐蔚然,郭軍,鄧偉洪;中文文本分類中的特征選擇算法研究[J];光通信研究;2005年03期

5 黃發(fā)良,鐘智;用于分類的支持向量機[J];廣西師范學院學報(自然科學版);2004年03期

6 臺德藝;謝飛;胡學鋼;;文本分類技術研究[J];合肥學院學報(自然科學版);2007年03期

7 毛先領;何靖;閆宏飛;;網(wǎng)頁去噪:研究綜述[J];計算機研究與發(fā)展;2010年12期

8 王利;劉宗田;王燕華;廖濤;;基于內容相似度的網(wǎng)頁正文提取[J];計算機工程;2010年06期

9 胡濤;路紅英;;基于Nutch的搜索引擎的研究[J];計算機時代;2007年01期

10 匡春臨;夏清強;;基于SVM-KNN的文本分類算法及其分析[J];計算機時代;2010年08期

,

本文編號:2025406

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2025406.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶8024c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com