天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

Web中文文本分類技術(shù)研究與實現(xiàn)

發(fā)布時間:2018-01-03 05:02

  本文關(guān)鍵詞:Web中文文本分類技術(shù)研究與實現(xiàn) 出處:《武漢理工大學(xué)》2014年碩士論文 論文類型:學(xué)位論文


  更多相關(guān)文章: Web中文文本 卡方統(tǒng)計 特征選取 KNN分類算法 文本分類


【摘要】:在信息化的大背景下,Web的飛速發(fā)展及互聯(lián)網(wǎng)的普及給我們的工作和生活帶來了極大的便捷,網(wǎng)絡(luò)成為人們獲取信息的重要來源。不過由于異構(gòu)與開放的Internet網(wǎng)絡(luò),大量垃圾信息充斥其中,對待無盡的網(wǎng)絡(luò)信息,怎樣有效的管理,如何快速、準(zhǔn)確地發(fā)現(xiàn)潛在有用的知識成為當(dāng)前的研究熱點。有效應(yīng)對繁雜網(wǎng)頁內(nèi)容的一個重要方法就是將其分類,而目前文本仍然是網(wǎng)頁的主要呈現(xiàn)形式,因此文本分類是解決該問題的核心,同時它也是有關(guān)搜索引擎,信息的檢索與過濾的基礎(chǔ)技術(shù),廣泛的適用性決定了對它研究的現(xiàn)實意義。Web中文文本分類是互聯(lián)網(wǎng)技術(shù)與傳統(tǒng)文本分類技術(shù)相結(jié)合的產(chǎn)物,簡單概述,它是利用已知類別Web中文文檔學(xué)習(xí)出一個分類模型,繼而確定未知文檔類別的技術(shù),整個過程包括預(yù)處理Web中文文本、選取特征詞集、文本表示、計算詞權(quán)值、樣本分類等步驟。 首先本論文在闡明Web中文分類關(guān)鍵技術(shù)的基礎(chǔ)上,總結(jié)了研究的背景及現(xiàn)狀,分析了研究的流程思路,,做了很多理論和實現(xiàn)上的研究。理論方面,在綜合分析總結(jié)了已有方法的不足之后,對分類過程中的一些環(huán)節(jié)進行了改進。針對Web下的特殊使用環(huán)境,提出了在特征選擇之前,不同位置的文本,分區(qū)域、分步驟并賦予不同權(quán)重處理的思路;對于卡方統(tǒng)計只顧文檔頻率而沒考慮詞頻,本類出現(xiàn)少而非本類中普遍存在時極有可能被選為特征詞以及自身公式中均勻分布糾正懲罰能力不夠等情況,提出了詞頻補償因子、類別比重因子、類內(nèi)分布因子的概念,將它們乘在傳統(tǒng)方法的公式后面作為補償來對原方法加以改進,取得了良好的效果;在分類算法方面,重點研究了KNN算法,在深入分析其原理后總結(jié)出了優(yōu)缺點。針對KNN算法采用內(nèi)積公式計算文本相似度比較粗糙的情況(文中已舉例說明),給出了一種利用相似接近系數(shù)進行完善的方法。通過設(shè)計相關(guān)試驗證明,以上改進后的措施在準(zhǔn)確率、召回率、F1值等方面都有不同程度的提高。實現(xiàn)方面,本文設(shè)計了用于Web中文文本分類試驗的小工具軟件,包括用于建立樣本庫的Web網(wǎng)頁采集模塊,用于處理文本和分類過程的分類模塊,用于評估對比最終結(jié)果的評估模塊。并提供了設(shè)計的主要方案和用到的一些關(guān)鍵技術(shù)。
[Abstract]:In the context of information technology, the rapid development of the Web and the popularity of the Internet have brought us great convenience in our work and life. Network has become an important source of information, but because of the heterogeneous and open Internet network, a large number of spam information is flooded with it, how to deal with the endless network information, how to effectively manage. How to quickly and accurately find the potentially useful knowledge has become a hot topic. An important way to deal with the complex web content is to classify it, while the text is still the main presentation form of web pages. Therefore, text classification is the core of the problem, and it is also the basic technology of search engine, information retrieval and filtering. Web Chinese text classification is the product of the combination of Internet technology and traditional text classification technology. It is a technique of learning a classification model by using known Web Chinese documents and then determining unknown document categories. The whole process includes preprocessing Web Chinese text, selecting feature word sets, and text representation. Calculation of word weight, sample classification and other steps. First of all, on the basis of clarifying the key technologies of Web Chinese classification, this paper summarizes the background and current situation of the research, analyzes the research process, and does a lot of theoretical and practical research. After synthetically analyzing and summarizing the shortcomings of the existing methods, some improvements are made in the process of classification. In view of the special use environment under Web, the text with different positions before feature selection is put forward. Sub-region, step by step and give different weight to deal with the train of thought; For chi-square statistics only the frequency of documents but not the word frequency, it is very likely that the chi-square statistics can be chosen as the feature words and the ability of correcting punishment in its formula is not enough when it is less than common in this class. The concepts of word frequency compensation factor, category specific gravity factor and intra-class distribution factor are put forward, which are multiplied by the formula of the traditional method as compensation to improve the original method, and good results are obtained. In the aspect of classification algorithm, we focus on KNN algorithm. After in-depth analysis of its principle, the advantages and disadvantages are summarized. For the KNN algorithm, the inner product formula is used to calculate the text similarity rough (examples have been illustrated in this paper). This paper presents a method of improving by using similar proximity coefficient. Through the design of related experiments, the improved measures have different degrees of improvement in accuracy, recall rate and F1 value. In this paper, a small tool software for Web Chinese text classification experiment is designed, including the Web web page collection module which is used to build the sample database, and the classification module used to process the text and the classification process. The evaluation module is used to evaluate and compare the final results. The main design scheme and some key techniques used are also provided.
【學(xué)位授予單位】:武漢理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.1

【參考文獻】

相關(guān)期刊論文 前10條

1 裴英博;劉曉霞;;文本分類中改進型CHI特征選擇方法的研究[J];計算機工程與應(yīng)用;2011年04期

2 鐘將;劉榮輝;;一種改進的KNN文本分類[J];計算機工程與應(yīng)用;2012年02期

3 程苗;;基于云計算的Web數(shù)據(jù)挖掘[J];計算機科學(xué);2011年S1期

4 梁南元;書面漢語自動分詞系統(tǒng)—CDWS[J];中文信息學(xué)報;1987年02期

5 崔建明;劉建明;廖周宇;;基于SVM算法的文本分類技術(shù)研究[J];計算機仿真;2013年02期

6 黃仁;王良偉;;基于主題相關(guān)概念和網(wǎng)頁分塊的主題爬蟲研究[J];計算機應(yīng)用研究;2013年08期

7 李建林;;一種基于PCA的組合特征提取文本分類方法[J];計算機應(yīng)用研究;2013年08期

8 鄭弦;;Web挖掘的現(xiàn)狀和展望[J];技術(shù)與市場;2013年03期

9 侯漢清;;分類法的發(fā)展趨勢簡論[J];情報科學(xué);1981年01期

10 蘇金樹;張博鋒;徐昕;;基于機器學(xué)習(xí)的文本分類技術(shù)研究進展[J];軟件學(xué)報;2006年09期

相關(guān)博士學(xué)位論文 前2條

1 楊杰明;文本分類中文本表示模型和特征選擇算法研究[D];吉林大學(xué);2013年

2 廖一星;文本分類及其特征降維研究[D];浙江大學(xué);2012年



本文編號:1372467

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1372467.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶50e7f***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
精品人妻少妇二区三区| 日韩丝袜诱惑一区二区| 清纯少妇被捅到高潮免费观看| 在线观看免费视频你懂的 | 国产免费成人激情视频| 亚洲一区二区三区三州| 亚洲综合香蕉在线视频| 美女被后入视频在线观看| 日韩一区二区三区嘿嘿| 精品欧美国产一二三区| 国内外激情免费在线视频| 亚洲女同一区二区另类| 97人妻人人揉人人躁人人| 日韩精品综合免费视频| 国产亚洲午夜高清国产拍精品| 国产精品欧美激情在线播放| 日韩成人h视频在线观看 | 一区二区三区人妻在线| 国产亚洲精品久久久优势| 日韩熟妇人妻一区二区三区| 亚洲国产精品一区二区毛片| 国产99久久精品果冻传媒| 东京热一二三区在线免| 亚洲精品国产福利在线| 91欧美亚洲精品在线观看| 不卡一区二区在线视频| 性欧美唯美尤物另类视频| 亚洲中文字幕在线观看黑人| 丰满人妻一二区二区三区av | 粉嫩国产一区二区三区在线| 日本加勒比在线观看一区| 二区久久久国产av色| 日本高清视频在线观看不卡| 亚洲日本久久国产精品久久| 久久人人爽人人爽大片av| 欧洲日本亚洲一区二区| 午夜福利视频六七十路熟女| 国产日韩欧美专区一区| 亚洲天堂精品在线视频| 日韩国产亚洲欧美激情| 九九热精彩视频在线播放|