中文文本自動(dòng)分類研究與應(yīng)用
本文選題:向量空間模型 切入點(diǎn):特征選擇 出處:《湖北大學(xué)》2012年碩士論文 論文類型:學(xué)位論文
【摘要】:隨著計(jì)算機(jī)網(wǎng)絡(luò)的高速發(fā)展以及信息、資訊的大量增加與積累,無論是個(gè)人電腦上還是internet上,以文本形式存儲(chǔ)的信息數(shù)量巨大。而如何對(duì)這些文本數(shù)據(jù)進(jìn)行高效的管理、存儲(chǔ)、訪問以及提取出所需要的信息,成為當(dāng)前現(xiàn)代社會(huì)的人們提高工作和生活質(zhì)量和效率的重要問題,也是當(dāng)前計(jì)算機(jī)科技、人工智能知識(shí)工程和信息處理研究的熱點(diǎn)與難點(diǎn)的所在。而處理這個(gè)問題的基本工具——文本自動(dòng)分類,也于近幾年得到了前所未有的重視與發(fā)展。 截至目前,國(guó)內(nèi)外對(duì)于文本自動(dòng)分類的研究已經(jīng)非常多,并且在信息提取、搜索引擎等具體熱點(diǎn)領(lǐng)域有著豐富深入的研究。不管是工業(yè)界還是科研院所,都已經(jīng)取得了很多舉世矚目的成就,同時(shí)開發(fā)出了很多實(shí)用的工具與軟件系統(tǒng)。 本文主要研究中文文本自動(dòng)分類的關(guān)鍵技術(shù)并設(shè)計(jì)實(shí)現(xiàn)原型系統(tǒng)。首先介紹文本自動(dòng)分類技術(shù)研究現(xiàn)狀與理論基礎(chǔ),然后對(duì)中文文本分類技術(shù)進(jìn)行了詳細(xì)的討論,并分析了向量空間模型和中文自動(dòng)分詞的技術(shù)優(yōu)勢(shì)與特點(diǎn)。然后詳細(xì)研究了文本分類的關(guān)鍵技術(shù),包括項(xiàng)的權(quán)重、特征選擇和關(guān)鍵算法。在這些基礎(chǔ)之上,設(shè)計(jì)了一種中文文本分類自動(dòng)分類系統(tǒng),并對(duì)其中的關(guān)鍵技術(shù)進(jìn)行了詳細(xì)介紹。最后是對(duì)系統(tǒng)進(jìn)行相關(guān)實(shí)驗(yàn)以及效率效果評(píng)估分析。
[Abstract]:With the rapid development of computer network and information, the amount of information stored in the form of text is huge, whether on personal computer or internet, and how to manage and store these text data efficiently. Accessing and extracting the information needed has become an important issue for people in modern society to improve the quality and efficiency of their work and life, and it is also the current computer technology. The research of artificial intelligence knowledge engineering and information processing is hot and difficult, and the basic tool to deal with this problem, text automatic classification, has been paid more attention and development than ever before in recent years. Up to now, there has been a lot of research on automatic text classification at home and abroad, and there are rich and in-depth research in the specific hot areas, such as information extraction, search engine and so on. Has made a lot of achievements, and developed a lot of practical tools and software systems. This paper mainly studies the key technologies of automatic Chinese text classification and designs and implements a prototype system. Firstly, the research status and theoretical basis of automatic text classification are introduced, and then the technology of Chinese text classification is discussed in detail. The advantages and characteristics of vector space model and Chinese automatic word segmentation are analyzed. Then the key technologies of text classification are studied in detail, including the weight of items, feature selection and key algorithms. An automatic classification system for Chinese text classification is designed, and the key technologies are introduced in detail. Finally, the relevant experiments and the efficiency evaluation analysis of the system are carried out.
【學(xué)位授予單位】:湖北大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類號(hào)】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 高軍,陳錫先;無監(jiān)督的動(dòng)態(tài)分詞方法[J];北京郵電大學(xué)學(xué)報(bào);1997年04期
2 李榮陸,胡運(yùn)發(fā);基于密度的kNN文本分類器訓(xùn)練樣本裁剪方法[J];計(jì)算機(jī)研究與發(fā)展;2004年04期
3 李振星,徐澤平,唐衛(wèi)清,唐榮錫;全二分最大匹配快速分詞算法[J];計(jì)算機(jī)工程與應(yīng)用;2002年11期
4 楊清,楊岳湘,瞿國(guó)平;智能文本分類系統(tǒng)的研究與設(shè)計(jì)[J];計(jì)算機(jī)應(yīng)用研究;1999年10期
5 龐劍鋒,卜東波,白碩;基于向量空間模型的文本自動(dòng)分類系統(tǒng)的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用研究;2001年09期
6 金翔宇,孫正興,張福炎;一種中文文檔的非受限無詞典抽詞方法[J];中文信息學(xué)報(bào);2001年06期
7 楊建林,張國(guó)梁;基于詞鏈的自動(dòng)分詞方法[J];情報(bào)理論與實(shí)踐;2000年02期
8 張東禮,汪東升,鄭緯民;基于VSM的中文文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2003年09期
9 陳莉,焦李成;文檔挖掘與降維技術(shù)[J];西北大學(xué)學(xué)報(bào)(自然科學(xué)版);2003年03期
10 李家福,張亞非;一種基于概率模型的分詞系統(tǒng)[J];系統(tǒng)仿真學(xué)報(bào);2002年05期
相關(guān)碩士學(xué)位論文 前7條
1 都云琪;中文文本自動(dòng)分類的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2002年
2 蘇偉峰;基于概念的文本自動(dòng)分類研究[D];廈門大學(xué);2002年
3 王小燕;文本分類相關(guān)技術(shù)與應(yīng)用研究[D];西北大學(xué);2007年
4 陳平;基于SVM的中文文本分類相關(guān)算法的研究與實(shí)現(xiàn)[D];西北大學(xué);2008年
5 王新麗;中文文本分類系統(tǒng)的研究與實(shí)現(xiàn)[D];天津大學(xué);2007年
6 閆晨;KNN文本分類研究[D];燕山大學(xué);2010年
7 趙小華;KNN文本分類中特征詞權(quán)重算法的研究[D];太原理工大學(xué);2010年
,本文編號(hào):1617831
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1617831.html