基于語義圖結(jié)構(gòu)的中文文本分類研究
本文選題:圖結(jié)構(gòu) + 文本表示; 參考:《西安電子科技大學(xué)》2012年碩士論文
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展和普及,人們?nèi)粘P枰幚淼男畔⑷找尕S富。面對海量的信息資源,人們很難迅速有效地找到真正所需的信息資源。文本分類技術(shù)作為信息過濾、信息檢索、搜索引擎、數(shù)字化圖書館等領(lǐng)域的技術(shù)基礎(chǔ),有著廣泛的應(yīng)用。 為了解決傳統(tǒng)基于統(tǒng)計(jì)的文本表示方法中詞語間語義信息缺失的問題,本文結(jié)合圖論中的理論,提出了一種新的基于語義圖結(jié)構(gòu)的文本表示模型和中文文本分類方法。論文首先對語義圖結(jié)構(gòu)和基于語義圖結(jié)構(gòu)的文本之間的相似度計(jì)算方法進(jìn)行了定義,通過將文本表示成語義圖結(jié)構(gòu),有效地解決了文本表示過程中的語義信息流失問題;其次,給出了基于語義圖結(jié)構(gòu)的文本分類算法;最后,介紹了一種基于語義圖結(jié)構(gòu)的文本分類系統(tǒng)RCSGC。 實(shí)驗(yàn)表明,與傳統(tǒng)的基于統(tǒng)計(jì)向量的SVM(支持向量機(jī))等方法相比,,RCSGC方法更有利于文本的語義信息的表示。實(shí)驗(yàn)表明:該方法比傳統(tǒng)的SVM方法有更好的性能。
[Abstract]:With the rapid development and popularization of Internet technology, people need to deal with more and more information. In the face of massive information resources, it is difficult to find the real information resources quickly and effectively. Text classification technology is widely used as the technical foundation of information filtering, information retrieval, search engine, digital library and so on. In order to solve the problem of the absence of semantic information between words in the traditional statistical text representation, a new text representation model based on semantic graph structure and a Chinese text classification method are proposed in this paper based on the theory of graph theory. Firstly, the similarity calculation method between the semantic graph structure and the text based on semantic graph structure is defined, and the loss of semantic information in the process of text representation is effectively solved by expressing the text into the semantic graph structure. A text classification algorithm based on semantic graph structure is presented. Finally, a text classification system RCSGC based on semantic graph structure is introduced. The experimental results show that compared with the traditional SVM (support vector machine) method, the RCSGC method is more convenient to represent the semantic information of the text. Experiments show that this method has better performance than the traditional SVM method.
【學(xué)位授予單位】:西安電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前9條
1 周水庚,關(guān)佶紅,胡運(yùn)發(fā),周傲英;一個(gè)無需詞典支持和切詞處理的中文文檔分類系統(tǒng)[J];計(jì)算機(jī)研究與發(fā)展;2001年07期
2 唐煥玲,孫建濤,陸玉昌;文本分類中結(jié)合評估函數(shù)的TEF-WA權(quán)值調(diào)整技術(shù)[J];計(jì)算機(jī)研究與發(fā)展;2005年01期
3 龐劍鋒,卜東波,白碩;基于向量空間模型的文本自動分類系統(tǒng)的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用研究;2001年09期
4 黃萱菁,吳立德,石崎洋之,徐國偉;獨(dú)立于語種的文本分類方法[J];中文信息學(xué)報(bào);2000年06期
5 周昭濤,卜東波,程學(xué)旗;文本的圖表示初探[J];中文信息學(xué)報(bào);2005年02期
6 張東禮,汪東升,鄭緯民;基于VSM的中文文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2003年09期
7 刁力力 ,胡可云 ,陸玉昌 ,石純一;用Boosting方法組合增強(qiáng)Stumps進(jìn)行文本分類(英文)[J];軟件學(xué)報(bào);2002年08期
8 杜飛龍;知網(wǎng)辟蹊徑 共享新天地——董振東先生談知網(wǎng)與知識共享[J];微電腦世界;1999年29期
9 鄒加棋;陳國龍;郭文忠;;基于圖模型的中文文檔分類研究[J];小型微型計(jì)算機(jī)系統(tǒng);2006年04期
相關(guān)碩士學(xué)位論文 前2條
1 孫麗華;中文文本自動分類的研究[D];哈爾濱工程大學(xué);2002年
2 何元嬌;基于本體的語義文本分類研究[D];北京化工大學(xué);2008年
本文編號:1793742
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1793742.html