基于語義簇構(gòu)建隱馬爾可夫模型的文本分類方法研究
【圖文】:
2.1 文本分類的相關(guān)理論文本自動分類屬于模式識別的范疇,它分析待分類文檔的模式和特征,并與預(yù)先提供的已知分類的文檔進(jìn)行比對,找出模式和特征最接近的待分類文檔的類別。文本自動分類的整個過程涉及許多相關(guān)技術(shù),,其中比較重要的有特征降維、文檔模型表示和分類器選擇。2.1.1 文本的分類過程圖 2-1 所示為文本分類的流程。
第二章 課題相關(guān)理論介紹論中一些方法進(jìn)行衡量,然后通過設(shè)定閾值的方式對特征進(jìn)行取舍[32]。常用的特征選擇方法有,信息增益、互信息、2 統(tǒng)計、交叉熵等等[33]。特征抽取是將原有特征進(jìn)行映射變換得到新的特征的過程,主要是將原有特征中某些分散的特征信息進(jìn)行集中表示,從而達(dá)到消除歧義,去除冗余等目的。常用的特征抽取方法有,主元分析(Principal Components Analysis)、潛在語義索引(LatenSemantic Analysis)和特征詞聚類等。
【學(xué)位授予單位】:北京化工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前9條
1 吳云芳;王淼;金澎;俞士汶;;多分類器集成的漢語詞義消歧研究[J];計算機(jī)研究與發(fā)展;2008年08期
2 胡和平;曾慶銳;路松峰;;中文詞聚類研究[J];計算機(jī)工程與科學(xué);2006年01期
3 孫茂松,左正平,鄒嘉彥;基于k-近似的漢語詞類自動判定[J];計算機(jī)學(xué)報;2000年02期
4 聞?chuàng)P,苑春法,黃昌寧;基于搭配對的漢語形容詞-名詞聚類[J];中文信息學(xué)報;2000年06期
5 毛偉;徐蔚然;郭軍;;基于n-gram語言模型和鏈狀樸素貝葉斯分類器的中文文本分類系統(tǒng)[J];中文信息學(xué)報;2006年03期
6 鐘茂生;劉慧;劉磊;;詞匯間語義相關(guān)關(guān)系量化計算方法[J];中文信息學(xué)報;2009年02期
7 蘇金樹;張博鋒;徐昕;;基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[J];軟件學(xué)報;2006年09期
8 馮揚(yáng);羅森林;潘麗敏;劉莉莉;陳開江;;基于概念簇的文本向量構(gòu)建方法[J];通信學(xué)報;2010年S1期
9 宗成慶;曹右琦;俞士汶;;中文信息處理60年[J];語言文字應(yīng)用;2009年04期
相關(guān)博士學(xué)位論文 前2條
1 宋楓溪;自動文本分類若干基本問題研究[D];南京理工大學(xué);2004年
2 李榮陸;文本分類及其相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2005年
本文編號:2530993
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2530993.html