天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于語義簇構(gòu)建隱馬爾可夫模型的文本分類方法研究

發(fā)布時間:2019-09-02 14:44
【摘要】:文本分類作為文本挖掘領(lǐng)域中一個非常重要的研究方向,對文本數(shù)據(jù)的組織、管理和處理具有重要意義,在信息檢索、數(shù)字圖書館、搜索引擎、文本信息過濾等領(lǐng)域有著廣泛的應(yīng)用。雖然文本分類的研究已經(jīng)取得不小的進(jìn)展,但目前為止仍有一些尚待解決的問題,例如,相關(guān)特征詞的信息度量,分類器的增量更新和在線更新,以及分類器性能隨類別數(shù)增加而降低等問題。本文圍繞上述問題展開研究,提出了一種基于語義簇構(gòu)建隱馬爾可夫模型的文本自動分類方法,主要工作和創(chuàng)新點包括以下幾個方面: (1)特征詞分類信息的度量 在對比了幾種已有的特征詞分類信息的度量方法后,借鑒TF-IDF權(quán)重,對公式進(jìn)行了調(diào)整,使之可以針對特征詞的不同類別度量分類信息的權(quán)重,然后利用不同分類信息權(quán)重將特征詞進(jìn)行向量表示,實驗表明特征詞向量可以很好的表達(dá)特征詞的分類信息。 (2)提出建立層次語義簇模型的方法 利用層次聚類方法對特征詞向量進(jìn)行聚類,所得層次語義簇簇內(nèi)相似度大,簇內(nèi)特征詞分類信息相近,能夠表征這一類具有相似分類特性的特征詞。通過層次語義簇模型提出一種將文本序列化表示方法,文本序列表現(xiàn)出狀態(tài)轉(zhuǎn)移的特性。然后考察了聚類迭代截止閾值的確定問題和特征詞間相似度計算量過大的問題,并給出相應(yīng)解決方案。實驗表明語義簇模型能夠達(dá)到降維和突出分類信息的目的。 (3)文本分類器結(jié)構(gòu)設(shè)計 針對訓(xùn)練集類別建立相互獨(dú)立的隱馬爾可夫模型,并據(jù)此提出了一種文本分類器結(jié)構(gòu),分類器中文本模型互不耦合,文本模型與分類判決器相互獨(dú)立。然后討論了利用所提出的文本分類器結(jié)構(gòu)實現(xiàn)增量更新和在線更新的方法和工作量。 實驗表明,該方法一方面可以在大文本數(shù)據(jù)量情況下有效利用文本分類信息,提高分類精度;同時,相比于其他方法,算法性能受到類別數(shù)目的影響較小。
【圖文】:

流程圖,文本分類,流程圖


2.1 文本分類的相關(guān)理論文本自動分類屬于模式識別的范疇,它分析待分類文檔的模式和特征,并與預(yù)先提供的已知分類的文檔進(jìn)行比對,找出模式和特征最接近的待分類文檔的類別。文本自動分類的整個過程涉及許多相關(guān)技術(shù),,其中比較重要的有特征降維、文檔模型表示和分類器選擇。2.1.1 文本的分類過程圖 2-1 所示為文本分類的流程。

特征降維,特征抽取


第二章 課題相關(guān)理論介紹論中一些方法進(jìn)行衡量,然后通過設(shè)定閾值的方式對特征進(jìn)行取舍[32]。常用的特征選擇方法有,信息增益、互信息、2 統(tǒng)計、交叉熵等等[33]。特征抽取是將原有特征進(jìn)行映射變換得到新的特征的過程,主要是將原有特征中某些分散的特征信息進(jìn)行集中表示,從而達(dá)到消除歧義,去除冗余等目的。常用的特征抽取方法有,主元分析(Principal Components Analysis)、潛在語義索引(LatenSemantic Analysis)和特征詞聚類等。
【學(xué)位授予單位】:北京化工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前9條

1 吳云芳;王淼;金澎;俞士汶;;多分類器集成的漢語詞義消歧研究[J];計算機(jī)研究與發(fā)展;2008年08期

2 胡和平;曾慶銳;路松峰;;中文詞聚類研究[J];計算機(jī)工程與科學(xué);2006年01期

3 孫茂松,左正平,鄒嘉彥;基于k-近似的漢語詞類自動判定[J];計算機(jī)學(xué)報;2000年02期

4 聞?chuàng)P,苑春法,黃昌寧;基于搭配對的漢語形容詞-名詞聚類[J];中文信息學(xué)報;2000年06期

5 毛偉;徐蔚然;郭軍;;基于n-gram語言模型和鏈狀樸素貝葉斯分類器的中文文本分類系統(tǒng)[J];中文信息學(xué)報;2006年03期

6 鐘茂生;劉慧;劉磊;;詞匯間語義相關(guān)關(guān)系量化計算方法[J];中文信息學(xué)報;2009年02期

7 蘇金樹;張博鋒;徐昕;;基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[J];軟件學(xué)報;2006年09期

8 馮揚(yáng);羅森林;潘麗敏;劉莉莉;陳開江;;基于概念簇的文本向量構(gòu)建方法[J];通信學(xué)報;2010年S1期

9 宗成慶;曹右琦;俞士汶;;中文信息處理60年[J];語言文字應(yīng)用;2009年04期

相關(guān)博士學(xué)位論文 前2條

1 宋楓溪;自動文本分類若干基本問題研究[D];南京理工大學(xué);2004年

2 李榮陸;文本分類及其相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2005年



本文編號:2530993

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2530993.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c8270***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com