文本分類中文本表示模型與深度學習算法研究
【學位授予單位】:河南大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP18;TP391.1
【圖文】:
的文本歸類到已知的類別中[27]。自動文本分類的具體定義如下:給定一組類別集合 { }1 2=c , c ,...,cCC ,一組文本集合 { }1 2= , ,...,DD d d d ,其中類集合中元素的數(shù)量用 C 表示,文本集合元素的數(shù)量用 D 表示。我們希望得到一個如2-1 所示的分類模型。該模型可以實現(xiàn)從文本集合 D 到類別集合 C 的映射, :D →C 。事實上,機器學習的本質(zhì)就是利用已經(jīng)標記好的文本訓練集,通過訓練類器最終得到一個性能最好的映射模型 。通常我們用文本id 表示分類模型 的入,用類別ic 表示分類模型 的輸出。圖 2-1 自動文本分類的映射模型自動文本分類技術(shù)涉及多項流程,其主要包括文本預處理、維度約減、文本表模型、文本分類器分類等[28],如圖 2-2 所示。
而且能夠使文本信息很方便地被計算機所處理。下面簡要介紹幾種常見的表示模型:向量空間模型(Vector Space Model,VSM)、布爾模型(Boolean Model,)和概率模型(Probabilistic Model,PM)。向量空間模型:20 世紀 70 年代,哈佛大學的 Wong 和 Salton 等人提出了向量空間。向量空間模型的主要思想就是把文本中的信息轉(zhuǎn)化成為計算機能夠處理的特征中的矢量。但是我們都知道,不同的特征在文本中的重要程度也不一樣,所以,對特征詞的重要性加以區(qū)分,我們在實際使用向量空間模型時一般會對特征詞賦定的權(quán)重,特征詞的重要程度越高該詞的權(quán)重也就越大。在使用向量空間模型時,我們會構(gòu)建一個向量空間,該向量空間可以將文本集合每個文本都表示為一組由特征詞構(gòu)建而成的 n 維向量。向量空間模型的構(gòu)造過程 2-3 所示。其中kd 表示第k 個文本,jt表示第j個特征,kjw表示第k 個文本中特j的權(quán)重。t,t,…,t…t
圖 2-4 最優(yōu)分割超平面待分類的數(shù)據(jù)集存在線性可分和線性不可分兩種設訓練集中的樣本ix 屬于類別 { 1, 1}iy ∈ + 。我們b的線性判別函數(shù),使得樣本數(shù)據(jù)盡可能被正確劃),通常稱該分類面為分離超平面。w x + b=0-20)表示的超平面有無數(shù)多個,上文我們已經(jīng)提最優(yōu)的超平面。實際上,最優(yōu)超平面由支持向量離最近的樣本點。因此,在實際使用支持向量機得到最優(yōu)超平面,從而得到了最優(yōu)的分類器。最。21min2 w
【參考文獻】
相關(guān)期刊論文 前10條
1 熊富林;鄧怡豪;唐曉晟;;Word2vec的核心架構(gòu)及其應用[J];南京師范大學學報(工程技術(shù)版);2015年01期
2 冀俊忠;吳金源;吳晨生;杜芳華;;基于類別加權(quán)和方差統(tǒng)計的特征選擇方法[J];北京工業(yè)大學學報;2014年10期
3 王光;邱云飛;史慶偉;;集合CHI與IG的特征選擇方法[J];計算機應用研究;2012年07期
4 李明濤;羅軍勇;尹美娟;路林;;結(jié)合詞義的文本特征詞權(quán)重計算方法[J];計算機應用;2012年05期
5 王祖輝;姜維;;引入數(shù)據(jù)平滑的增量式貝葉斯垃圾郵件過濾方法[J];計算機工程與應用;2012年16期
6 張保富;施化吉;馬素琴;;基于TFIDF文本特征加權(quán)方法的改進研究[J];計算機應用與軟件;2011年02期
7 徐燕;李錦濤;王斌;孫春明;張森;;文本分類中特征選擇的約束研究[J];計算機研究與發(fā)展;2008年04期
8 張文良;黃亞樓;倪維健;;一種基于聚類的文本特征選擇方法[J];計算機應用;2007年01期
9 張慶國,張宏偉,張君玉;一種基于k最近鄰的快速文本分類方法[J];中國科學院研究生院學報;2005年05期
10 鄒濤,王繼成,黃源,張福炎;中文文檔自動分類系統(tǒng)的設計與實現(xiàn)[J];中文信息學報;1999年03期
相關(guān)博士學位論文 前1條
1 楊杰明;文本分類中文本表示模型和特征選擇算法研究[D];吉林大學;2013年
相關(guān)碩士學位論文 前10條
1 王振;基于機器學習的文本分類研究與實現(xiàn)[D];南京郵電大學;2018年
2 張闖;基于深度學習的知乎標題的多標簽文本分類[D];北京交通大學;2018年
3 張倫干;多項式樸素貝葉斯文本分類算法改進研究[D];中國地質(zhì)大學;2018年
4 韓眾和;基于卷積神經(jīng)網(wǎng)絡的短文本分類研究[D];中國礦業(yè)大學;2018年
5 文永;社交媒體短文本分類方法研究[D];電子科技大學;2018年
6 李林;基于word2vec和卷積神經(jīng)網(wǎng)絡的文本分類研究[D];西南大學;2018年
7 楊開平;基于語義相似度的中文文本聚類算法研究[D];電子科技大學;2018年
8 袁松嶺;基于深度學習的多場景短文本分類的研究與應用[D];電子科技大學;2018年
9 施瑞朗;中文文本分類中特征選擇算法的研究與改進[D];杭州電子科技大學;2018年
10 徐蔚;基于深度學習的中文新聞文本分類的研究[D];中南民族大學;2018年
本文編號:2777621
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2777621.html