天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 自動化論文 >

文本分類中文本表示模型與深度學習算法研究

發(fā)布時間:2020-08-01 15:03
【摘要】:隨著互聯(lián)網(wǎng)的飛速發(fā)展,以網(wǎng)絡為載體的文本信息也呈現(xiàn)出爆炸式增長的趨勢。這些海量數(shù)據(jù)依靠人工進行管理和分類會不僅會耗費大量人力和時間,同時也難以實現(xiàn)。所以,如何高效地組織和管理這些文本信息是自然語言處理領(lǐng)域的一大研究熱點,這也促進了自動文本分類技術(shù)的長足發(fā)展。目前,在文本挖掘、信息過濾與檢索等領(lǐng)域,自動文本分類技術(shù)已經(jīng)得到了廣泛的應用。自動文本分類是一個涉及到機器學習算法、優(yōu)化理論以及自然語言處理等多個領(lǐng)域知識的技術(shù)。因此,許多因素會影響到自動文本分類的性能,例如:文本的預處理、文本表示模型的選擇、特征降維算法、文本分類器的設計等。在眾多的影響因素中,文本表示模型以及文本分類器的設計是自動文本分類領(lǐng)域的兩大研究熱點。本文首先討論了文本分類的研究背景和意義,分析國內(nèi)外研究動態(tài)和熱點,闡明了文本分類各個流程的具體實現(xiàn)。在此基礎上,本文主要在文本表示模型以及深度學習在文本分類中的應用兩方面展開深入研究,并取得如下成果:(1)提出了一種基于神經(jīng)網(wǎng)絡語言模型的特征聚類算法:NNLM-FC。針對傳統(tǒng)向量空間模型中詞向量語義缺失、維度過高以及特征集合中存在大量同義詞和近義詞的問題,利用神經(jīng)網(wǎng)絡語言模型將特征詞轉(zhuǎn)化為低維的語義向量,使用K-means聚類算法將語義相似的特征詞進行聚類,利用卡方統(tǒng)計算法計算每個特征詞的卡方統(tǒng)計量,選擇聚類簇中卡方統(tǒng)計量大的特征詞用于文本表示,最后得到了基于神經(jīng)網(wǎng)絡語言模型的特征聚類算法(NNLM-FC)。在復旦大學語料庫和網(wǎng)絡爬蟲數(shù)據(jù)集上使用樸素貝葉斯、支持向量機和K-近鄰分類器,使用分類結(jié)果的正確率、_1F值作為度量標準,與常見的特征選擇算法進行了全面的對比。實驗結(jié)果證明本文提出的算法不僅能夠有效的降低向量空間的維度,而且能提高文本分類的性能。(2)提出一種基于加權(quán)詞向量的深度學習文本分類模型。針對傳統(tǒng)深度學習模型不能很好區(qū)分詞向量重要程度以及CNN模型丟棄了大量有用特征且不適合處理序列化文本的問題,首先提出一種新的特征權(quán)重計算方法(TDC),利用該算法對詞向量進行加權(quán)處理,同時去除那些重要程度低的特征詞,從而減小了深度學習輸入矩陣的維度。接下來將CNN模型與LSTM模型結(jié)合起來,利用CNN模型提取文本中豐富的特征,結(jié)合LSTM模型處理序列數(shù)據(jù)的優(yōu)勢,使用加權(quán)后的詞向量作為輸入,最終得到了基于加權(quán)詞向量的深度學習模型:W-CNN-LSTM。通過在Stanford Sentiment Treebank和Movie Reviews數(shù)據(jù)集上的實驗證明了W-CNN-LSTM模型的分類性能優(yōu)于傳統(tǒng)的深度學習模型。
【學位授予單位】:河南大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP18;TP391.1
【圖文】:

流程圖,文本分類,流程圖,文本


的文本歸類到已知的類別中[27]。自動文本分類的具體定義如下:給定一組類別集合 { }1 2=c , c ,...,cCC ,一組文本集合 { }1 2= , ,...,DD d d d ,其中類集合中元素的數(shù)量用 C 表示,文本集合元素的數(shù)量用 D 表示。我們希望得到一個如2-1 所示的分類模型。該模型可以實現(xiàn)從文本集合 D 到類別集合 C 的映射, :D →C 。事實上,機器學習的本質(zhì)就是利用已經(jīng)標記好的文本訓練集,通過訓練類器最終得到一個性能最好的映射模型 。通常我們用文本id 表示分類模型 的入,用類別ic 表示分類模型 的輸出。圖 2-1 自動文本分類的映射模型自動文本分類技術(shù)涉及多項流程,其主要包括文本預處理、維度約減、文本表模型、文本分類器分類等[28],如圖 2-2 所示。

向量空間模型,構(gòu)造過程


而且能夠使文本信息很方便地被計算機所處理。下面簡要介紹幾種常見的表示模型:向量空間模型(Vector Space Model,VSM)、布爾模型(Boolean Model,)和概率模型(Probabilistic Model,PM)。向量空間模型:20 世紀 70 年代,哈佛大學的 Wong 和 Salton 等人提出了向量空間。向量空間模型的主要思想就是把文本中的信息轉(zhuǎn)化成為計算機能夠處理的特征中的矢量。但是我們都知道,不同的特征在文本中的重要程度也不一樣,所以,對特征詞的重要性加以區(qū)分,我們在實際使用向量空間模型時一般會對特征詞賦定的權(quán)重,特征詞的重要程度越高該詞的權(quán)重也就越大。在使用向量空間模型時,我們會構(gòu)建一個向量空間,該向量空間可以將文本集合每個文本都表示為一組由特征詞構(gòu)建而成的 n 維向量。向量空間模型的構(gòu)造過程 2-3 所示。其中kd 表示第k 個文本,jt表示第j個特征,kjw表示第k 個文本中特j的權(quán)重。t,t,…,t…t

最優(yōu)分割,超平面


圖 2-4 最優(yōu)分割超平面待分類的數(shù)據(jù)集存在線性可分和線性不可分兩種設訓練集中的樣本ix 屬于類別 { 1, 1}iy ∈ + 。我們b的線性判別函數(shù),使得樣本數(shù)據(jù)盡可能被正確劃),通常稱該分類面為分離超平面。w x + b=0-20)表示的超平面有無數(shù)多個,上文我們已經(jīng)提最優(yōu)的超平面。實際上,最優(yōu)超平面由支持向量離最近的樣本點。因此,在實際使用支持向量機得到最優(yōu)超平面,從而得到了最優(yōu)的分類器。最。21min2 w

【參考文獻】

相關(guān)期刊論文 前10條

1 熊富林;鄧怡豪;唐曉晟;;Word2vec的核心架構(gòu)及其應用[J];南京師范大學學報(工程技術(shù)版);2015年01期

2 冀俊忠;吳金源;吳晨生;杜芳華;;基于類別加權(quán)和方差統(tǒng)計的特征選擇方法[J];北京工業(yè)大學學報;2014年10期

3 王光;邱云飛;史慶偉;;集合CHI與IG的特征選擇方法[J];計算機應用研究;2012年07期

4 李明濤;羅軍勇;尹美娟;路林;;結(jié)合詞義的文本特征詞權(quán)重計算方法[J];計算機應用;2012年05期

5 王祖輝;姜維;;引入數(shù)據(jù)平滑的增量式貝葉斯垃圾郵件過濾方法[J];計算機工程與應用;2012年16期

6 張保富;施化吉;馬素琴;;基于TFIDF文本特征加權(quán)方法的改進研究[J];計算機應用與軟件;2011年02期

7 徐燕;李錦濤;王斌;孫春明;張森;;文本分類中特征選擇的約束研究[J];計算機研究與發(fā)展;2008年04期

8 張文良;黃亞樓;倪維健;;一種基于聚類的文本特征選擇方法[J];計算機應用;2007年01期

9 張慶國,張宏偉,張君玉;一種基于k最近鄰的快速文本分類方法[J];中國科學院研究生院學報;2005年05期

10 鄒濤,王繼成,黃源,張福炎;中文文檔自動分類系統(tǒng)的設計與實現(xiàn)[J];中文信息學報;1999年03期

相關(guān)博士學位論文 前1條

1 楊杰明;文本分類中文本表示模型和特征選擇算法研究[D];吉林大學;2013年

相關(guān)碩士學位論文 前10條

1 王振;基于機器學習的文本分類研究與實現(xiàn)[D];南京郵電大學;2018年

2 張闖;基于深度學習的知乎標題的多標簽文本分類[D];北京交通大學;2018年

3 張倫干;多項式樸素貝葉斯文本分類算法改進研究[D];中國地質(zhì)大學;2018年

4 韓眾和;基于卷積神經(jīng)網(wǎng)絡的短文本分類研究[D];中國礦業(yè)大學;2018年

5 文永;社交媒體短文本分類方法研究[D];電子科技大學;2018年

6 李林;基于word2vec和卷積神經(jīng)網(wǎng)絡的文本分類研究[D];西南大學;2018年

7 楊開平;基于語義相似度的中文文本聚類算法研究[D];電子科技大學;2018年

8 袁松嶺;基于深度學習的多場景短文本分類的研究與應用[D];電子科技大學;2018年

9 施瑞朗;中文文本分類中特征選擇算法的研究與改進[D];杭州電子科技大學;2018年

10 徐蔚;基于深度學習的中文新聞文本分類的研究[D];中南民族大學;2018年



本文編號:2777621

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2777621.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c5a38***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com