基于自然語言處理的文本分類研究與應用

發(fā)布時間：2022-01-16 12:10

　　目前NLP（Natural Language Processing,自然語言處理）已成為機器學習的研究熱點之一。文本分類是NLP處理技術(shù)的重要分支。本文采用期刊論文作為實驗數(shù)據(jù),研究了中文文本分類問題,并提出了兩種分類模型。一種是基于權(quán)重預處理的中文文本分類算法PRE-TF-IDF（Pre-processing Term Frequency Inverse Document Frequency,文本預處理的詞頻逆文本頻）。傳統(tǒng)詞頻算法在對詞加權(quán)時僅考慮詞的出現(xiàn)頻率而不考慮詞在文本中的位置。PRE-TF-IDF算法通過在TF-IDF（Term Frequency Inverse Document Frequency,詞頻逆文本頻）算法基礎(chǔ)上增加權(quán)重預處理和詞密度權(quán)重兩個環(huán)節(jié),提高了文本分類的準確性。另一種是基于卷積神經(jīng)網(wǎng)絡(luò)和支持向量機結(jié)合的文本分類模型CNNSVM（Convolutional Neural Network and Support Vector Machine Classifier,卷積神經(jīng)網(wǎng)絡(luò)與支持向量機分類器結(jié)合模型）。在傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上,增加了注意力機制,...

【文章來源】：南京郵電大學江蘇省

【文章頁數(shù)】：69 頁

【學位級別】：碩士

【部分圖文】：

基于自然語言處理的文本分類研究與應用

自然語言處理流程圖

有向圖

南京郵電大學專業(yè)學位碩士研究生學位論文第二章自然語言處理關(guān)鍵技術(shù)概述9件概率的鏈式法則。實驗過程中，經(jīng)常需要在已知h的情況下，來計算出。想要確定這兩者之間的關(guān)系，可以使用貝葉斯公式進行計算：==14h式（2.4）中，=1=，稱之為事件的先驗概率，1…為事件的完備事件組，且＞0。（2）結(jié)構(gòu)化概率模型自然語言處理的算法經(jīng)常會涉及到多個隨機變量上的概率分布，這些概率分布所涉及的相互作用往往是介于極少的變量之間。如果使用某一個函數(shù)來描述整個聯(lián)合概率的分布，最終得到的結(jié)果將是非常低效的。通常，我們將概率分布分解成多個因子的乘積形式，而不用某一單一函數(shù)進行表示[36]。假設(shè)三個隨機變量a、b和c，其中事件a和事件c在給定b的情況下，是條件獨立的。但事件a會影響事件b的取值，事件b會影響事件c的取值。將這三個變量的概率密度現(xiàn)在表示為兩個變量概率分布的鏈式形式：=h通過這樣的運算可以很大程度上減少描述一個隨機分量的參數(shù)數(shù)量。由于每個因子使用的參數(shù)數(shù)目與其變量數(shù)目之間呈指數(shù)倍。所以，如果能夠找到一種方法，使用更少變量的分解方法來表示因子的分布，就可以使聯(lián)合分布的標識成本大大降低。當前比較主流的解決方法是通過一些邊相互連接頂點的圖形來解決，學術(shù)界將這種分解方法稱之為結(jié)構(gòu)化模型[37]。結(jié)構(gòu)化概率模型分為有向和無向兩種，每個節(jié)點對應著一個隨機變量，每條邊代表這兩個隨機變量之間的概率分布是直接作用的。下圖為一個有向圖示例：圖2.2有向圖

無向圖,無向圖

南京郵電大學專業(yè)學位碩士研究生學位論文第二章自然語言處理關(guān)鍵技術(shù)概述10有向圖模型又稱貝葉斯網(wǎng)絡(luò)，使用有向箭頭來連接兩個節(jié)點，箭頭方向代表條件概率分布，適用于信息流動方向較為明確的情況。圖2.2中，A指向B和C，代表著A時間直接影響B(tài)事件和C時間的概率。圖2.2所對應的概率分布為：ABCDE=ABACABDBPECh圖模型的概率分布的通用公式為：=hh其中1…代表有向圖中的結(jié)點。h表示所有指向節(jié)點的父節(jié)點。無向圖模型又稱為馬爾科夫隨機場，使用無箭頭線段來連接兩個節(jié)點，且不代表條件概率。下圖為一個無向圖示例：圖2.3無向圖在無向圖中，任何滿足兩兩之間有邊連接的節(jié)點，所形成的圖形稱之為團，簡記為，用表示團所有變量的聯(lián)合概率分布。為完成概率歸一化，需要引入歸一化常數(shù)，常數(shù)被定義為函數(shù)乘積的求和即：Px=1h在圖2.3中，A與B和C直接相互影響，但A和E只通過C間接相互影響,所對應的聯(lián)合概率公式為：ABCDE=11ABCBDCEh（3）N-gram語言模型在自然語言處理中，常常根據(jù)不同模型的設(shè)計特征，將詞語、字符或字節(jié)作為標記的實體。N-gram語言模型[38]是一種基于概率的判別模型，“N-gram”中的N代表包含N個詞語組成的集合。將這N個詞語組成的文本序列作為輸入，經(jīng)過N-gram語言模型的處理，將輸出這N個詞語出現(xiàn)的聯(lián)合概率。N個詞語之間需要按先后順序進行輸入，但詞與詞之間允許出

【參考文獻】：
期刊論文
[1]中文文本分類方法綜述[J]. 于游,付鈺,吳曉平.  網(wǎng)絡(luò)與信息安全學報. 2019(05)
[2]自然語言處理發(fā)展及應用綜述[J]. 趙京勝,宋夢雪,高祥.  信息技術(shù)與信息化. 2019(07)
[3]基于Word2vec和改進型TF-IDF的卷積神經(jīng)網(wǎng)絡(luò)文本分類模型[J]. 王根生,黃學堅.  小型微型計算機系統(tǒng). 2019(05)
[4]基于語義分析的改進TF-IDF算法[J]. 代鈺琴,徐魯強.  西南科技大學學報. 2019(01)
[5]自然語言處理技術(shù)發(fā)展與未來[J]. 方明之.  科技傳播. 2019(06)
[6]自然語言處理發(fā)展與應用概述[J]. 高源.  中國新通信. 2019(02)
[7]基于深度學習的文本分類系統(tǒng)關(guān)鍵技術(shù)研究與模型驗證[J]. 汪少敏,楊迪,任華.  電信科學. 2018(12)
[8]基于KNN算法的可變權(quán)值室內(nèi)指紋定位算法[J]. 戴志誠,李小年,陳增照,何秀玲.  計算機工程. 2019(06)
[9]基于Word2vec的論文和專利主題關(guān)聯(lián)演化分析方法研究[J]. 徐紅姣,曾文,張運良.  情報雜志. 2018(12)
[10]基于卷積神經(jīng)網(wǎng)絡(luò)的圖像識別研究[J]. 謝慧芳,劉藝航,王梓,王迎港.  無線互聯(lián)科技. 2018(14)

碩士論文
[1]基于混合神經(jīng)網(wǎng)絡(luò)的中文短文本分類方法研究[D]. 王磊.浙江理工大學 2019

本文編號：3592632

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/shengwushengchang/3592632.html

上一篇：基于非局部深度網(wǎng)絡(luò)的肝細胞癌多特征融合分類算法研究
下一篇：基于NI FlexRIO高速視覺測量系統(tǒng)的研制

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于自然語言處理的文本分類研究與應用