基于自然語言處理的文本分類研究與應(yīng)用
發(fā)布時(shí)間:2022-01-16 12:10
目前NLP(Natural Language Processing,自然語言處理)已成為機(jī)器學(xué)習(xí)的研究熱點(diǎn)之一。文本分類是NLP處理技術(shù)的重要分支。本文采用期刊論文作為實(shí)驗(yàn)數(shù)據(jù),研究了中文文本分類問題,并提出了兩種分類模型。一種是基于權(quán)重預(yù)處理的中文文本分類算法PRE-TF-IDF(Pre-processing Term Frequency Inverse Document Frequency,文本預(yù)處理的詞頻逆文本頻)。傳統(tǒng)詞頻算法在對(duì)詞加權(quán)時(shí)僅考慮詞的出現(xiàn)頻率而不考慮詞在文本中的位置。PRE-TF-IDF算法通過在TF-IDF(Term Frequency Inverse Document Frequency,詞頻逆文本頻)算法基礎(chǔ)上增加權(quán)重預(yù)處理和詞密度權(quán)重兩個(gè)環(huán)節(jié),提高了文本分類的準(zhǔn)確性。另一種是基于卷積神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)結(jié)合的文本分類模型CNNSVM(Convolutional Neural Network and Support Vector Machine Classifier,卷積神經(jīng)網(wǎng)絡(luò)與支持向量機(jī)分類器結(jié)合模型)。在傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上,增加了注意力機(jī)制,...
【文章來源】:南京郵電大學(xué)江蘇省
【文章頁數(shù)】:69 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
自然語言處理流程圖
南京郵電大學(xué)專業(yè)學(xué)位碩士研究生學(xué)位論文第二章自然語言處理關(guān)鍵技術(shù)概述9件概率的鏈?zhǔn)椒▌t。實(shí)驗(yàn)過程中,經(jīng)常需要在已知h的情況下,來計(jì)算出。想要確定這兩者之間的關(guān)系,可以使用貝葉斯公式進(jìn)行計(jì)算:==14h式(2.4)中,=1=,稱之為事件的先驗(yàn)概率,1…為事件的完備事件組,且>0。(2)結(jié)構(gòu)化概率模型自然語言處理的算法經(jīng)常會(huì)涉及到多個(gè)隨機(jī)變量上的概率分布,這些概率分布所涉及的相互作用往往是介于極少的變量之間。如果使用某一個(gè)函數(shù)來描述整個(gè)聯(lián)合概率的分布,最終得到的結(jié)果將是非常低效的。通常,我們將概率分布分解成多個(gè)因子的乘積形式,而不用某一單一函數(shù)進(jìn)行表示[36]。假設(shè)三個(gè)隨機(jī)變量a、b和c,其中事件a和事件c在給定b的情況下,是條件獨(dú)立的。但事件a會(huì)影響事件b的取值,事件b會(huì)影響事件c的取值。將這三個(gè)變量的概率密度現(xiàn)在表示為兩個(gè)變量概率分布的鏈?zhǔn)叫问剑?h通過這樣的運(yùn)算可以很大程度上減少描述一個(gè)隨機(jī)分量的參數(shù)數(shù)量。由于每個(gè)因子使用的參數(shù)數(shù)目與其變量數(shù)目之間呈指數(shù)倍。所以,如果能夠找到一種方法,使用更少變量的分解方法來表示因子的分布,就可以使聯(lián)合分布的標(biāo)識(shí)成本大大降低。當(dāng)前比較主流的解決方法是通過一些邊相互連接頂點(diǎn)的圖形來解決,學(xué)術(shù)界將這種分解方法稱之為結(jié)構(gòu)化模型[37]。結(jié)構(gòu)化概率模型分為有向和無向兩種,每個(gè)節(jié)點(diǎn)對(duì)應(yīng)著一個(gè)隨機(jī)變量,每條邊代表這兩個(gè)隨機(jī)變量之間的概率分布是直接作用的。下圖為一個(gè)有向圖示例:圖2.2有向圖
南京郵電大學(xué)專業(yè)學(xué)位碩士研究生學(xué)位論文第二章自然語言處理關(guān)鍵技術(shù)概述10有向圖模型又稱貝葉斯網(wǎng)絡(luò),使用有向箭頭來連接兩個(gè)節(jié)點(diǎn),箭頭方向代表?xiàng)l件概率分布,適用于信息流動(dòng)方向較為明確的情況。圖2.2中,A指向B和C,代表著A時(shí)間直接影響B(tài)事件和C時(shí)間的概率。圖2.2所對(duì)應(yīng)的概率分布為:ABCDE=ABACABDBPECh圖模型的概率分布的通用公式為:=hh其中1…代表有向圖中的結(jié)點(diǎn)。h表示所有指向節(jié)點(diǎn)的父節(jié)點(diǎn)。無向圖模型又稱為馬爾科夫隨機(jī)場(chǎng),使用無箭頭線段來連接兩個(gè)節(jié)點(diǎn),且不代表?xiàng)l件概率。下圖為一個(gè)無向圖示例:圖2.3無向圖在無向圖中,任何滿足兩兩之間有邊連接的節(jié)點(diǎn),所形成的圖形稱之為團(tuán),簡(jiǎn)記為,用表示團(tuán)所有變量的聯(lián)合概率分布。為完成概率歸一化,需要引入歸一化常數(shù),常數(shù)被定義為函數(shù)乘積的求和即:Px=1h在圖2.3中,A與B和C直接相互影響,但A和E只通過C間接相互影響,所對(duì)應(yīng)的聯(lián)合概率公式為:ABCDE=11ABCBDCEh(3)N-gram語言模型在自然語言處理中,常常根據(jù)不同模型的設(shè)計(jì)特征,將詞語、字符或字節(jié)作為標(biāo)記的實(shí)體。N-gram語言模型[38]是一種基于概率的判別模型,“N-gram”中的N代表包含N個(gè)詞語組成的集合。將這N個(gè)詞語組成的文本序列作為輸入,經(jīng)過N-gram語言模型的處理,將輸出這N個(gè)詞語出現(xiàn)的聯(lián)合概率。N個(gè)詞語之間需要按先后順序進(jìn)行輸入,但詞與詞之間允許出
【參考文獻(xiàn)】:
期刊論文
[1]中文文本分類方法綜述[J]. 于游,付鈺,吳曉平. 網(wǎng)絡(luò)與信息安全學(xué)報(bào). 2019(05)
[2]自然語言處理發(fā)展及應(yīng)用綜述[J]. 趙京勝,宋夢(mèng)雪,高祥. 信息技術(shù)與信息化. 2019(07)
[3]基于Word2vec和改進(jìn)型TF-IDF的卷積神經(jīng)網(wǎng)絡(luò)文本分類模型[J]. 王根生,黃學(xué)堅(jiān). 小型微型計(jì)算機(jī)系統(tǒng). 2019(05)
[4]基于語義分析的改進(jìn)TF-IDF算法[J]. 代鈺琴,徐魯強(qiáng). 西南科技大學(xué)學(xué)報(bào). 2019(01)
[5]自然語言處理技術(shù)發(fā)展與未來[J]. 方明之. 科技傳播. 2019(06)
[6]自然語言處理發(fā)展與應(yīng)用概述[J]. 高源. 中國新通信. 2019(02)
[7]基于深度學(xué)習(xí)的文本分類系統(tǒng)關(guān)鍵技術(shù)研究與模型驗(yàn)證[J]. 汪少敏,楊迪,任華. 電信科學(xué). 2018(12)
[8]基于KNN算法的可變權(quán)值室內(nèi)指紋定位算法[J]. 戴志誠,李小年,陳增照,何秀玲. 計(jì)算機(jī)工程. 2019(06)
[9]基于Word2vec的論文和專利主題關(guān)聯(lián)演化分析方法研究[J]. 徐紅姣,曾文,張運(yùn)良. 情報(bào)雜志. 2018(12)
[10]基于卷積神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別研究[J]. 謝慧芳,劉藝航,王梓,王迎港. 無線互聯(lián)科技. 2018(14)
碩士論文
[1]基于混合神經(jīng)網(wǎng)絡(luò)的中文短文本分類方法研究[D]. 王磊.浙江理工大學(xué) 2019
本文編號(hào):3592632
【文章來源】:南京郵電大學(xué)江蘇省
【文章頁數(shù)】:69 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
自然語言處理流程圖
南京郵電大學(xué)專業(yè)學(xué)位碩士研究生學(xué)位論文第二章自然語言處理關(guān)鍵技術(shù)概述9件概率的鏈?zhǔn)椒▌t。實(shí)驗(yàn)過程中,經(jīng)常需要在已知h的情況下,來計(jì)算出。想要確定這兩者之間的關(guān)系,可以使用貝葉斯公式進(jìn)行計(jì)算:==14h式(2.4)中,=1=,稱之為事件的先驗(yàn)概率,1…為事件的完備事件組,且>0。(2)結(jié)構(gòu)化概率模型自然語言處理的算法經(jīng)常會(huì)涉及到多個(gè)隨機(jī)變量上的概率分布,這些概率分布所涉及的相互作用往往是介于極少的變量之間。如果使用某一個(gè)函數(shù)來描述整個(gè)聯(lián)合概率的分布,最終得到的結(jié)果將是非常低效的。通常,我們將概率分布分解成多個(gè)因子的乘積形式,而不用某一單一函數(shù)進(jìn)行表示[36]。假設(shè)三個(gè)隨機(jī)變量a、b和c,其中事件a和事件c在給定b的情況下,是條件獨(dú)立的。但事件a會(huì)影響事件b的取值,事件b會(huì)影響事件c的取值。將這三個(gè)變量的概率密度現(xiàn)在表示為兩個(gè)變量概率分布的鏈?zhǔn)叫问剑?h通過這樣的運(yùn)算可以很大程度上減少描述一個(gè)隨機(jī)分量的參數(shù)數(shù)量。由于每個(gè)因子使用的參數(shù)數(shù)目與其變量數(shù)目之間呈指數(shù)倍。所以,如果能夠找到一種方法,使用更少變量的分解方法來表示因子的分布,就可以使聯(lián)合分布的標(biāo)識(shí)成本大大降低。當(dāng)前比較主流的解決方法是通過一些邊相互連接頂點(diǎn)的圖形來解決,學(xué)術(shù)界將這種分解方法稱之為結(jié)構(gòu)化模型[37]。結(jié)構(gòu)化概率模型分為有向和無向兩種,每個(gè)節(jié)點(diǎn)對(duì)應(yīng)著一個(gè)隨機(jī)變量,每條邊代表這兩個(gè)隨機(jī)變量之間的概率分布是直接作用的。下圖為一個(gè)有向圖示例:圖2.2有向圖
南京郵電大學(xué)專業(yè)學(xué)位碩士研究生學(xué)位論文第二章自然語言處理關(guān)鍵技術(shù)概述10有向圖模型又稱貝葉斯網(wǎng)絡(luò),使用有向箭頭來連接兩個(gè)節(jié)點(diǎn),箭頭方向代表?xiàng)l件概率分布,適用于信息流動(dòng)方向較為明確的情況。圖2.2中,A指向B和C,代表著A時(shí)間直接影響B(tài)事件和C時(shí)間的概率。圖2.2所對(duì)應(yīng)的概率分布為:ABCDE=ABACABDBPECh圖模型的概率分布的通用公式為:=hh其中1…代表有向圖中的結(jié)點(diǎn)。h表示所有指向節(jié)點(diǎn)的父節(jié)點(diǎn)。無向圖模型又稱為馬爾科夫隨機(jī)場(chǎng),使用無箭頭線段來連接兩個(gè)節(jié)點(diǎn),且不代表?xiàng)l件概率。下圖為一個(gè)無向圖示例:圖2.3無向圖在無向圖中,任何滿足兩兩之間有邊連接的節(jié)點(diǎn),所形成的圖形稱之為團(tuán),簡(jiǎn)記為,用表示團(tuán)所有變量的聯(lián)合概率分布。為完成概率歸一化,需要引入歸一化常數(shù),常數(shù)被定義為函數(shù)乘積的求和即:Px=1h在圖2.3中,A與B和C直接相互影響,但A和E只通過C間接相互影響,所對(duì)應(yīng)的聯(lián)合概率公式為:ABCDE=11ABCBDCEh(3)N-gram語言模型在自然語言處理中,常常根據(jù)不同模型的設(shè)計(jì)特征,將詞語、字符或字節(jié)作為標(biāo)記的實(shí)體。N-gram語言模型[38]是一種基于概率的判別模型,“N-gram”中的N代表包含N個(gè)詞語組成的集合。將這N個(gè)詞語組成的文本序列作為輸入,經(jīng)過N-gram語言模型的處理,將輸出這N個(gè)詞語出現(xiàn)的聯(lián)合概率。N個(gè)詞語之間需要按先后順序進(jìn)行輸入,但詞與詞之間允許出
【參考文獻(xiàn)】:
期刊論文
[1]中文文本分類方法綜述[J]. 于游,付鈺,吳曉平. 網(wǎng)絡(luò)與信息安全學(xué)報(bào). 2019(05)
[2]自然語言處理發(fā)展及應(yīng)用綜述[J]. 趙京勝,宋夢(mèng)雪,高祥. 信息技術(shù)與信息化. 2019(07)
[3]基于Word2vec和改進(jìn)型TF-IDF的卷積神經(jīng)網(wǎng)絡(luò)文本分類模型[J]. 王根生,黃學(xué)堅(jiān). 小型微型計(jì)算機(jī)系統(tǒng). 2019(05)
[4]基于語義分析的改進(jìn)TF-IDF算法[J]. 代鈺琴,徐魯強(qiáng). 西南科技大學(xué)學(xué)報(bào). 2019(01)
[5]自然語言處理技術(shù)發(fā)展與未來[J]. 方明之. 科技傳播. 2019(06)
[6]自然語言處理發(fā)展與應(yīng)用概述[J]. 高源. 中國新通信. 2019(02)
[7]基于深度學(xué)習(xí)的文本分類系統(tǒng)關(guān)鍵技術(shù)研究與模型驗(yàn)證[J]. 汪少敏,楊迪,任華. 電信科學(xué). 2018(12)
[8]基于KNN算法的可變權(quán)值室內(nèi)指紋定位算法[J]. 戴志誠,李小年,陳增照,何秀玲. 計(jì)算機(jī)工程. 2019(06)
[9]基于Word2vec的論文和專利主題關(guān)聯(lián)演化分析方法研究[J]. 徐紅姣,曾文,張運(yùn)良. 情報(bào)雜志. 2018(12)
[10]基于卷積神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別研究[J]. 謝慧芳,劉藝航,王梓,王迎港. 無線互聯(lián)科技. 2018(14)
碩士論文
[1]基于混合神經(jīng)網(wǎng)絡(luò)的中文短文本分類方法研究[D]. 王磊.浙江理工大學(xué) 2019
本文編號(hào):3592632
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3592632.html
最近更新
教材專著