天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于自然語言處理的文本分類研究與應(yīng)用

發(fā)布時(shí)間:2022-01-16 12:10
  目前NLP(Natural Language Processing,自然語言處理)已成為機(jī)器學(xué)習(xí)的研究熱點(diǎn)之一。文本分類是NLP處理技術(shù)的重要分支。本文采用期刊論文作為實(shí)驗(yàn)數(shù)據(jù),研究了中文文本分類問題,并提出了兩種分類模型。一種是基于權(quán)重預(yù)處理的中文文本分類算法PRE-TF-IDF(Pre-processing Term Frequency Inverse Document Frequency,文本預(yù)處理的詞頻逆文本頻)。傳統(tǒng)詞頻算法在對(duì)詞加權(quán)時(shí)僅考慮詞的出現(xiàn)頻率而不考慮詞在文本中的位置。PRE-TF-IDF算法通過在TF-IDF(Term Frequency Inverse Document Frequency,詞頻逆文本頻)算法基礎(chǔ)上增加權(quán)重預(yù)處理和詞密度權(quán)重兩個(gè)環(huán)節(jié),提高了文本分類的準(zhǔn)確性。另一種是基于卷積神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)結(jié)合的文本分類模型CNNSVM(Convolutional Neural Network and Support Vector Machine Classifier,卷積神經(jīng)網(wǎng)絡(luò)與支持向量機(jī)分類器結(jié)合模型)。在傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上,增加了注意力機(jī)制,... 

【文章來源】:南京郵電大學(xué)江蘇省

【文章頁數(shù)】:69 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于自然語言處理的文本分類研究與應(yīng)用


自然語言處理流程圖

有向圖


南京郵電大學(xué)專業(yè)學(xué)位碩士研究生學(xué)位論文第二章自然語言處理關(guān)鍵技術(shù)概述9件概率的鏈?zhǔn)椒▌t。實(shí)驗(yàn)過程中,經(jīng)常需要在已知h的情況下,來計(jì)算出。想要確定這兩者之間的關(guān)系,可以使用貝葉斯公式進(jìn)行計(jì)算:==14h式(2.4)中,=1=,稱之為事件的先驗(yàn)概率,1…為事件的完備事件組,且>0。(2)結(jié)構(gòu)化概率模型自然語言處理的算法經(jīng)常會(huì)涉及到多個(gè)隨機(jī)變量上的概率分布,這些概率分布所涉及的相互作用往往是介于極少的變量之間。如果使用某一個(gè)函數(shù)來描述整個(gè)聯(lián)合概率的分布,最終得到的結(jié)果將是非常低效的。通常,我們將概率分布分解成多個(gè)因子的乘積形式,而不用某一單一函數(shù)進(jìn)行表示[36]。假設(shè)三個(gè)隨機(jī)變量a、b和c,其中事件a和事件c在給定b的情況下,是條件獨(dú)立的。但事件a會(huì)影響事件b的取值,事件b會(huì)影響事件c的取值。將這三個(gè)變量的概率密度現(xiàn)在表示為兩個(gè)變量概率分布的鏈?zhǔn)叫问剑?h通過這樣的運(yùn)算可以很大程度上減少描述一個(gè)隨機(jī)分量的參數(shù)數(shù)量。由于每個(gè)因子使用的參數(shù)數(shù)目與其變量數(shù)目之間呈指數(shù)倍。所以,如果能夠找到一種方法,使用更少變量的分解方法來表示因子的分布,就可以使聯(lián)合分布的標(biāo)識(shí)成本大大降低。當(dāng)前比較主流的解決方法是通過一些邊相互連接頂點(diǎn)的圖形來解決,學(xué)術(shù)界將這種分解方法稱之為結(jié)構(gòu)化模型[37]。結(jié)構(gòu)化概率模型分為有向和無向兩種,每個(gè)節(jié)點(diǎn)對(duì)應(yīng)著一個(gè)隨機(jī)變量,每條邊代表這兩個(gè)隨機(jī)變量之間的概率分布是直接作用的。下圖為一個(gè)有向圖示例:圖2.2有向圖

無向圖,無向圖


南京郵電大學(xué)專業(yè)學(xué)位碩士研究生學(xué)位論文第二章自然語言處理關(guān)鍵技術(shù)概述10有向圖模型又稱貝葉斯網(wǎng)絡(luò),使用有向箭頭來連接兩個(gè)節(jié)點(diǎn),箭頭方向代表?xiàng)l件概率分布,適用于信息流動(dòng)方向較為明確的情況。圖2.2中,A指向B和C,代表著A時(shí)間直接影響B(tài)事件和C時(shí)間的概率。圖2.2所對(duì)應(yīng)的概率分布為:ABCDE=ABACABDBPECh圖模型的概率分布的通用公式為:=hh其中1…代表有向圖中的結(jié)點(diǎn)。h表示所有指向節(jié)點(diǎn)的父節(jié)點(diǎn)。無向圖模型又稱為馬爾科夫隨機(jī)場(chǎng),使用無箭頭線段來連接兩個(gè)節(jié)點(diǎn),且不代表?xiàng)l件概率。下圖為一個(gè)無向圖示例:圖2.3無向圖在無向圖中,任何滿足兩兩之間有邊連接的節(jié)點(diǎn),所形成的圖形稱之為團(tuán),簡(jiǎn)記為,用表示團(tuán)所有變量的聯(lián)合概率分布。為完成概率歸一化,需要引入歸一化常數(shù),常數(shù)被定義為函數(shù)乘積的求和即:Px=1h在圖2.3中,A與B和C直接相互影響,但A和E只通過C間接相互影響,所對(duì)應(yīng)的聯(lián)合概率公式為:ABCDE=11ABCBDCEh(3)N-gram語言模型在自然語言處理中,常常根據(jù)不同模型的設(shè)計(jì)特征,將詞語、字符或字節(jié)作為標(biāo)記的實(shí)體。N-gram語言模型[38]是一種基于概率的判別模型,“N-gram”中的N代表包含N個(gè)詞語組成的集合。將這N個(gè)詞語組成的文本序列作為輸入,經(jīng)過N-gram語言模型的處理,將輸出這N個(gè)詞語出現(xiàn)的聯(lián)合概率。N個(gè)詞語之間需要按先后順序進(jìn)行輸入,但詞與詞之間允許出

【參考文獻(xiàn)】:
期刊論文
[1]中文文本分類方法綜述[J]. 于游,付鈺,吳曉平.  網(wǎng)絡(luò)與信息安全學(xué)報(bào). 2019(05)
[2]自然語言處理發(fā)展及應(yīng)用綜述[J]. 趙京勝,宋夢(mèng)雪,高祥.  信息技術(shù)與信息化. 2019(07)
[3]基于Word2vec和改進(jìn)型TF-IDF的卷積神經(jīng)網(wǎng)絡(luò)文本分類模型[J]. 王根生,黃學(xué)堅(jiān).  小型微型計(jì)算機(jī)系統(tǒng). 2019(05)
[4]基于語義分析的改進(jìn)TF-IDF算法[J]. 代鈺琴,徐魯強(qiáng).  西南科技大學(xué)學(xué)報(bào). 2019(01)
[5]自然語言處理技術(shù)發(fā)展與未來[J]. 方明之.  科技傳播. 2019(06)
[6]自然語言處理發(fā)展與應(yīng)用概述[J]. 高源.  中國新通信. 2019(02)
[7]基于深度學(xué)習(xí)的文本分類系統(tǒng)關(guān)鍵技術(shù)研究與模型驗(yàn)證[J]. 汪少敏,楊迪,任華.  電信科學(xué). 2018(12)
[8]基于KNN算法的可變權(quán)值室內(nèi)指紋定位算法[J]. 戴志誠,李小年,陳增照,何秀玲.  計(jì)算機(jī)工程. 2019(06)
[9]基于Word2vec的論文和專利主題關(guān)聯(lián)演化分析方法研究[J]. 徐紅姣,曾文,張運(yùn)良.  情報(bào)雜志. 2018(12)
[10]基于卷積神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別研究[J]. 謝慧芳,劉藝航,王梓,王迎港.  無線互聯(lián)科技. 2018(14)

碩士論文
[1]基于混合神經(jīng)網(wǎng)絡(luò)的中文短文本分類方法研究[D]. 王磊.浙江理工大學(xué) 2019



本文編號(hào):3592632

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3592632.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b1fef***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
国产自拍欧美日韩在线观看| 1024你懂的在线视频| 麻豆视传媒短视频免费观看| 日韩午夜福利高清在线观看| 不卡中文字幕在线视频| 色婷婷中文字幕在线视频| 观看日韩精品在线视频| 日本国产欧美精品视频| 亚洲一区二区三区福利视频| 99久久人妻中文字幕| 欧美日韩中黄片免费看| 91精品视频全国免费| 午夜视频成人在线观看| 日本精品最新字幕视频播放| 厕所偷拍一区二区三区视频| 亚洲国产精品久久精品成人| 精品国产av一区二区三区不卡蜜 | 国产一区在线免费国产一区| 精品视频一区二区不卡| 激情五月天深爱丁香婷婷| 日本在线视频播放91| 99久久免费中文字幕| 欧美日韩免费观看视频| 免费观看成人免费视频| 亚洲黄片在线免费小视频| 嫩呦国产一区二区三区av| 日本乱论一区二区三区| 千仞雪下面好爽好紧好湿全文| 久热人妻中文字幕一区二区| 高跟丝袜av在线一区二区三区 | 爽到高潮嗷嗷叫之在现观看| 久久热麻豆国产精品视频| 亚洲做性视频在线播放| 国产精品午夜性色视频| 99一级特黄色性生活片| 国产内射一级二级三级| 91香蕉视频精品在线看| 久久精品国产在热久久| 欧美特色特黄一级大黄片| 久久99亚洲小姐精品综合| 精品少妇一区二区三区四区|