天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

大中華區(qū)漢語變體識別研究

發(fā)布時(shí)間:2020-11-11 02:49
   自動(dòng)語言識別是語言處理和語言理解的第一步,如何較為準(zhǔn)確地檢測文本所采用的語言是許多自然語言處理任務(wù)(例如:文本自動(dòng)分類、機(jī)器翻譯和多語言數(shù)據(jù)采集等)的首要步驟。近年來,隨著自動(dòng)語言識別研究的逐漸深入,不同種類的語言已經(jīng)可以達(dá)到較高的識別率,但對于語言變體識別而言,由于該類語言資源相對缺乏,語言之間距離較近,語言變體的自動(dòng)識別仍是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。大中華區(qū)由于受地域、歷史、文化、社會(huì)環(huán)境等因素影響,各地區(qū)使用的漢語存在詞匯、語法、語用等方面的差異,屬于廣義現(xiàn)代漢語下的變體。不同于傳統(tǒng)的語言學(xué),本文主要從計(jì)算語言學(xué)和自然語言處理的角度出發(fā),開展大中華區(qū)漢語變體識別研究,并著重分析了大中華區(qū)漢語變體之間的差異性,主要研究內(nèi)容體現(xiàn)在以下兩個(gè)方面:(1)構(gòu)建集成經(jīng)典文本分類方法的大中華區(qū)漢語變體識別模型本文將經(jīng)典的文本分類方法,包括傳統(tǒng)的機(jī)器學(xué)習(xí)方法和基于深度學(xué)習(xí)的方法,利用多數(shù)投票算法集成構(gòu)建了一個(gè)新的大中華區(qū)漢語變體識別模型,并將模型運(yùn)用在大中華區(qū)新聞書面語的識別上。在抓取的分類語料數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果顯示本文構(gòu)建的大中華區(qū)漢語變體識別集成模型可以綜合單個(gè)模型的優(yōu)勢,從而取得更好的識別效果。(2)構(gòu)建基于SENet(Squeeze-and-Excitation Networks)注意力機(jī)制的大中華區(qū)漢語變體識別模型受融入了注意力機(jī)制的經(jīng)典單個(gè)文本分類模型啟發(fā),本文構(gòu)建了一個(gè)基于SENet注意力機(jī)制的大中華區(qū)漢語變體識別模型,利用SENet注意力機(jī)制來捕捉大中華區(qū)漢語變體之間的差異性特征,動(dòng)態(tài)的增加重要區(qū)分性特征詞匯的權(quán)重。同時(shí)在訓(xùn)練中過程中還融入原始詞向量特征。實(shí)驗(yàn)結(jié)果顯示,與經(jīng)典的文本分類方法相比,基于SENet注意力機(jī)制的大中華區(qū)漢語變體識別模型識別效果有顯著提升,對實(shí)驗(yàn)結(jié)果詳細(xì)的可視化分析也驗(yàn)證了注意力模型的有效性。
【學(xué)位單位】:江西師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2020
【中圖分類】:H1;TP391.1;TP181
【部分圖文】:

框架圖,框架圖,模型,單詞


大中華區(qū)漢語變體識別研究11詞。這樣做的好處在于與one-hot這樣的編碼對比,使用詞嵌入表示的單詞向量往往只有幾十或者幾百個(gè)維度,極大的減少了計(jì)算和儲存量。這種分布式的詞向量表示方式依賴于單詞的使用習(xí)慣,這就使得具有相似使用方式的單詞具有相似的表示形式[30]。(3)Word2Vector詞嵌入是現(xiàn)在最常用的表示方式,而最流行的詞嵌入方法,就是Word2Vec。2013年,Google的TomasMikolov等人提出了一種Word2Vec的詞嵌入方法[31],它是一種用于有效學(xué)習(xí)從文本語料庫嵌入的獨(dú)立詞語的統(tǒng)計(jì)方法。其核心思想就是基于上下文,先用向量代表各個(gè)詞,然后通過一個(gè)預(yù)測目標(biāo)函數(shù)學(xué)習(xí)這些向量的參數(shù)。Word2Vec的網(wǎng)絡(luò)主體是一種單隱層前饋神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)的輸入和輸出均為詞向量。具體來說,Word2Vec中涉及到兩種模型,一個(gè)是CBOW模型(ContinuousBag-of-WordsModel),是通過給定的上下文單詞環(huán)境來預(yù)測當(dāng)前詞出現(xiàn)的概率;另一個(gè)是Skip-Gram模型(ContinuousSkip-GramModel),與CBOW正好相反,Skip-Gram是通過當(dāng)前詞來預(yù)測其上下文的單詞。這也是深度學(xué)習(xí)流行起來之后,基于神經(jīng)網(wǎng)絡(luò)來完成的詞嵌入方法。CBOW和Skip-Gram的模型框架如圖2-1所示:圖2-1CBOW和Skip-Gram的模型框架圖2.2.4多數(shù)投票算法集成學(xué)習(xí)(Ensemblemethod)是一種“群體決策”的思想,即對某一特定問題,用多個(gè)模型來進(jìn)行訓(xùn)練。它最初的思想很簡單,就是利用一定的手段去學(xué)習(xí)并構(gòu)建多個(gè)不同的分類器,然后將這些分類器用某種策略將他們結(jié)合起來得到一個(gè)更強(qiáng)大的分類器,來做最后的決策。一般來說,集成分類器的分類性能會(huì)比單個(gè)分

超平面


大中華區(qū)漢語變體識別研究133集成經(jīng)典文本分類方法的漢語變體識別模型本章主要介紹了經(jīng)典的文本分類方法,包括基于傳統(tǒng)的機(jī)器學(xué)習(xí)方法和基于深度學(xué)習(xí)的方法,并展示了如何利用多數(shù)投票算法來融合多個(gè)文本分類模型,以構(gòu)建一個(gè)新的大中華區(qū)漢語變體識別模型來提高語言識別效果。3.1支持向量機(jī)3.1.1支持向量機(jī)概述支持向量機(jī)(SupportVectorMachine,SVM)是一種二分類模型,它的基本思想是構(gòu)建一個(gè)最優(yōu)決策超平面,使得該平面兩側(cè)距離到該平面最近的兩類樣本之間的距離最大化,最終會(huì)轉(zhuǎn)化成求解一個(gè)凸二次規(guī)劃問題,SVM對分類問題具有較好的泛化能力[33]。對多維的樣本數(shù)據(jù)集,系統(tǒng)會(huì)隨機(jī)產(chǎn)生一個(gè)不斷移動(dòng)的超平面,來進(jìn)行樣本分類,直到訓(xùn)練樣本中屬于不同類別的樣本點(diǎn)正好落在這個(gè)超平面的兩側(cè),可能滿足這個(gè)條件的超平面有很多個(gè),而SVM就是在保證分類精度的同時(shí),去找到這樣一個(gè)超平面,使得超平面兩側(cè)的空白區(qū)域最大化,從而實(shí)現(xiàn)對線性可分樣本的最優(yōu)分類。在樣本非線性可分的時(shí)候,將會(huì)引入核函數(shù),來保證在不增加算法復(fù)雜度的情況下將完全不可分問題轉(zhuǎn)化為可分或是達(dá)到近似可分的狀態(tài)[34]。3.1.2支持向量機(jī)線性分類器SVM學(xué)習(xí)的基本思想是求解能夠正確劃分訓(xùn)練數(shù)據(jù)集并且?guī)缀伍g隔最大的分離超平面。如圖3-1所示,wx+b=0即為分離超平面,對于線性可分的數(shù)據(jù)集,這樣的超平面有無數(shù)個(gè),但幾何間隔最大的分離超平面卻是唯一的。圖3-1最大分離超平面

線性可分,線性,樣本,超平面


大中華區(qū)漢語變體識別研究1511111(,,)2..0,0,1,2,...,mmmiijijijiijmiiiiLwbyyxxstyim(3-7)原問題就轉(zhuǎn)換為如下關(guān)于的問題:11111(,,)2..0,0,1,2,...,maxmmmiijijijiijmiiiiLwbyyxxstyim(3-8)解出的最優(yōu)解i后,根據(jù)公式(3-9)可求得w,進(jìn)而求得b,可以得到分類決策函數(shù):1()()()miiiifxsignwxbsignyxxb(3-9)3.1.3支持向量機(jī)非線性分類器對于二元分類問題,如果存在一個(gè)分隔超平面能夠?qū)⒉煌悇e的數(shù)據(jù)完全的分隔開即兩類數(shù)據(jù)正好完全落在超平面的兩側(cè),則稱其為線性可分。反之,如果不存在這樣的超平面,則稱其為線性不可分。如圖3-2所示:圖3-2樣本的線性可分與線性不可分對輸入空間線性不可分時(shí),可以利用非線性變換將其轉(zhuǎn)化成某個(gè)高維特征空間內(nèi)的線性分類問題,在這個(gè)高維特征空間中學(xué)習(xí)線性SVM。在線性SVM學(xué)習(xí)的對偶問題中,目標(biāo)函數(shù)和分類決策函數(shù)都只涉及到實(shí)例與實(shí)例之間的內(nèi)積,因此不必再顯式地指定非線性變換,只需要將內(nèi)積用核函數(shù)替換即可。核函數(shù)表示的是經(jīng)過一個(gè)非線性轉(zhuǎn)換過的兩個(gè)實(shí)例之間的內(nèi)積[34]。若K(x,z)表示一個(gè)核函數(shù),則表明存在從輸入空間到特征空間的一個(gè)映射(x),對于任意輸入空間中的x,z,有K(x,z)(x)(z)(3-10)
【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 韓瑋璇;;《變體》[J];皖西學(xué)院學(xué)報(bào);2019年06期

2 楊博;竇婧文;曹振;;變體飛行器的氣動(dòng)結(jié)構(gòu)對控制系統(tǒng)的影響[J];彈道學(xué)報(bào);2020年01期

3 王金貴,畢書峰;變體美術(shù)字及其教學(xué)[J];黑河教育;2004年04期

4 安亦男;朱小明;;形式與變體[J];裝飾;2016年01期

5 王之韻;朱小明;;形式與變體[J];裝飾;2016年01期

6 王瀟珩;洪波;;形式與變體[J];裝飾;2016年01期

7 顧黎明;;吉祥如意變體二[J];中國油畫;2018年05期

8 陳戰(zhàn)輝;謝軍偉;付云;;變體技術(shù)在巡航導(dǎo)彈上的應(yīng)用研究[J];飛航導(dǎo)彈;2011年08期

9 王雋;羅婷;;英語習(xí)語臨時(shí)變體產(chǎn)生原因與變體類別淺析[J];河南廣播電視大學(xué)學(xué)報(bào);2007年02期

10 長召其,張志毅;異形詞是詞位的無值變體[J];語言文字應(yīng)用;2003年03期


相關(guān)博士學(xué)位論文 前4條

1 杜廈;無舵面變體翼飛行器機(jī)構(gòu)設(shè)計(jì)與氣動(dòng)分析[D];南京航空航天大學(xué);2012年

2 李盈枝;X連鎖特發(fā)性眼球震顫相關(guān)FRMD7基因新剪切變體的克隆及其在神經(jīng)發(fā)育過程中相關(guān)功能的研究[D];浙江大學(xué);2011年

3 薛建新;傳名演算變體的互模擬理論,表達(dá)能力和證明系統(tǒng)研究[D];上海交通大學(xué);2013年

4 殷明;變體飛行器變形與飛行的協(xié)調(diào)控制問題研究[D];南京航空航天大學(xué);2016年


相關(guān)碩士學(xué)位論文 前10條

1 孫玉梅;大中華區(qū)漢語變體識別研究[D];江西師范大學(xué);2020年

2 趙科紅;翻譯本質(zhì)及其變體[D];湖南師范大學(xué);2004年

3 張東華;變體臨摹和中國花鳥畫的創(chuàng)作[D];中國美術(shù)學(xué)院;2009年

4 朱文強(qiáng);基于結(jié)構(gòu)稀疏先驗(yàn)的變體目標(biāo)識別方法研究[D];西安電子科技大學(xué);2017年

5 朱琳;場景情緒及伴隨者軀體語言對目標(biāo)軀體語言識別的影響[D];南京師范大學(xué);2018年

6 宋國慶;從使用制度探索商標(biāo)變體的法律保護(hù)[D];華東政法大學(xué);2015年

7 朱春麗;[D];鄭州大學(xué);2002年

8 寧英娟;漢語方言義項(xiàng)及其變體研究[D];上海師范大學(xué);2011年

9 郭淑娟;可變體飛行器的飛行協(xié)調(diào)控制問題研究[D];南京航空航天大學(xué);2012年

10 萬茜;對兩種網(wǎng)語變體的文體學(xué)比較研究[D];對外經(jīng)濟(jì)貿(mào)易大學(xué);2004年



本文編號:2878643

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/zaizhiboshi/2878643.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶37e7b***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com