大中華區(qū)漢語變體識別研究
【學(xué)位單位】:江西師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2020
【中圖分類】:H1;TP391.1;TP181
【部分圖文】:
大中華區(qū)漢語變體識別研究11詞。這樣做的好處在于與one-hot這樣的編碼對比,使用詞嵌入表示的單詞向量往往只有幾十或者幾百個(gè)維度,極大的減少了計(jì)算和儲存量。這種分布式的詞向量表示方式依賴于單詞的使用習(xí)慣,這就使得具有相似使用方式的單詞具有相似的表示形式[30]。(3)Word2Vector詞嵌入是現(xiàn)在最常用的表示方式,而最流行的詞嵌入方法,就是Word2Vec。2013年,Google的TomasMikolov等人提出了一種Word2Vec的詞嵌入方法[31],它是一種用于有效學(xué)習(xí)從文本語料庫嵌入的獨(dú)立詞語的統(tǒng)計(jì)方法。其核心思想就是基于上下文,先用向量代表各個(gè)詞,然后通過一個(gè)預(yù)測目標(biāo)函數(shù)學(xué)習(xí)這些向量的參數(shù)。Word2Vec的網(wǎng)絡(luò)主體是一種單隱層前饋神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)的輸入和輸出均為詞向量。具體來說,Word2Vec中涉及到兩種模型,一個(gè)是CBOW模型(ContinuousBag-of-WordsModel),是通過給定的上下文單詞環(huán)境來預(yù)測當(dāng)前詞出現(xiàn)的概率;另一個(gè)是Skip-Gram模型(ContinuousSkip-GramModel),與CBOW正好相反,Skip-Gram是通過當(dāng)前詞來預(yù)測其上下文的單詞。這也是深度學(xué)習(xí)流行起來之后,基于神經(jīng)網(wǎng)絡(luò)來完成的詞嵌入方法。CBOW和Skip-Gram的模型框架如圖2-1所示:圖2-1CBOW和Skip-Gram的模型框架圖2.2.4多數(shù)投票算法集成學(xué)習(xí)(Ensemblemethod)是一種“群體決策”的思想,即對某一特定問題,用多個(gè)模型來進(jìn)行訓(xùn)練。它最初的思想很簡單,就是利用一定的手段去學(xué)習(xí)并構(gòu)建多個(gè)不同的分類器,然后將這些分類器用某種策略將他們結(jié)合起來得到一個(gè)更強(qiáng)大的分類器,來做最后的決策。一般來說,集成分類器的分類性能會(huì)比單個(gè)分
大中華區(qū)漢語變體識別研究133集成經(jīng)典文本分類方法的漢語變體識別模型本章主要介紹了經(jīng)典的文本分類方法,包括基于傳統(tǒng)的機(jī)器學(xué)習(xí)方法和基于深度學(xué)習(xí)的方法,并展示了如何利用多數(shù)投票算法來融合多個(gè)文本分類模型,以構(gòu)建一個(gè)新的大中華區(qū)漢語變體識別模型來提高語言識別效果。3.1支持向量機(jī)3.1.1支持向量機(jī)概述支持向量機(jī)(SupportVectorMachine,SVM)是一種二分類模型,它的基本思想是構(gòu)建一個(gè)最優(yōu)決策超平面,使得該平面兩側(cè)距離到該平面最近的兩類樣本之間的距離最大化,最終會(huì)轉(zhuǎn)化成求解一個(gè)凸二次規(guī)劃問題,SVM對分類問題具有較好的泛化能力[33]。對多維的樣本數(shù)據(jù)集,系統(tǒng)會(huì)隨機(jī)產(chǎn)生一個(gè)不斷移動(dòng)的超平面,來進(jìn)行樣本分類,直到訓(xùn)練樣本中屬于不同類別的樣本點(diǎn)正好落在這個(gè)超平面的兩側(cè),可能滿足這個(gè)條件的超平面有很多個(gè),而SVM就是在保證分類精度的同時(shí),去找到這樣一個(gè)超平面,使得超平面兩側(cè)的空白區(qū)域最大化,從而實(shí)現(xiàn)對線性可分樣本的最優(yōu)分類。在樣本非線性可分的時(shí)候,將會(huì)引入核函數(shù),來保證在不增加算法復(fù)雜度的情況下將完全不可分問題轉(zhuǎn)化為可分或是達(dá)到近似可分的狀態(tài)[34]。3.1.2支持向量機(jī)線性分類器SVM學(xué)習(xí)的基本思想是求解能夠正確劃分訓(xùn)練數(shù)據(jù)集并且?guī)缀伍g隔最大的分離超平面。如圖3-1所示,wx+b=0即為分離超平面,對于線性可分的數(shù)據(jù)集,這樣的超平面有無數(shù)個(gè),但幾何間隔最大的分離超平面卻是唯一的。圖3-1最大分離超平面
大中華區(qū)漢語變體識別研究1511111(,,)2..0,0,1,2,...,mmmiijijijiijmiiiiLwbyyxxstyim(3-7)原問題就轉(zhuǎn)換為如下關(guān)于的問題:11111(,,)2..0,0,1,2,...,maxmmmiijijijiijmiiiiLwbyyxxstyim(3-8)解出的最優(yōu)解i后,根據(jù)公式(3-9)可求得w,進(jìn)而求得b,可以得到分類決策函數(shù):1()()()miiiifxsignwxbsignyxxb(3-9)3.1.3支持向量機(jī)非線性分類器對于二元分類問題,如果存在一個(gè)分隔超平面能夠?qū)⒉煌悇e的數(shù)據(jù)完全的分隔開即兩類數(shù)據(jù)正好完全落在超平面的兩側(cè),則稱其為線性可分。反之,如果不存在這樣的超平面,則稱其為線性不可分。如圖3-2所示:圖3-2樣本的線性可分與線性不可分對輸入空間線性不可分時(shí),可以利用非線性變換將其轉(zhuǎn)化成某個(gè)高維特征空間內(nèi)的線性分類問題,在這個(gè)高維特征空間中學(xué)習(xí)線性SVM。在線性SVM學(xué)習(xí)的對偶問題中,目標(biāo)函數(shù)和分類決策函數(shù)都只涉及到實(shí)例與實(shí)例之間的內(nèi)積,因此不必再顯式地指定非線性變換,只需要將內(nèi)積用核函數(shù)替換即可。核函數(shù)表示的是經(jīng)過一個(gè)非線性轉(zhuǎn)換過的兩個(gè)實(shí)例之間的內(nèi)積[34]。若K(x,z)表示一個(gè)核函數(shù),則表明存在從輸入空間到特征空間的一個(gè)映射(x),對于任意輸入空間中的x,z,有K(x,z)(x)(z)(3-10)
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 韓瑋璇;;《變體》[J];皖西學(xué)院學(xué)報(bào);2019年06期
2 楊博;竇婧文;曹振;;變體飛行器的氣動(dòng)結(jié)構(gòu)對控制系統(tǒng)的影響[J];彈道學(xué)報(bào);2020年01期
3 王金貴,畢書峰;變體美術(shù)字及其教學(xué)[J];黑河教育;2004年04期
4 安亦男;朱小明;;形式與變體[J];裝飾;2016年01期
5 王之韻;朱小明;;形式與變體[J];裝飾;2016年01期
6 王瀟珩;洪波;;形式與變體[J];裝飾;2016年01期
7 顧黎明;;吉祥如意變體二[J];中國油畫;2018年05期
8 陳戰(zhàn)輝;謝軍偉;付云;;變體技術(shù)在巡航導(dǎo)彈上的應(yīng)用研究[J];飛航導(dǎo)彈;2011年08期
9 王雋;羅婷;;英語習(xí)語臨時(shí)變體產(chǎn)生原因與變體類別淺析[J];河南廣播電視大學(xué)學(xué)報(bào);2007年02期
10 長召其,張志毅;異形詞是詞位的無值變體[J];語言文字應(yīng)用;2003年03期
相關(guān)博士學(xué)位論文 前4條
1 杜廈;無舵面變體翼飛行器機(jī)構(gòu)設(shè)計(jì)與氣動(dòng)分析[D];南京航空航天大學(xué);2012年
2 李盈枝;X連鎖特發(fā)性眼球震顫相關(guān)FRMD7基因新剪切變體的克隆及其在神經(jīng)發(fā)育過程中相關(guān)功能的研究[D];浙江大學(xué);2011年
3 薛建新;傳名演算變體的互模擬理論,表達(dá)能力和證明系統(tǒng)研究[D];上海交通大學(xué);2013年
4 殷明;變體飛行器變形與飛行的協(xié)調(diào)控制問題研究[D];南京航空航天大學(xué);2016年
相關(guān)碩士學(xué)位論文 前10條
1 孫玉梅;大中華區(qū)漢語變體識別研究[D];江西師范大學(xué);2020年
2 趙科紅;翻譯本質(zhì)及其變體[D];湖南師范大學(xué);2004年
3 張東華;變體臨摹和中國花鳥畫的創(chuàng)作[D];中國美術(shù)學(xué)院;2009年
4 朱文強(qiáng);基于結(jié)構(gòu)稀疏先驗(yàn)的變體目標(biāo)識別方法研究[D];西安電子科技大學(xué);2017年
5 朱琳;場景情緒及伴隨者軀體語言對目標(biāo)軀體語言識別的影響[D];南京師范大學(xué);2018年
6 宋國慶;從使用制度探索商標(biāo)變體的法律保護(hù)[D];華東政法大學(xué);2015年
7 朱春麗;[D];鄭州大學(xué);2002年
8 寧英娟;漢語方言義項(xiàng)及其變體研究[D];上海師范大學(xué);2011年
9 郭淑娟;可變體飛行器的飛行協(xié)調(diào)控制問題研究[D];南京航空航天大學(xué);2012年
10 萬茜;對兩種網(wǎng)語變體的文體學(xué)比較研究[D];對外經(jīng)濟(jì)貿(mào)易大學(xué);2004年
本文編號:2878643
本文鏈接:http://sikaile.net/shoufeilunwen/zaizhiboshi/2878643.html