天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于不平行語料庫單語映射方法的跨語言文本分類研究

發(fā)布時間:2021-08-13 13:55
  文本分類是自然語言處理中較為基礎常見的任務,但由于詞向量空間的單一性,使得分類系統(tǒng)不能在不同語言上通用。若分別對每種語言單獨訓練分類模型,則會導致大量的成本和時間問題;并且分類模型作為監(jiān)督學習方法,需要大量的訓練樣本訓練模型,而由于不同語言的資源分布不均,使得資源較少的語言無法構建單語言分類模型;另外,主流跨語言詞嵌入模型需要依賴成本昂貴的平行語料庫,在不同語種間拓展性差。因此,針對以上問題,本文對于分類系統(tǒng),跨語言詞嵌入等進行了深入的研究,提出引入注意力機制的單語言神經(jīng)網(wǎng)絡分類方法,與兩種不基于平行語料庫的跨語言文本分類方法,如下:(1)針對單語言分類,本文提出雙向的GRU神經(jīng)網(wǎng)絡模型,并將注意力機制引入到分類模型中。通過與傳統(tǒng)機器學習方法,以及注意力機制的對比實驗,雙向GRU模型以及注意力機制均對于分類模型有著不同程度的提升,由此,將該模型作為跨語言分類模型的基礎。(2)針對不基于平行語料庫的跨語言分類,本文提出僅使用單語言文本語料來構建雙語詞嵌入模型,而拋棄對平行語料庫的依賴。在目前對抗學習的研究基礎上,引入普魯克分析方法和跨域相似度局部縮放的方法,來對對抗學習得到的結果進行微調... 

【文章來源】:云南大學云南省 211工程院校

【文章頁數(shù)】:68 頁

【學位級別】:碩士

【部分圖文】:

基于不平行語料庫單語映射方法的跨語言文本分類研究


圖2.3:降維展示空間內(nèi)同義詞與反義詞分布??(左圖為在英語單語空間內(nèi)的分布情況,右圖?

人臉特征,目標語言,鄰域


但大多數(shù)研宄都是在單一的特征分布上解決該問題。然而在文獻[44]中,作??者提出通過雙方鄰域(Q,(奶cs/r),,將給定字典的每個單詞連接到另??一種語言的K階最近鄰。在這個雙方鄰域圖中(如圖4.3),示的是??映射詞向量的K階向量域,且該向量域中的K個向量均為目標語言詞向量。??同理,Qs〇V)指的是目標語言詞向量的K階目標語言詞向量域^??38??

鄰城,平均近似值


因此源語言映射詞向量與其K階目標詞向量的平均近似值為:??「r(D=?士?Z?C0Sd,>V)?(4.1八?>Ven,d>??同理目標語言詞向量與其K階詞向量的平均近似值為:??「“.?)=士?Z?c〇s(w,:,)?(4-2最后,將公式整合起來,跨域距離計算公式為:??CSLS{Wxsrc,?y,gl)?=?2?oos{Wxsrc,?ylgl?)-VT{?Wxsrc)?-?Fs?iylg,)?(4.3.3微調對抗模型??主,習習從語目語??

【參考文獻】:
期刊論文
[1]基于TF-IDF特征提取的短文本分類方法[J]. 曹姍.  工業(yè)控制計算機. 2018(04)
[2]基于LSTM-Attention神經(jīng)網(wǎng)絡的文本特征提取方法[J]. 趙勤魯,蔡曉東,李波,呂璐.  現(xiàn)代電子技術. 2018(08)
[3]結合注意力機制的長文本分類方法[J]. 盧玲,楊武,王遠倫,雷子鑒,李瑩.  計算機應用. 2018(05)
[4]稀疏正交普魯克回歸處理跨姿態(tài)人臉識別問題[J]. 張娟.  計算機科學. 2017(02)
[5]中文文本分類中TF-IDF方法的改進與應用[J]. 宋章浩.  科技展望. 2014(22)
[6]跨語言文本分類技術研究進展[J]. 高影繁,王惠臨,徐紅姣.  情報理論與實踐. 2010(11)
[7]基于機器學習的文本分類技術研究進展[J]. 蘇金樹,張博鋒,徐昕.  軟件學報. 2006(09)

碩士論文
[1]基于詞向量和主題向量的文本分類算法研究[D]. 郭宏運.華中科技大學 2016



本文編號:3340552

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3340552.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶10c9c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com