天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于雙語主題詞嵌入模型的中朝跨語言文本分類方法的研究

發(fā)布時間:2021-04-26 20:23
  跨語言文本分類是有效地組織多語言信息資源的關(guān)鍵技術(shù)?缯Z言文本分類技術(shù)可以消除語言的差異給人們帶來的信息檢索和文本分類的困難,可以幫助人們更好地理解語言信息,并有利于知識的交流與共享,推動經(jīng)濟(jì)和社會的發(fā)展與進(jìn)步;陔p語詞嵌入模型的方法作為當(dāng)前主流的跨語言文本分類方法,在對雙語單詞的向量表示中嵌入了上下文以及跨語言信息。但是對一詞多義的單詞用一個向量表達(dá)多種含義,會帶來歧義性問題,進(jìn)而會影響到跨語言文本分類的結(jié)果。針對上述問題,本學(xué)位論文提出了雙語主題詞嵌入模型,解決了一詞多義引起的歧義性問題,并利用深度學(xué)習(xí)算法提高了文本分類精度。首先,收集了 36萬句子級別對齊的中朝平行語料,并從句子對中抽取出詞對齊信息,構(gòu)建了在形式上是句子對齊,內(nèi)容上是詞對齊的用于訓(xùn)練雙語詞嵌入模型的平行語料。同時,收集了 4000余篇平行文本用于進(jìn)行跨語言文本分類。其次,將對單詞的表示有自適應(yīng)多原型特性的主題模型與雙語詞嵌入模型進(jìn)行結(jié)合,提出了雙語主題詞嵌入模型。利用本文提出的模型對上一步整理的語料進(jìn)行建模,得到了映射到同一個詞嵌入空間中的兩種語言的單詞表示,并且針對單詞的不同語義得到了不同潛在主題概念的描述。... 

【文章來源】:延邊大學(xué)吉林省 211工程院校

【文章頁數(shù)】:71 頁

【學(xué)位級別】:碩士

【文章目錄】:
摘要
Abstract
第1章 緒論
    1.1 研究目的和意義
    1.2 研究現(xiàn)狀
        1.2.1 跨語言文本分類研究現(xiàn)狀
        1.2.2 基于深度學(xué)習(xí)的文本分類算法
        1.2.3 跨語言文本分類存在的問題
    1.3 研究內(nèi)容與主要工作
    1.4 本文結(jié)構(gòu)
第2章 跨語言文本分類技術(shù)基礎(chǔ)
    2.1 引言
    2.2 跨語言文本分類概述
    2.3 文本表示模型
        2.3.1 向量空間模型
        2.3.2 LDA主題模型
        2.3.3 詞嵌入模型
    2.4 雙語文本表示模型
        2.4.1 雙語LDA主題模型
        2.4.2 雙語skip-gram模型
    2.5 文本分類算法
        2.5.1 感知機(jī)
        2.5.2 樸素貝葉斯分類器
        2.5.3 支持向量機(jī)
        2.5.4 卷積神經(jīng)網(wǎng)絡(luò)
        2.5.5 循環(huán)神經(jīng)網(wǎng)絡(luò)
    2.6 本章小結(jié)
第3章 雙語主題詞嵌入模型的構(gòu)建
    3.1 引言
    3.2 雙語主題詞嵌入模型概述
    3.3 基于平行句對與詞對齊信息的雙語詞嵌入模型
        3.3.1 面向雙語詞嵌入模型的平行語料
        3.3.2 平行句對與詞對齊信息
        3.3.3 基于平行句對與詞對齊信息的雙語skip-gram模型
        3.3.4 基于深度學(xué)習(xí)框架的加速訓(xùn)練
    3.4 雙語主題詞嵌入模型
        3.4.1 自適應(yīng)多原型向量表示
        3.4.2 雙語主題的訓(xùn)練
        3.4.3 雙語主題的嵌入表示
        3.4.4 雙語主題詞嵌入表示
    3.5 本章小結(jié)
第4章 跨語言分類實驗及結(jié)果分析
    4.1 引言
    4.2 雙語平行語料的獲取及預(yù)處理
        4.2.1 雙語詞嵌入
        4.2.2 雙語主題及跨語言文本分類
    4.3 雙語單詞的雙語主題詞嵌入表示
        4.3.1 自適應(yīng)多原型表示
        4.3.2 單詞的雙語主題詞嵌入表示
    4.4 跨語言文本分類
        4.4.1 實驗方案
        4.4.2 實驗結(jié)果及分析
    4.5 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文和其它成果
致謝


【參考文獻(xiàn)】:
期刊論文
[1]面向跨語言文本分類與標(biāo)簽推薦的帶標(biāo)簽雙語主題模型的研究[J]. 田明杰,崔榮一.  計算機(jī)應(yīng)用研究. 2019(10)
[2]基于雙語LDA的跨語言文本相似度計算方法研究[J]. 程蔚,線巖團(tuán),周蘭江,余正濤,王紅斌.  計算機(jī)工程與科學(xué). 2017(05)
[3]自然語言處理中主題模型的發(fā)展[J]. 徐戈,王厚峰.  計算機(jī)學(xué)報. 2011(08)
[4]基于樸素貝葉斯分類器的朝鮮語文本分類的研究[J]. 周國強(qiáng),崔榮一.  中文信息學(xué)報. 2011(04)
[5]Dirichlet過程及其在自然語言處理中的應(yīng)用[J]. 徐謙,周俊生,陳家駿.  中文信息學(xué)報. 2009(05)
[6]EM算法研究與應(yīng)用[J]. 王愛平,張功營,劉方.  計算機(jī)技術(shù)與發(fā)展. 2009(09)
[7]基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[J]. 蘇金樹,張博鋒,徐昕.  軟件學(xué)報. 2006(09)



本文編號:3162060

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3162060.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ae977***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com