天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

古漢語自動(dòng)句讀與分詞研究

發(fā)布時(shí)間:2023-05-31 21:43
  古漢語與現(xiàn)代漢語有很大區(qū)別,古漢語研究直接套用現(xiàn)代漢語成果并不可行。目前的古漢語現(xiàn)有研究使用的方法相對(duì)陳舊。隨著深度學(xué)習(xí)技術(shù)的飛速發(fā)展,特別是基于海量文本的預(yù)訓(xùn)練模型的出現(xiàn),深度模型在許多現(xiàn)代漢語的自然語言處理任務(wù)上的表現(xiàn)都獲得巨大的提升。本文的工作試圖讓古漢語處理領(lǐng)域跟上時(shí)代發(fā)展。本文在這方面所做的第一項(xiàng)工作就是收集并清洗近4億字來自互聯(lián)網(wǎng)上的古漢語語料,并在此基礎(chǔ)上完成了古漢語的BERT預(yù)訓(xùn)練模型。這是在古漢語研究領(lǐng)域內(nèi)預(yù)訓(xùn)練方法的首次嘗試和突破。隨后本文以此模型為基礎(chǔ)試圖解決古漢語研究中的兩項(xiàng)關(guān)鍵性基礎(chǔ)問題——句讀與分詞問題。斷句及標(biāo)點(diǎn)任務(wù),也稱為句讀,是將連續(xù)的漢字字符串中添加斷開標(biāo)記或標(biāo)點(diǎn)符號(hào),使之成為更容易閱讀的合理句子。之前學(xué)者已經(jīng)使用過規(guī)則方法、傳統(tǒng)機(jī)器學(xué)習(xí)方法以及深度學(xué)習(xí)的序列切割方法,但是普遍存在數(shù)據(jù)基礎(chǔ)薄弱,泛化能力不足等問題。古漢語分詞問題與現(xiàn)代漢語分詞任務(wù)定義相同,但是缺乏現(xiàn)代漢語的大量分詞標(biāo)記語料。既往研究只在極小的領(lǐng)域內(nèi)進(jìn)行過嘗試,如果打算用在具有上下三千年歷史且文體風(fēng)格各異的古文上,無疑開銷巨大,或許將是不可完成的任務(wù)。在斷句及標(biāo)點(diǎn)任務(wù)上,本文使用BER...

【文章頁數(shù)】:69 頁

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
abstract
第一章 引言
    1.1 研究背景
    1.2 研究意義
    1.3 句讀與分詞問題定義
    1.4 本文工作
    1.5 本文結(jié)構(gòu)
    1.6 本章小結(jié)
第二章 文獻(xiàn)綜述
    2.1 預(yù)訓(xùn)練模型
        2.1.1 文本的數(shù)字化表示
        2.1.2 BERT預(yù)訓(xùn)練模型
    2.2 自動(dòng)句讀研究綜述
        2.2.1 基于規(guī)則的自動(dòng)句讀方法
        2.2.2 基于統(tǒng)計(jì)的自動(dòng)句讀方法
    2.3 自動(dòng)分詞研究綜述
        2.3.1 基于詞表的分詞方法
        2.3.2 基于統(tǒng)計(jì)的分詞方法
    2.4 無指導(dǎo)分詞
        2.4.1 無指導(dǎo)分詞綜述
        2.4.2 層次迪利克雷過程
        2.4.3 貝葉斯隱馬爾可夫模型
        2.4.4 聯(lián)合概率模型
    2.5 本章小結(jié)
第三章 古漢語BERT預(yù)訓(xùn)練模型
    3.1 預(yù)訓(xùn)練語料的預(yù)處理
    3.2 語料轉(zhuǎn)化為預(yù)訓(xùn)練數(shù)據(jù)
    3.3 實(shí)驗(yàn)設(shè)備與訓(xùn)練結(jié)果
    3.4 序列標(biāo)注任務(wù)中的應(yīng)用
    3.5 本章小結(jié)
第四章 自動(dòng)句讀任務(wù)
    4.1 語料選擇
    4.2 標(biāo)注集選擇
    4.3 模型設(shè)計(jì)
    4.4 評(píng)價(jià)標(biāo)準(zhǔn)
    4.5 實(shí)驗(yàn)結(jié)果與分析
        4.5.1 斷句任務(wù)結(jié)果
        4.5.2 標(biāo)點(diǎn)任務(wù)結(jié)果
    4.6 實(shí)際應(yīng)用
        4.6.1 篇章斷句參數(shù)選擇
        4.6.2 滑動(dòng)窗口式自動(dòng)斷句演示
        4.6.3 標(biāo)點(diǎn)結(jié)果展示
    4.7 本章小結(jié)
第五章 自動(dòng)分詞任務(wù)
    5.1 語料選擇
    5.2 模型設(shè)計(jì)
    5.3 評(píng)價(jià)標(biāo)準(zhǔn)
    5.4 實(shí)驗(yàn)結(jié)果與分析
        5.4.1 無指導(dǎo)分詞結(jié)果
        5.4.2 弱指導(dǎo)與有指導(dǎo)分詞
    5.5 泛化能力測(cè)試
        5.5.1 對(duì)比模型
        5.5.2 結(jié)果對(duì)比與分析
    5.6 實(shí)際應(yīng)用結(jié)果
    5.7 本章小結(jié)
第六章 總結(jié)與展望
參考文獻(xiàn)
附錄A 部分殆知閣語料分詞詞表
致謝



本文編號(hào):3826056

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/zaizhiboshi/3826056.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶77b60***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com