基于深度學習的典籍介賓句法結(jié)構(gòu)自動識別研究
發(fā)布時間:2023-04-19 03:24
古漢語典籍是中華民族文化和歷史的承載與見證,通過典籍能夠還原、了解中國古代社會的樣貌,因此典籍中有著豐富的寶藏等待研究者去挖掘。隨著科學技術(shù)的發(fā)展,人們開始用計算機來處理自然語言,有關(guān)自然語言處理的技術(shù)越來越多。雖然中文信息處理發(fā)展飛速,尤其是現(xiàn)代漢語文本方面取得了豐碩的成果,但有關(guān)古文信息化處理的研究較少,這與現(xiàn)代漢語文本成果形成了鮮明的對比。當前國內(nèi)的古文信息處理的研究處于滯后狀態(tài)且大多數(shù)研究都集中在典籍數(shù)字化、自動分詞、詞性標注等方面,少有關(guān)于古文句法層面的研究。要挖掘典籍中的知識,首先要實現(xiàn)對典籍的句法分析。句法分析就是分析句子中的詞語語法功能,又分為句法結(jié)構(gòu)分析和依存關(guān)系分析兩種。但是完整的句法分析有較大的難度,可以通過淺層句法分析來解構(gòu)句子的組成。介賓結(jié)構(gòu)的自動識別就是淺層句法分析中的一部分。古漢語的語法與現(xiàn)代漢語的語法有較大的差異,這也是古漢語典籍晦澀難懂的原因之一,但是古漢語與現(xiàn)代漢語在介賓結(jié)構(gòu)上有著很大的相似點,介賓結(jié)構(gòu)有著引出相關(guān)的時間、地點、人物、原因、目的、方式等等語法意義,因而介賓結(jié)構(gòu)的識別與結(jié)構(gòu)的分析直接關(guān)系到人們對句子的理解。如果能夠?qū)崿F(xiàn)典籍的介賓結(jié)構(gòu)識別...
【文章頁數(shù)】:81 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景及意義
1.2 研究內(nèi)容
第二章 文獻綜述與模型原理
2.1 相關(guān)理論方法
2.1.1 句法分析
2.1.2 國內(nèi)外淺層句法分析研究綜述
2.1.3 介賓結(jié)構(gòu)識別
2.1.4 深度學習的發(fā)展
2.1.5 序列標注
2.1.6 古文信息處理研究綜述
2.2 相關(guān)模型原理
2.2.1 CRF模型
2.2.2 LSTM模型
2.2.3 BERT模型
2.3 本章小結(jié)
第三章 語料分析
3.1 清華漢語樹庫
3.1.1 清華漢語樹庫結(jié)構(gòu)分析
3.1.2 清華漢語樹庫介賓結(jié)構(gòu)統(tǒng)計
3.2 《史記》語料介詞分布分析
3.3 清華漢語樹庫介賓結(jié)構(gòu)與《史記》介賓結(jié)構(gòu)比較
3.4 《史記》語料構(gòu)建與分析
3.4.1 《史記》語料標注
3.4.2 《史記》語料介賓結(jié)構(gòu)分析
3.5 本章小結(jié)
第四章 清華漢語樹庫實驗
4.1 清華漢語樹庫語料處理
4.2 實驗目的
4.3 清華漢語樹庫CRF實驗
4.3.1 CRF特征選擇
4.3.2 窗口長度的選擇
4.3.3 特征模板設(shè)置
4.3.4 CRF實驗
4.3.5 不同語料處理對識別結(jié)果的影響分析
4.4 Bi-LSTM-CRF模型實驗
4.4.1 詞向量的獲取
4.4.2 參數(shù)的設(shè)置
4.4.3 十折交叉驗證
4.5 BERT模型十折實驗
4.5.1 預訓練模型
4.5.2 識別模型結(jié)果
4.6 本章小結(jié)
第五章 《史記》介賓結(jié)構(gòu)識別研究
5.1 基于CRF++的史記介賓結(jié)構(gòu)識別
5.1.1 特征與特征模板選擇
5.1.2 識別模型結(jié)果
5.2 基于Bi-LSTM-CRF模型的《史記》介賓結(jié)構(gòu)識別
5.2.1 詞向量與字向量的獲取
5.2.2 參數(shù)設(shè)置
5.2.3 識別模型訓練結(jié)果
5.2.4 不同語料處理對識別結(jié)果的影響分析
5.3 基于BERT的《史記》介賓結(jié)構(gòu)識別
5.4 不同模型方法字單位識別效果分析
5.5 典籍介賓結(jié)構(gòu)自動識別平臺搭建
5.5.1 網(wǎng)站的布局設(shè)計
5.5.2 平臺使用示例
5.6 本章小結(jié)
第六章 總結(jié)和展望
6.1 總結(jié)
6.2 不足和展望
參考文獻
致謝
本文編號:3793619
【文章頁數(shù)】:81 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景及意義
1.2 研究內(nèi)容
第二章 文獻綜述與模型原理
2.1 相關(guān)理論方法
2.1.1 句法分析
2.1.2 國內(nèi)外淺層句法分析研究綜述
2.1.3 介賓結(jié)構(gòu)識別
2.1.4 深度學習的發(fā)展
2.1.5 序列標注
2.1.6 古文信息處理研究綜述
2.2 相關(guān)模型原理
2.2.1 CRF模型
2.2.2 LSTM模型
2.2.3 BERT模型
2.3 本章小結(jié)
第三章 語料分析
3.1 清華漢語樹庫
3.1.1 清華漢語樹庫結(jié)構(gòu)分析
3.1.2 清華漢語樹庫介賓結(jié)構(gòu)統(tǒng)計
3.2 《史記》語料介詞分布分析
3.3 清華漢語樹庫介賓結(jié)構(gòu)與《史記》介賓結(jié)構(gòu)比較
3.4 《史記》語料構(gòu)建與分析
3.4.1 《史記》語料標注
3.4.2 《史記》語料介賓結(jié)構(gòu)分析
3.5 本章小結(jié)
第四章 清華漢語樹庫實驗
4.1 清華漢語樹庫語料處理
4.2 實驗目的
4.3 清華漢語樹庫CRF實驗
4.3.1 CRF特征選擇
4.3.2 窗口長度的選擇
4.3.3 特征模板設(shè)置
4.3.4 CRF實驗
4.3.5 不同語料處理對識別結(jié)果的影響分析
4.4 Bi-LSTM-CRF模型實驗
4.4.1 詞向量的獲取
4.4.2 參數(shù)的設(shè)置
4.4.3 十折交叉驗證
4.5 BERT模型十折實驗
4.5.1 預訓練模型
4.5.2 識別模型結(jié)果
4.6 本章小結(jié)
第五章 《史記》介賓結(jié)構(gòu)識別研究
5.1 基于CRF++的史記介賓結(jié)構(gòu)識別
5.1.1 特征與特征模板選擇
5.1.2 識別模型結(jié)果
5.2 基于Bi-LSTM-CRF模型的《史記》介賓結(jié)構(gòu)識別
5.2.1 詞向量與字向量的獲取
5.2.2 參數(shù)設(shè)置
5.2.3 識別模型訓練結(jié)果
5.2.4 不同語料處理對識別結(jié)果的影響分析
5.3 基于BERT的《史記》介賓結(jié)構(gòu)識別
5.4 不同模型方法字單位識別效果分析
5.5 典籍介賓結(jié)構(gòu)自動識別平臺搭建
5.5.1 網(wǎng)站的布局設(shè)計
5.5.2 平臺使用示例
5.6 本章小結(jié)
第六章 總結(jié)和展望
6.1 總結(jié)
6.2 不足和展望
參考文獻
致謝
本文編號:3793619
本文鏈接:http://sikaile.net/tushudanganlunwen/3793619.html
最近更新
教材專著