古漢語分詞與詞性標(biāo)注方法研究
發(fā)布時間:2022-12-05 04:35
近年來,現(xiàn)代漢語的分詞與詞性標(biāo)注研究已經(jīng)取得了比較豐碩的成果,而古漢語方面的研究仍然存在不足。古漢語中的詞多以單音詞為主,模型判別出復(fù)音詞進(jìn)行切分和標(biāo)注是提高分詞與詞性標(biāo)注系統(tǒng)性能的重點(diǎn)。除此之外,古漢語的詞用法比較靈活,有很多兼類詞以及詞類活用,即多數(shù)序列在不同語境具有不同的切分或同一個詞在不同語境具有不同的詞性。目前古漢語的分詞與詞性標(biāo)注研究大多基于條件隨機(jī)場模型,雖然可以取得較好的分詞性能,但這種方法需要人工制定特征模板,并且受特征窗口的限制模型不能更好的學(xué)習(xí)長距離的上下文特征。隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,深度學(xué)習(xí)方法在處理序列數(shù)據(jù)任務(wù)中表現(xiàn)出強(qiáng)大的性能,它可以高效的抽取序列數(shù)據(jù)的特征,目前該特征工程的方法應(yīng)用于語音識別、文本生成等,均取得了良好的效果。嘗試采用深度學(xué)習(xí)的方法自動抽取古漢語長距離上下文信息,以解決原用于古漢語分詞和詞性標(biāo)注的方法需要人工制定經(jīng)驗(yàn)主義的特征模板的問題,這對古漢語分詞與詞性標(biāo)注的研究具有重要意義。針對上述問題,通過分析古漢語的詞類、活用現(xiàn)象以及兼類詞,制定符合古漢語特點(diǎn)的詞性標(biāo)記集,詞性標(biāo)記集是詞性標(biāo)注階段語料標(biāo)簽的標(biāo)準(zhǔn);诜植际郊僬f理論,在語義理解層面上實(shí)...
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
引言
第1章 緒論
1.1 背景及意義
1.2 研究現(xiàn)狀
1.2.1 分詞
1.2.2 詞性標(biāo)注
1.3 古漢語分詞與詞性標(biāo)注存在的不足
1.4 研究內(nèi)容
1.5 技術(shù)路線和實(shí)驗(yàn)方案
1.6 文章組織結(jié)構(gòu)
第2章 古漢語分析
2.1 術(shù)語及詞類概述
2.2 古漢語復(fù)音詞構(gòu)詞特點(diǎn)
2.2.1 構(gòu)成新義
2.2.2 并列復(fù)合
2.2.3 偏正復(fù)合
2.2.4 偏指復(fù)合
2.2.5 特指和泛指
2.2.6 單純復(fù)音詞
2.3 古漢語中的活用和兼詞
2.3.1 詞類活用
2.3.2 兼類詞
2.4 詞性及詞性標(biāo)記集
2.5 本章小結(jié)
第3章 深度學(xué)習(xí)與分布式表示
3.1 深度學(xué)習(xí)
3.2 循環(huán)神經(jīng)網(wǎng)絡(luò)
3.2.1 傳統(tǒng)RNN
3.2.2 雙向RNN
3.3 長短時記憶網(wǎng)絡(luò)
3.3.1 LSTM
3.3.2 BILSTM
3.4 超參數(shù)選擇
3.5 分布式表示
3.6 本章小結(jié)
第4章 古漢語分詞與詞性標(biāo)注通用模型構(gòu)建
4.1 模型總體結(jié)構(gòu)
4.1.1 嵌入層
4.1.2 神經(jīng)網(wǎng)絡(luò)層
4.1.3 標(biāo)簽判別層
4.2 模型訓(xùn)練步驟
4.3 通用性說明
4.4 模型應(yīng)用流程
4.5 本章小結(jié)
第5章 基于模型的分詞和詞性標(biāo)注
5.1 分詞
5.1.1 標(biāo)記方案
5.1.2 訓(xùn)練語料
5.1.3 字嵌入
5.1.4 神經(jīng)網(wǎng)絡(luò)層
5.1.5 超參數(shù)設(shè)置
5.2 詞性標(biāo)注
5.2.1 標(biāo)記方案
5.2.2 訓(xùn)練語料
5.2.3 詞嵌入
5.2.4 神經(jīng)網(wǎng)絡(luò)層
5.2.5 超參數(shù)設(shè)置
5.3 本章小結(jié)
第6章 實(shí)驗(yàn)結(jié)果分析
6.1 模型測評標(biāo)準(zhǔn)
6.2 Dropout選擇實(shí)驗(yàn)
6.3 古漢語分詞任務(wù)模型測評
6.4 古漢語詞性標(biāo)注模型測評
6.5 本章小結(jié)
結(jié)論
參考文獻(xiàn)
致謝
導(dǎo)師簡介
作者簡介
學(xué)位論文數(shù)據(jù)集
【參考文獻(xiàn)】:
期刊論文
[1]基于向量空間模型的知識點(diǎn)與試題自動關(guān)聯(lián)方法[J]. 董奧根,劉茂福,黃革新,舒琦赟. 計算機(jī)與現(xiàn)代化. 2015(10)
[2]基于詞向量特征的循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型[J]. 張劍,屈丹,李真. 模式識別與人工智能. 2015(04)
[3]基于HMM的楚辭自動分詞標(biāo)注研究[J]. 錢智勇,周建忠,童國平,蘇新寧. 圖書情報工作. 2014(04)
[4]上古漢語分詞及詞性標(biāo)注語料庫的構(gòu)建——以《淮南子》為范例[J]. 留金騰,宋彥,夏飛. 中文信息學(xué)報. 2013(06)
[5]語言技術(shù)平臺[J]. 劉挺,車萬翔,李正華. 中文信息學(xué)報. 2011(06)
[6]基于條件隨機(jī)場的無監(jiān)督中文詞性標(biāo)注[J]. 孫靜,李軍輝,周國棟. 計算機(jī)應(yīng)用與軟件. 2011(04)
[7]試論兼詞與合音詞[J]. 李春玲. 青海師范大學(xué)學(xué)報(哲學(xué)社會科學(xué)版). 2011(02)
[8]信息處理用藏文分詞單位研究[J]. 關(guān)白. 中文信息學(xué)報. 2010(03)
[9]從自動分詞角度看先秦與現(xiàn)代漢語詞匯區(qū)別[J]. 徐紫云,徐雪松. 華東交通大學(xué)學(xué)報. 2009(06)
[10]基于字位置概率特征的條件隨機(jī)場中文分詞方法[J]. 沈勤中,周國棟,朱巧明,孔芳,丁金濤. 蘇州大學(xué)學(xué)報(自然科學(xué)版). 2008(03)
博士論文
[1]藏語分詞與詞性標(biāo)注研究[D]. 康才畯.上海師范大學(xué) 2014
[2]朱熹訓(xùn)詁研究[D]. 賈璐.復(fù)旦大學(xué) 2011
碩士論文
[1]激活函數(shù)導(dǎo)向的RNN算法優(yōu)化[D]. 張堯.浙江大學(xué) 2017
[2]基于雙向LSTMN神經(jīng)網(wǎng)絡(luò)的中文分詞研究分析[D]. 黃積楊.南京大學(xué) 2016
[3]《說文解字》的義訓(xùn)研究[D]. 張請.云南大學(xué) 2014
[4]以《漢書》為例的中古漢語自動分詞[D]. 王嘉靈.南京師范大學(xué) 2014
[5]元代漢語詞匯史新詞研究[D]. 魏巍.山東大學(xué) 2010
[6]基于條件隨機(jī)場的自動分詞技術(shù)的研究[D]. 陳晴.東北大學(xué) 2005
本文編號:3709691
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
引言
第1章 緒論
1.1 背景及意義
1.2 研究現(xiàn)狀
1.2.1 分詞
1.2.2 詞性標(biāo)注
1.3 古漢語分詞與詞性標(biāo)注存在的不足
1.4 研究內(nèi)容
1.5 技術(shù)路線和實(shí)驗(yàn)方案
1.6 文章組織結(jié)構(gòu)
第2章 古漢語分析
2.1 術(shù)語及詞類概述
2.2 古漢語復(fù)音詞構(gòu)詞特點(diǎn)
2.2.1 構(gòu)成新義
2.2.2 并列復(fù)合
2.2.3 偏正復(fù)合
2.2.4 偏指復(fù)合
2.2.5 特指和泛指
2.2.6 單純復(fù)音詞
2.3 古漢語中的活用和兼詞
2.3.1 詞類活用
2.3.2 兼類詞
2.4 詞性及詞性標(biāo)記集
2.5 本章小結(jié)
第3章 深度學(xué)習(xí)與分布式表示
3.1 深度學(xué)習(xí)
3.2 循環(huán)神經(jīng)網(wǎng)絡(luò)
3.2.1 傳統(tǒng)RNN
3.2.2 雙向RNN
3.3 長短時記憶網(wǎng)絡(luò)
3.3.1 LSTM
3.3.2 BILSTM
3.4 超參數(shù)選擇
3.5 分布式表示
3.6 本章小結(jié)
第4章 古漢語分詞與詞性標(biāo)注通用模型構(gòu)建
4.1 模型總體結(jié)構(gòu)
4.1.1 嵌入層
4.1.2 神經(jīng)網(wǎng)絡(luò)層
4.1.3 標(biāo)簽判別層
4.2 模型訓(xùn)練步驟
4.3 通用性說明
4.4 模型應(yīng)用流程
4.5 本章小結(jié)
第5章 基于模型的分詞和詞性標(biāo)注
5.1 分詞
5.1.1 標(biāo)記方案
5.1.2 訓(xùn)練語料
5.1.3 字嵌入
5.1.4 神經(jīng)網(wǎng)絡(luò)層
5.1.5 超參數(shù)設(shè)置
5.2 詞性標(biāo)注
5.2.1 標(biāo)記方案
5.2.2 訓(xùn)練語料
5.2.3 詞嵌入
5.2.4 神經(jīng)網(wǎng)絡(luò)層
5.2.5 超參數(shù)設(shè)置
5.3 本章小結(jié)
第6章 實(shí)驗(yàn)結(jié)果分析
6.1 模型測評標(biāo)準(zhǔn)
6.2 Dropout選擇實(shí)驗(yàn)
6.3 古漢語分詞任務(wù)模型測評
6.4 古漢語詞性標(biāo)注模型測評
6.5 本章小結(jié)
結(jié)論
參考文獻(xiàn)
致謝
導(dǎo)師簡介
作者簡介
學(xué)位論文數(shù)據(jù)集
【參考文獻(xiàn)】:
期刊論文
[1]基于向量空間模型的知識點(diǎn)與試題自動關(guān)聯(lián)方法[J]. 董奧根,劉茂福,黃革新,舒琦赟. 計算機(jī)與現(xiàn)代化. 2015(10)
[2]基于詞向量特征的循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型[J]. 張劍,屈丹,李真. 模式識別與人工智能. 2015(04)
[3]基于HMM的楚辭自動分詞標(biāo)注研究[J]. 錢智勇,周建忠,童國平,蘇新寧. 圖書情報工作. 2014(04)
[4]上古漢語分詞及詞性標(biāo)注語料庫的構(gòu)建——以《淮南子》為范例[J]. 留金騰,宋彥,夏飛. 中文信息學(xué)報. 2013(06)
[5]語言技術(shù)平臺[J]. 劉挺,車萬翔,李正華. 中文信息學(xué)報. 2011(06)
[6]基于條件隨機(jī)場的無監(jiān)督中文詞性標(biāo)注[J]. 孫靜,李軍輝,周國棟. 計算機(jī)應(yīng)用與軟件. 2011(04)
[7]試論兼詞與合音詞[J]. 李春玲. 青海師范大學(xué)學(xué)報(哲學(xué)社會科學(xué)版). 2011(02)
[8]信息處理用藏文分詞單位研究[J]. 關(guān)白. 中文信息學(xué)報. 2010(03)
[9]從自動分詞角度看先秦與現(xiàn)代漢語詞匯區(qū)別[J]. 徐紫云,徐雪松. 華東交通大學(xué)學(xué)報. 2009(06)
[10]基于字位置概率特征的條件隨機(jī)場中文分詞方法[J]. 沈勤中,周國棟,朱巧明,孔芳,丁金濤. 蘇州大學(xué)學(xué)報(自然科學(xué)版). 2008(03)
博士論文
[1]藏語分詞與詞性標(biāo)注研究[D]. 康才畯.上海師范大學(xué) 2014
[2]朱熹訓(xùn)詁研究[D]. 賈璐.復(fù)旦大學(xué) 2011
碩士論文
[1]激活函數(shù)導(dǎo)向的RNN算法優(yōu)化[D]. 張堯.浙江大學(xué) 2017
[2]基于雙向LSTMN神經(jīng)網(wǎng)絡(luò)的中文分詞研究分析[D]. 黃積楊.南京大學(xué) 2016
[3]《說文解字》的義訓(xùn)研究[D]. 張請.云南大學(xué) 2014
[4]以《漢書》為例的中古漢語自動分詞[D]. 王嘉靈.南京師范大學(xué) 2014
[5]元代漢語詞匯史新詞研究[D]. 魏巍.山東大學(xué) 2010
[6]基于條件隨機(jī)場的自動分詞技術(shù)的研究[D]. 陳晴.東北大學(xué) 2005
本文編號:3709691
本文鏈接:http://sikaile.net/wenyilunwen/hanyulw/3709691.html
最近更新
教材專著