古漢語(yǔ)分詞與詞性標(biāo)注方法研究
發(fā)布時(shí)間:2022-12-05 04:35
近年來,現(xiàn)代漢語(yǔ)的分詞與詞性標(biāo)注研究已經(jīng)取得了比較豐碩的成果,而古漢語(yǔ)方面的研究仍然存在不足。古漢語(yǔ)中的詞多以單音詞為主,模型判別出復(fù)音詞進(jìn)行切分和標(biāo)注是提高分詞與詞性標(biāo)注系統(tǒng)性能的重點(diǎn)。除此之外,古漢語(yǔ)的詞用法比較靈活,有很多兼類詞以及詞類活用,即多數(shù)序列在不同語(yǔ)境具有不同的切分或同一個(gè)詞在不同語(yǔ)境具有不同的詞性。目前古漢語(yǔ)的分詞與詞性標(biāo)注研究大多基于條件隨機(jī)場(chǎng)模型,雖然可以取得較好的分詞性能,但這種方法需要人工制定特征模板,并且受特征窗口的限制模型不能更好的學(xué)習(xí)長(zhǎng)距離的上下文特征。隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,深度學(xué)習(xí)方法在處理序列數(shù)據(jù)任務(wù)中表現(xiàn)出強(qiáng)大的性能,它可以高效的抽取序列數(shù)據(jù)的特征,目前該特征工程的方法應(yīng)用于語(yǔ)音識(shí)別、文本生成等,均取得了良好的效果。嘗試采用深度學(xué)習(xí)的方法自動(dòng)抽取古漢語(yǔ)長(zhǎng)距離上下文信息,以解決原用于古漢語(yǔ)分詞和詞性標(biāo)注的方法需要人工制定經(jīng)驗(yàn)主義的特征模板的問題,這對(duì)古漢語(yǔ)分詞與詞性標(biāo)注的研究具有重要意義。針對(duì)上述問題,通過分析古漢語(yǔ)的詞類、活用現(xiàn)象以及兼類詞,制定符合古漢語(yǔ)特點(diǎn)的詞性標(biāo)記集,詞性標(biāo)記集是詞性標(biāo)注階段語(yǔ)料標(biāo)簽的標(biāo)準(zhǔn)。基于分布式假說理論,在語(yǔ)義理解層面上實(shí)...
【文章頁(yè)數(shù)】:68 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
引言
第1章 緒論
1.1 背景及意義
1.2 研究現(xiàn)狀
1.2.1 分詞
1.2.2 詞性標(biāo)注
1.3 古漢語(yǔ)分詞與詞性標(biāo)注存在的不足
1.4 研究?jī)?nèi)容
1.5 技術(shù)路線和實(shí)驗(yàn)方案
1.6 文章組織結(jié)構(gòu)
第2章 古漢語(yǔ)分析
2.1 術(shù)語(yǔ)及詞類概述
2.2 古漢語(yǔ)復(fù)音詞構(gòu)詞特點(diǎn)
2.2.1 構(gòu)成新義
2.2.2 并列復(fù)合
2.2.3 偏正復(fù)合
2.2.4 偏指復(fù)合
2.2.5 特指和泛指
2.2.6 單純復(fù)音詞
2.3 古漢語(yǔ)中的活用和兼詞
2.3.1 詞類活用
2.3.2 兼類詞
2.4 詞性及詞性標(biāo)記集
2.5 本章小結(jié)
第3章 深度學(xué)習(xí)與分布式表示
3.1 深度學(xué)習(xí)
3.2 循環(huán)神經(jīng)網(wǎng)絡(luò)
3.2.1 傳統(tǒng)RNN
3.2.2 雙向RNN
3.3 長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)
3.3.1 LSTM
3.3.2 BILSTM
3.4 超參數(shù)選擇
3.5 分布式表示
3.6 本章小結(jié)
第4章 古漢語(yǔ)分詞與詞性標(biāo)注通用模型構(gòu)建
4.1 模型總體結(jié)構(gòu)
4.1.1 嵌入層
4.1.2 神經(jīng)網(wǎng)絡(luò)層
4.1.3 標(biāo)簽判別層
4.2 模型訓(xùn)練步驟
4.3 通用性說明
4.4 模型應(yīng)用流程
4.5 本章小結(jié)
第5章 基于模型的分詞和詞性標(biāo)注
5.1 分詞
5.1.1 標(biāo)記方案
5.1.2 訓(xùn)練語(yǔ)料
5.1.3 字嵌入
5.1.4 神經(jīng)網(wǎng)絡(luò)層
5.1.5 超參數(shù)設(shè)置
5.2 詞性標(biāo)注
5.2.1 標(biāo)記方案
5.2.2 訓(xùn)練語(yǔ)料
5.2.3 詞嵌入
5.2.4 神經(jīng)網(wǎng)絡(luò)層
5.2.5 超參數(shù)設(shè)置
5.3 本章小結(jié)
第6章 實(shí)驗(yàn)結(jié)果分析
6.1 模型測(cè)評(píng)標(biāo)準(zhǔn)
6.2 Dropout選擇實(shí)驗(yàn)
6.3 古漢語(yǔ)分詞任務(wù)模型測(cè)評(píng)
6.4 古漢語(yǔ)詞性標(biāo)注模型測(cè)評(píng)
6.5 本章小結(jié)
結(jié)論
參考文獻(xiàn)
致謝
導(dǎo)師簡(jiǎn)介
作者簡(jiǎn)介
學(xué)位論文數(shù)據(jù)集
【參考文獻(xiàn)】:
期刊論文
[1]基于向量空間模型的知識(shí)點(diǎn)與試題自動(dòng)關(guān)聯(lián)方法[J]. 董奧根,劉茂福,黃革新,舒琦赟. 計(jì)算機(jī)與現(xiàn)代化. 2015(10)
[2]基于詞向量特征的循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型[J]. 張劍,屈丹,李真. 模式識(shí)別與人工智能. 2015(04)
[3]基于HMM的楚辭自動(dòng)分詞標(biāo)注研究[J]. 錢智勇,周建忠,童國(guó)平,蘇新寧. 圖書情報(bào)工作. 2014(04)
[4]上古漢語(yǔ)分詞及詞性標(biāo)注語(yǔ)料庫(kù)的構(gòu)建——以《淮南子》為范例[J]. 留金騰,宋彥,夏飛. 中文信息學(xué)報(bào). 2013(06)
[5]語(yǔ)言技術(shù)平臺(tái)[J]. 劉挺,車萬翔,李正華. 中文信息學(xué)報(bào). 2011(06)
[6]基于條件隨機(jī)場(chǎng)的無監(jiān)督中文詞性標(biāo)注[J]. 孫靜,李軍輝,周國(guó)棟. 計(jì)算機(jī)應(yīng)用與軟件. 2011(04)
[7]試論兼詞與合音詞[J]. 李春玲. 青海師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版). 2011(02)
[8]信息處理用藏文分詞單位研究[J]. 關(guān)白. 中文信息學(xué)報(bào). 2010(03)
[9]從自動(dòng)分詞角度看先秦與現(xiàn)代漢語(yǔ)詞匯區(qū)別[J]. 徐紫云,徐雪松. 華東交通大學(xué)學(xué)報(bào). 2009(06)
[10]基于字位置概率特征的條件隨機(jī)場(chǎng)中文分詞方法[J]. 沈勤中,周國(guó)棟,朱巧明,孔芳,丁金濤. 蘇州大學(xué)學(xué)報(bào)(自然科學(xué)版). 2008(03)
博士論文
[1]藏語(yǔ)分詞與詞性標(biāo)注研究[D]. 康才畯.上海師范大學(xué) 2014
[2]朱熹訓(xùn)詁研究[D]. 賈璐.復(fù)旦大學(xué) 2011
碩士論文
[1]激活函數(shù)導(dǎo)向的RNN算法優(yōu)化[D]. 張堯.浙江大學(xué) 2017
[2]基于雙向LSTMN神經(jīng)網(wǎng)絡(luò)的中文分詞研究分析[D]. 黃積楊.南京大學(xué) 2016
[3]《說文解字》的義訓(xùn)研究[D]. 張請(qǐng).云南大學(xué) 2014
[4]以《漢書》為例的中古漢語(yǔ)自動(dòng)分詞[D]. 王嘉靈.南京師范大學(xué) 2014
[5]元代漢語(yǔ)詞匯史新詞研究[D]. 魏巍.山東大學(xué) 2010
[6]基于條件隨機(jī)場(chǎng)的自動(dòng)分詞技術(shù)的研究[D]. 陳晴.東北大學(xué) 2005
本文編號(hào):3709691
【文章頁(yè)數(shù)】:68 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
引言
第1章 緒論
1.1 背景及意義
1.2 研究現(xiàn)狀
1.2.1 分詞
1.2.2 詞性標(biāo)注
1.3 古漢語(yǔ)分詞與詞性標(biāo)注存在的不足
1.4 研究?jī)?nèi)容
1.5 技術(shù)路線和實(shí)驗(yàn)方案
1.6 文章組織結(jié)構(gòu)
第2章 古漢語(yǔ)分析
2.1 術(shù)語(yǔ)及詞類概述
2.2 古漢語(yǔ)復(fù)音詞構(gòu)詞特點(diǎn)
2.2.1 構(gòu)成新義
2.2.2 并列復(fù)合
2.2.3 偏正復(fù)合
2.2.4 偏指復(fù)合
2.2.5 特指和泛指
2.2.6 單純復(fù)音詞
2.3 古漢語(yǔ)中的活用和兼詞
2.3.1 詞類活用
2.3.2 兼類詞
2.4 詞性及詞性標(biāo)記集
2.5 本章小結(jié)
第3章 深度學(xué)習(xí)與分布式表示
3.1 深度學(xué)習(xí)
3.2 循環(huán)神經(jīng)網(wǎng)絡(luò)
3.2.1 傳統(tǒng)RNN
3.2.2 雙向RNN
3.3 長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)
3.3.1 LSTM
3.3.2 BILSTM
3.4 超參數(shù)選擇
3.5 分布式表示
3.6 本章小結(jié)
第4章 古漢語(yǔ)分詞與詞性標(biāo)注通用模型構(gòu)建
4.1 模型總體結(jié)構(gòu)
4.1.1 嵌入層
4.1.2 神經(jīng)網(wǎng)絡(luò)層
4.1.3 標(biāo)簽判別層
4.2 模型訓(xùn)練步驟
4.3 通用性說明
4.4 模型應(yīng)用流程
4.5 本章小結(jié)
第5章 基于模型的分詞和詞性標(biāo)注
5.1 分詞
5.1.1 標(biāo)記方案
5.1.2 訓(xùn)練語(yǔ)料
5.1.3 字嵌入
5.1.4 神經(jīng)網(wǎng)絡(luò)層
5.1.5 超參數(shù)設(shè)置
5.2 詞性標(biāo)注
5.2.1 標(biāo)記方案
5.2.2 訓(xùn)練語(yǔ)料
5.2.3 詞嵌入
5.2.4 神經(jīng)網(wǎng)絡(luò)層
5.2.5 超參數(shù)設(shè)置
5.3 本章小結(jié)
第6章 實(shí)驗(yàn)結(jié)果分析
6.1 模型測(cè)評(píng)標(biāo)準(zhǔn)
6.2 Dropout選擇實(shí)驗(yàn)
6.3 古漢語(yǔ)分詞任務(wù)模型測(cè)評(píng)
6.4 古漢語(yǔ)詞性標(biāo)注模型測(cè)評(píng)
6.5 本章小結(jié)
結(jié)論
參考文獻(xiàn)
致謝
導(dǎo)師簡(jiǎn)介
作者簡(jiǎn)介
學(xué)位論文數(shù)據(jù)集
【參考文獻(xiàn)】:
期刊論文
[1]基于向量空間模型的知識(shí)點(diǎn)與試題自動(dòng)關(guān)聯(lián)方法[J]. 董奧根,劉茂福,黃革新,舒琦赟. 計(jì)算機(jī)與現(xiàn)代化. 2015(10)
[2]基于詞向量特征的循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型[J]. 張劍,屈丹,李真. 模式識(shí)別與人工智能. 2015(04)
[3]基于HMM的楚辭自動(dòng)分詞標(biāo)注研究[J]. 錢智勇,周建忠,童國(guó)平,蘇新寧. 圖書情報(bào)工作. 2014(04)
[4]上古漢語(yǔ)分詞及詞性標(biāo)注語(yǔ)料庫(kù)的構(gòu)建——以《淮南子》為范例[J]. 留金騰,宋彥,夏飛. 中文信息學(xué)報(bào). 2013(06)
[5]語(yǔ)言技術(shù)平臺(tái)[J]. 劉挺,車萬翔,李正華. 中文信息學(xué)報(bào). 2011(06)
[6]基于條件隨機(jī)場(chǎng)的無監(jiān)督中文詞性標(biāo)注[J]. 孫靜,李軍輝,周國(guó)棟. 計(jì)算機(jī)應(yīng)用與軟件. 2011(04)
[7]試論兼詞與合音詞[J]. 李春玲. 青海師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版). 2011(02)
[8]信息處理用藏文分詞單位研究[J]. 關(guān)白. 中文信息學(xué)報(bào). 2010(03)
[9]從自動(dòng)分詞角度看先秦與現(xiàn)代漢語(yǔ)詞匯區(qū)別[J]. 徐紫云,徐雪松. 華東交通大學(xué)學(xué)報(bào). 2009(06)
[10]基于字位置概率特征的條件隨機(jī)場(chǎng)中文分詞方法[J]. 沈勤中,周國(guó)棟,朱巧明,孔芳,丁金濤. 蘇州大學(xué)學(xué)報(bào)(自然科學(xué)版). 2008(03)
博士論文
[1]藏語(yǔ)分詞與詞性標(biāo)注研究[D]. 康才畯.上海師范大學(xué) 2014
[2]朱熹訓(xùn)詁研究[D]. 賈璐.復(fù)旦大學(xué) 2011
碩士論文
[1]激活函數(shù)導(dǎo)向的RNN算法優(yōu)化[D]. 張堯.浙江大學(xué) 2017
[2]基于雙向LSTMN神經(jīng)網(wǎng)絡(luò)的中文分詞研究分析[D]. 黃積楊.南京大學(xué) 2016
[3]《說文解字》的義訓(xùn)研究[D]. 張請(qǐng).云南大學(xué) 2014
[4]以《漢書》為例的中古漢語(yǔ)自動(dòng)分詞[D]. 王嘉靈.南京師范大學(xué) 2014
[5]元代漢語(yǔ)詞匯史新詞研究[D]. 魏巍.山東大學(xué) 2010
[6]基于條件隨機(jī)場(chǎng)的自動(dòng)分詞技術(shù)的研究[D]. 陳晴.東北大學(xué) 2005
本文編號(hào):3709691
本文鏈接:http://sikaile.net/wenyilunwen/hanyulw/3709691.html
最近更新
教材專著