基于Bi-LSTM的漢語自動語義角色標(biāo)注研究
發(fā)布時間:2022-08-12 12:45
隨著計算機技術(shù)的迅速發(fā)展以及大數(shù)據(jù)時代數(shù)據(jù)量的爆炸式增長,人們尋求對信息進行準(zhǔn)確、快速且全面的獲取與處理變的越來越困難,尤其是文本形式的信息。目前漢語自動語義角色標(biāo)注方法已經(jīng)有了很多的研究成果,但是仍有很多具有挑戰(zhàn)性的問題亟待解決。通過深入探討現(xiàn)有的語義角色標(biāo)注模型,本文主要從數(shù)據(jù)預(yù)處理、特征向量和序列標(biāo)注算法三個方面進行了研究。本文所做的主要工作如下:1.對稀疏謂語和常見謂語存在訓(xùn)練樣本不均衡的問題進行深入研究,提出語義密度聚類概念。為了提升模型輸入向量的多特征表示能力,提出“模糊”機制,利用詞向量距離的概念對非謂語詞向量進行“模糊化”操作,改變了原始詞向量的語義表達(dá)特性。以漢語命題語料庫作為實驗材料,在基于Bi-LSTM-CRF框架的漢語自動語義角色標(biāo)注模型上進行多維度、多角度的對比實驗,結(jié)果表明該方法能取得較好的語義角色標(biāo)注性能。2.針對輔助特征對于語義角色標(biāo)注的結(jié)果具有較大影響的事實,構(gòu)造并訓(xùn)練了一個Bi-LSTM網(wǎng)絡(luò)層來用于獲取詞性特征的表達(dá),訓(xùn)練得到的詞性特征表達(dá)作為模型輸入向量的一部分組成向量;結(jié)合詞向量與領(lǐng)域詞典,引入六個有效統(tǒng)計特征,利用CRF模型實現(xiàn)領(lǐng)域術(shù)語識別,對...
【文章頁數(shù)】:61 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 課題的研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 循環(huán)神經(jīng)網(wǎng)絡(luò)及改進模型
1.2.2 漢語語義角色標(biāo)注研究現(xiàn)狀
1.3 漢語語義角色標(biāo)注的研究難點
1.4 論文的主要貢獻與組織結(jié)構(gòu)安排
第2章 相關(guān)技術(shù)和理論知識
2.1 LSTM和 Bi-LSTM網(wǎng)絡(luò)
2.2 序列標(biāo)注算法
2.2.1 條件隨機場
2.2.2 結(jié)構(gòu)化支持向量機
2.2.3 最大間隔馬爾可夫網(wǎng)
2.3 詞向量模型
2.3.1 CBOW模型
2.3.2 Glove模型
2.4 實驗語料及語義角色標(biāo)注理論
2.4.1 主要實驗語料及標(biāo)注集
2.4.2 語義角色標(biāo)注方法
2.4.3 評價方法
2.5 本章小結(jié)
第3章 基于“模糊”機制和語義密度聚類的漢語自動語義角色標(biāo)注
3.1 引言
3.2 語義密度聚類
3.3 詞向量“模糊”機制
3.4 基于“模糊”機制和語義密度聚類的漢語語義角色標(biāo)注模型
3.4.1 整體模型設(shè)計
3.4.2 模型網(wǎng)絡(luò)層的構(gòu)建和訓(xùn)練
3.5 實驗結(jié)果與算法性能分析
3.5.1 實驗數(shù)據(jù)
3.5.2 模型參數(shù)實驗對比
3.5.3 不同詞向量實驗對比
3.5.4 不同標(biāo)注體系及優(yōu)化器實驗對比
3.5.5 語義密度聚類與模糊機制實驗對比
3.5.6 與其他模型實驗對比
3.6 本章小結(jié)
第4章 融合領(lǐng)域信息和詞性信息的漢語自動語義角色標(biāo)注研究
4.1 引言
4.2 領(lǐng)域術(shù)語識別
4.3 詞性特征向量模型的構(gòu)建與訓(xùn)練
4.4 融合領(lǐng)域信息和詞性信息的漢語語義角色標(biāo)注
4.4.1 輸入向量的構(gòu)建
4.4.2 語義角色標(biāo)注模型的構(gòu)建及訓(xùn)練
4.5 實驗結(jié)果與性能分析
4.5.1 實驗語料
4.5.2 詞性向量訓(xùn)練模型
4.5.3 領(lǐng)域術(shù)語識別結(jié)果
4.5.4特征有效性實驗
4.5.5 與其他模型的比較
4.6 本章小結(jié)
第5章 一種融合多類別分類器的序列標(biāo)注算法
5.1 引言
5.2 序列標(biāo)注模型
5.3 實驗結(jié)果與分析
5.3.1 實驗語料
5.3.2 中文分詞性能評估
5.3.3 詞性標(biāo)注性能評估
5.3.4 自動語義標(biāo)注性能評估
5.4 本章小結(jié)
總結(jié)和展望
參考文獻
致謝
附錄 A 攻讀碩士學(xué)位期間所發(fā)表的學(xué)術(shù)論文
【參考文獻】:
期刊論文
[1]基于圖模型的中文多謂詞語義角色標(biāo)注方法[J]. 楊海彤. 計算機工程. 2019(01)
[2]基于BI_LSTM_CRF神經(jīng)網(wǎng)絡(luò)的序列標(biāo)注中文分詞方法[J]. 姚茂建,李晗靜,呂會華,姚登峰. 現(xiàn)代電子技術(shù). 2019(01)
[3]基于CNN和B-LSTM的文本處理模型研究[J]. 陳欣,于俊洋,趙媛媛. 輕工學(xué)報. 2018(05)
[4]《同義詞詞林》的嵌入表示與應(yīng)用評估[J]. 段宇光,劉揚,俞士汶. 廈門大學(xué)學(xué)報(自然科學(xué)版). 2018(06)
[5]結(jié)合短語結(jié)構(gòu)句法的語義角色標(biāo)注[J]. 楊鳳玲,周俏麗,蔡東風(fēng),季鐸. 中文信息學(xué)報. 2018(06)
[6]基于Gate機制與Bi-LSTM-CRF的漢語語義角色標(biāo)注[J]. 張苗苗,張玉潔,劉明童,徐金安,陳鈺楓. 計算機與現(xiàn)代化. 2018(04)
[7]基于句式與句模對應(yīng)規(guī)則的語義角色標(biāo)注[J]. 何保榮,邱立坤,孫盼盼. 中文信息學(xué)報. 2018(04)
[8]利用配價信息的語義角色標(biāo)注[J]. 袁里馳. 電子學(xué)報. 2017(10)
[9]基于雙線性函數(shù)注意力Bi-LSTM模型的機器閱讀理解[J]. 劉飛龍,郝文寧,陳剛,靳大尉,宋佳星. 計算機科學(xué). 2017(S1)
[10]基于神經(jīng)網(wǎng)絡(luò)的文本表示模型新方法[J]. 曾誰飛,張笑燕,杜曉峰,陸天波. 通信學(xué)報. 2017(04)
碩士論文
[1]基于字符級卷積神經(jīng)網(wǎng)絡(luò)的中文文本分類研究[D]. 劉坤.沈陽工業(yè)大學(xué) 2018
本文編號:3675904
【文章頁數(shù)】:61 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 課題的研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 循環(huán)神經(jīng)網(wǎng)絡(luò)及改進模型
1.2.2 漢語語義角色標(biāo)注研究現(xiàn)狀
1.3 漢語語義角色標(biāo)注的研究難點
1.4 論文的主要貢獻與組織結(jié)構(gòu)安排
第2章 相關(guān)技術(shù)和理論知識
2.1 LSTM和 Bi-LSTM網(wǎng)絡(luò)
2.2 序列標(biāo)注算法
2.2.1 條件隨機場
2.2.2 結(jié)構(gòu)化支持向量機
2.2.3 最大間隔馬爾可夫網(wǎng)
2.3 詞向量模型
2.3.1 CBOW模型
2.3.2 Glove模型
2.4 實驗語料及語義角色標(biāo)注理論
2.4.1 主要實驗語料及標(biāo)注集
2.4.2 語義角色標(biāo)注方法
2.4.3 評價方法
2.5 本章小結(jié)
第3章 基于“模糊”機制和語義密度聚類的漢語自動語義角色標(biāo)注
3.1 引言
3.2 語義密度聚類
3.3 詞向量“模糊”機制
3.4 基于“模糊”機制和語義密度聚類的漢語語義角色標(biāo)注模型
3.4.1 整體模型設(shè)計
3.4.2 模型網(wǎng)絡(luò)層的構(gòu)建和訓(xùn)練
3.5 實驗結(jié)果與算法性能分析
3.5.1 實驗數(shù)據(jù)
3.5.2 模型參數(shù)實驗對比
3.5.3 不同詞向量實驗對比
3.5.4 不同標(biāo)注體系及優(yōu)化器實驗對比
3.5.5 語義密度聚類與模糊機制實驗對比
3.5.6 與其他模型實驗對比
3.6 本章小結(jié)
第4章 融合領(lǐng)域信息和詞性信息的漢語自動語義角色標(biāo)注研究
4.1 引言
4.2 領(lǐng)域術(shù)語識別
4.3 詞性特征向量模型的構(gòu)建與訓(xùn)練
4.4 融合領(lǐng)域信息和詞性信息的漢語語義角色標(biāo)注
4.4.1 輸入向量的構(gòu)建
4.4.2 語義角色標(biāo)注模型的構(gòu)建及訓(xùn)練
4.5 實驗結(jié)果與性能分析
4.5.1 實驗語料
4.5.2 詞性向量訓(xùn)練模型
4.5.3 領(lǐng)域術(shù)語識別結(jié)果
4.5.4特征有效性實驗
4.5.5 與其他模型的比較
4.6 本章小結(jié)
第5章 一種融合多類別分類器的序列標(biāo)注算法
5.1 引言
5.2 序列標(biāo)注模型
5.3 實驗結(jié)果與分析
5.3.1 實驗語料
5.3.2 中文分詞性能評估
5.3.3 詞性標(biāo)注性能評估
5.3.4 自動語義標(biāo)注性能評估
5.4 本章小結(jié)
總結(jié)和展望
參考文獻
致謝
附錄 A 攻讀碩士學(xué)位期間所發(fā)表的學(xué)術(shù)論文
【參考文獻】:
期刊論文
[1]基于圖模型的中文多謂詞語義角色標(biāo)注方法[J]. 楊海彤. 計算機工程. 2019(01)
[2]基于BI_LSTM_CRF神經(jīng)網(wǎng)絡(luò)的序列標(biāo)注中文分詞方法[J]. 姚茂建,李晗靜,呂會華,姚登峰. 現(xiàn)代電子技術(shù). 2019(01)
[3]基于CNN和B-LSTM的文本處理模型研究[J]. 陳欣,于俊洋,趙媛媛. 輕工學(xué)報. 2018(05)
[4]《同義詞詞林》的嵌入表示與應(yīng)用評估[J]. 段宇光,劉揚,俞士汶. 廈門大學(xué)學(xué)報(自然科學(xué)版). 2018(06)
[5]結(jié)合短語結(jié)構(gòu)句法的語義角色標(biāo)注[J]. 楊鳳玲,周俏麗,蔡東風(fēng),季鐸. 中文信息學(xué)報. 2018(06)
[6]基于Gate機制與Bi-LSTM-CRF的漢語語義角色標(biāo)注[J]. 張苗苗,張玉潔,劉明童,徐金安,陳鈺楓. 計算機與現(xiàn)代化. 2018(04)
[7]基于句式與句模對應(yīng)規(guī)則的語義角色標(biāo)注[J]. 何保榮,邱立坤,孫盼盼. 中文信息學(xué)報. 2018(04)
[8]利用配價信息的語義角色標(biāo)注[J]. 袁里馳. 電子學(xué)報. 2017(10)
[9]基于雙線性函數(shù)注意力Bi-LSTM模型的機器閱讀理解[J]. 劉飛龍,郝文寧,陳剛,靳大尉,宋佳星. 計算機科學(xué). 2017(S1)
[10]基于神經(jīng)網(wǎng)絡(luò)的文本表示模型新方法[J]. 曾誰飛,張笑燕,杜曉峰,陸天波. 通信學(xué)報. 2017(04)
碩士論文
[1]基于字符級卷積神經(jīng)網(wǎng)絡(luò)的中文文本分類研究[D]. 劉坤.沈陽工業(yè)大學(xué) 2018
本文編號:3675904
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3675904.html
最近更新
教材專著