天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于序列標(biāo)注的中文語義組塊分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2021-08-07 05:07
  中文語義分析是使計(jì)算機(jī)理解漢語句子并實(shí)現(xiàn)人機(jī)中文對(duì)話的非常重要的一步,它能將中文句子轉(zhuǎn)化為機(jī)器可以理解的一種表達(dá)方式。依據(jù)中文語法特點(diǎn)設(shè)計(jì)中文語義組塊序列標(biāo)注方式,并使用深度學(xué)習(xí)方法設(shè)計(jì)與實(shí)現(xiàn)中文語義組塊分析系統(tǒng),完成對(duì)中文句子語義成分的劃分。為了得到準(zhǔn)確率較高的中文語義組塊分析器,將輸入數(shù)據(jù)進(jìn)行了清洗,過濾其中的非句子成分,并利用標(biāo)點(diǎn)符號(hào)切分出單句;訓(xùn)練了中文分詞和詞性標(biāo)注模型,使用訓(xùn)練好的模型對(duì)清洗后的數(shù)據(jù)進(jìn)行分詞和詞性的預(yù)測(cè);使用word2vec的方式預(yù)訓(xùn)練出中文詞向量與隨機(jī)初始化的詞性向量進(jìn)行拼接作為神經(jīng)網(wǎng)絡(luò)模型的輸入;設(shè)計(jì)并實(shí)現(xiàn)了多個(gè)中文語義組塊識(shí)別模型,首先根據(jù)CRF算法進(jìn)行了實(shí)現(xiàn),設(shè)計(jì)了用來提取分詞和詞性特征的特征模板,并根據(jù)句中出現(xiàn)的短語增加短語內(nèi)詞的特征,結(jié)合詞特征和狀態(tài)轉(zhuǎn)移矩陣對(duì)中文語義組塊進(jìn)行識(shí)別;然后實(shí)現(xiàn)了使用BiLSTM嵌入CRF中狀態(tài)轉(zhuǎn)移矩陣的模型,接著在該模型基礎(chǔ)上設(shè)計(jì)增加了網(wǎng)絡(luò)層數(shù),實(shí)現(xiàn)了雙層BiLSTM+CRF模型,最后在雙層BiLSTM+CRF模型基礎(chǔ)上引入Attention機(jī)制,實(shí)現(xiàn)了新的雙層BiLSTM+Attention+CRF模型。通過對(duì)實(shí)現(xiàn)... 

【文章來源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:71 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于序列標(biāo)注的中文語義組塊分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)


語義組塊數(shù)據(jù)示例圖

示意圖,平臺(tái),數(shù)據(jù),組塊


按照設(shè)計(jì)的語義組塊規(guī)則對(duì)分詞結(jié)果進(jìn)開頭第一個(gè)詞標(biāo)記為 B(Begin),剩下的詞統(tǒng)一標(biāo)注加上該主謂賓等組塊類別,最終得到人工標(biāo)注數(shù)據(jù)。2.6 所示。其中第一列為句子分詞結(jié)果,第二列為詞性語義組塊類別。圖 2.6 語義組塊數(shù)據(jù)示例圖件對(duì)該類數(shù)據(jù)進(jìn)行標(biāo)注時(shí)操作復(fù)雜且容易出錯(cuò),所以自主開發(fā)的一套數(shù)據(jù)標(biāo)注平臺(tái)對(duì)序列標(biāo)注數(shù)據(jù)進(jìn)行標(biāo)

網(wǎng)頁(yè),詳細(xì)設(shè)計(jì),中文,組塊分析


在預(yù)處理模塊詳細(xì)設(shè)計(jì)中,我們將對(duì)數(shù)據(jù)獲取及清洗實(shí)現(xiàn)、中文句子分詞實(shí)現(xiàn)性標(biāo)注實(shí)現(xiàn)分別進(jìn)行說明。.1.1 數(shù)據(jù)獲取及清洗詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)通過第二章中對(duì)數(shù)據(jù)清洗流程的介紹,可以知道訓(xùn)練時(shí)該部分需要對(duì)從網(wǎng)絡(luò)中數(shù)據(jù)并進(jìn)行處理得到不含特殊字符的單句。該部分對(duì)于中文語義組塊分析系統(tǒng)來關(guān)重要,其結(jié)果將直接影響后續(xù)每個(gè)操作的效果。從網(wǎng)絡(luò)中獲取數(shù)據(jù)時(shí),使用了 python 算法庫(kù)中的 BeautifulSoup 和 requests。使equests.get(url)方法對(duì)網(wǎng)頁(yè) url 發(fā)起請(qǐng)求,并獲取網(wǎng)頁(yè)返回的 HTML 頁(yè)面內(nèi)容,由分網(wǎng)站設(shè)置了反爬蟲,反爬蟲的機(jī)制主要是根據(jù)用戶請(qǐng)求標(biāo)頭判斷發(fā)起請(qǐng)求的是爬蟲程序,所以在調(diào)用 requests.get(url)時(shí)使用 key-value 的方式模擬請(qǐng)求頭,并作數(shù)一同傳入。網(wǎng)頁(yè)請(qǐng)求頭示例如圖 3.1 所示。

【參考文獻(xiàn)】:
期刊論文
[1]基于GloVe模型的詞向量改進(jìn)方法[J]. 陳珍銳,丁治明.  計(jì)算機(jī)系統(tǒng)應(yīng)用. 2019(01)
[2]基于卷積神經(jīng)網(wǎng)絡(luò)的隨機(jī)梯度下降算法[J]. 王功鵬,段萌,牛常勇.  計(jì)算機(jī)工程與設(shè)計(jì). 2018(02)
[3]深度學(xué)習(xí)進(jìn)展及其在圖像處理領(lǐng)域的應(yīng)用[J]. 劉涵,賀霖,李軍.  中興通訊技術(shù). 2017(04)
[4]深度學(xué)習(xí)及其在圖像物體分類與檢測(cè)中的應(yīng)用綜述[J]. 劉棟,李素,曹志冬.  計(jì)算機(jī)科學(xué). 2016(12)
[5]基于表示學(xué)習(xí)的中文分詞[J]. 劉春麗,李曉戈,劉睿,范賢,杜麗萍.  計(jì)算機(jī)應(yīng)用. 2016(10)
[6]Word2vec的工作原理及應(yīng)用探究[J]. 周練.  科技情報(bào)開發(fā)與經(jīng)濟(jì). 2015(02)
[7]最大熵和HMM在中文詞性標(biāo)注中的應(yīng)用[J]. 余昕聰,李紅蓮,呂學(xué)強(qiáng).  無線互聯(lián)科技. 2014(11)
[8]大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法綜述[J]. 何清,李寧,羅文娟,史忠植.  模式識(shí)別與人工智能. 2014(04)
[9]深度學(xué)習(xí)的昨天、今天和明天[J]. 余凱,賈磊,陳雨強(qiáng),徐偉.  計(jì)算機(jī)研究與發(fā)展. 2013(09)
[10]基于淺層句法分析的中文語義角色標(biāo)注研究[J]. 王鑫,孫薇薇,穗志方.  中文信息學(xué)報(bào). 2011(01)

博士論文
[1]自然語言處理中序列標(biāo)注模型的研究[D]. 計(jì)峰.復(fù)旦大學(xué) 2012

碩士論文
[1]漢語語義組塊識(shí)別研究[D]. 常若愚.杭州電子科技大學(xué) 2015
[2]機(jī)器學(xué)習(xí)算法及其應(yīng)用研究[D]. 徐藝.湖南大學(xué) 2014



本文編號(hào):3327140

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3327140.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶dcecf***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com