天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計算機應(yīng)用論文 >

面向領(lǐng)域的實體識別與關(guān)系抽取設(shè)計與實現(xiàn)

發(fā)布時間:2021-04-14 05:58
  隨著互聯(lián)網(wǎng)的不斷發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)的激增,互聯(lián)網(wǎng)中的數(shù)據(jù)包含的信息也開始爆炸式的增長。如何快捷準(zhǔn)確的從海量數(shù)據(jù)中抽取知識,并將提取的知識應(yīng)用到各個領(lǐng)域成為當(dāng)下研究的熱點。目前對于英文隱含關(guān)系的抽取和實體識別有很多研究成果,但中文的研究卻十分欠缺。為此,本文針對中文研究設(shè)計了命名實體識別和關(guān)系抽取的模型。傳統(tǒng)基于特征的方法較為成熟,且提升空間有限,為了進一步提升模型的自動化和性能,本文著重研究了基于統(tǒng)計機器學(xué)習(xí)和基于深度學(xué)習(xí)的命名實體識別模型和關(guān)系抽取模型。本文模型以先進的詞向量技術(shù)作為基礎(chǔ),以傳統(tǒng)機器學(xué)習(xí)和深度學(xué)習(xí)的理論為指導(dǎo),分析、訓(xùn)練、比較了模型的表現(xiàn)效果。本文主要工作包括如下幾個方面:1.傳統(tǒng)層疊馬爾可夫的命名實體識別需要人工總結(jié)實體領(lǐng)域命名實體的構(gòu)成規(guī)律。本文結(jié)合詞向量技術(shù),讓模型學(xué)習(xí)命名實體的構(gòu)成規(guī)律,增加算法的自動化程度,減少算法對先驗知識的依賴,使該算法有更為通用的使用場景,提高其跨領(lǐng)域的使用。2.在關(guān)系抽取任務(wù)中,結(jié)合多種的詞向量、深度學(xué)習(xí)理論構(gòu)建模型。使用transformer,解決一詞多義問題。并使用絕對位置嵌入和相對位置嵌入解決網(wǎng)絡(luò)對語序信息的捕捉。3.構(gòu)建了文本分析... 

【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:89 頁

【學(xué)位級別】:碩士

【部分圖文】:

面向領(lǐng)域的實體識別與關(guān)系抽取設(shè)計與實現(xiàn)


Skip-gram模型的預(yù)測

袋模,詞典,背景,中心詞


樣的一句話“wherecanIbuyapple.”中,以“buy”作為中心詞,且背 2 時,連續(xù)詞袋模型關(guān)心的是,給定背景詞“where”、“can”、“I”和“詞“buy”的條件概率,也就是公式 2-6 的內(nèi)容。(` `b uy∣" `` W here" , ``c an" , ``I " , ``a pple " ).詞袋模型的上下文詞語有很多個,所以將這些背景的詞向量取平用類似于跳子模型的方法來計算連續(xù)詞袋模型關(guān)注的條件概率。 div 和 diu 分別表示詞典中第 i 個的詞語的背景詞和中心中心詞cw 在詞典中第 c 個詞語,背景詞1 2, ,mo ow w 在詞典中位,那么給定背景詞生成中心詞的條件概率是公式 2-7 所展示的內(nèi)1 21 21exp ( )2( , , ) .1exp ( )∣ + + + + mmc o oc o oi o omw w wu v vu v v圖 2-2 cbow 模型的預(yù)測

示例,詞語,電子科技大學(xué),向量


其中“<電子”,“電子科”,“子科技”,“科技大”,“技大學(xué)”和“大學(xué)>”都 n=3 的子詞,“<電子科技大學(xué)>”是特殊的子詞,它將整個詞語當(dāng)作子詞,但要區(qū)分的是他的向量不同于“電子科技大學(xué)”的詞向量,而只是作為子詞的向。在 fastText 的訓(xùn)練過程中,對于每個單詞都將它所有 n 在 3 到 6 的子詞和殊子詞的用來表示詞語。令某個詞語切割出來的子詞集和記為w,假設(shè)詞典詞語 g 的向量為gz ,則當(dāng)詞語 w 在跳字模型中時,他作為中心詞的向量wv ,表為公式 2-10 所示。. ww ggv z(2-1因為在計算此詞向量時,fastText 還有子詞向量的計算,所以在參數(shù)一致訓(xùn)語料相同的情況下 fastText 的時間復(fù)雜度比 Word2vec 要高上不少。但是通過tText 訓(xùn)練得到的詞向量信息更多,另外對于一些出現(xiàn)次數(shù)很少的詞語甚至于圖 2-3 子詞的提取示例


本文編號:3136800

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3136800.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶58dfb***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com