當(dāng)前位置：主頁 > 科技論文 > 計(jì)算機(jī)應(yīng)用論文 >

面向領(lǐng)域的實(shí)體識(shí)別與關(guān)系抽取設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間：2021-04-14 05:58

　　隨著互聯(lián)網(wǎng)的不斷發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)的激增,互聯(lián)網(wǎng)中的數(shù)據(jù)包含的信息也開始爆炸式的增長(zhǎng)。如何快捷準(zhǔn)確的從海量數(shù)據(jù)中抽取知識(shí),并將提取的知識(shí)應(yīng)用到各個(gè)領(lǐng)域成為當(dāng)下研究的熱點(diǎn)。目前對(duì)于英文隱含關(guān)系的抽取和實(shí)體識(shí)別有很多研究成果,但中文的研究卻十分欠缺。為此,本文針對(duì)中文研究設(shè)計(jì)了命名實(shí)體識(shí)別和關(guān)系抽取的模型。傳統(tǒng)基于特征的方法較為成熟,且提升空間有限,為了進(jìn)一步提升模型的自動(dòng)化和性能,本文著重研究了基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)的命名實(shí)體識(shí)別模型和關(guān)系抽取模型。本文模型以先進(jìn)的詞向量技術(shù)作為基礎(chǔ),以傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的理論為指導(dǎo),分析、訓(xùn)練、比較了模型的表現(xiàn)效果。本文主要工作包括如下幾個(gè)方面:1.傳統(tǒng)層疊馬爾可夫的命名實(shí)體識(shí)別需要人工總結(jié)實(shí)體領(lǐng)域命名實(shí)體的構(gòu)成規(guī)律。本文結(jié)合詞向量技術(shù),讓模型學(xué)習(xí)命名實(shí)體的構(gòu)成規(guī)律,增加算法的自動(dòng)化程度,減少算法對(duì)先驗(yàn)知識(shí)的依賴,使該算法有更為通用的使用場(chǎng)景,提高其跨領(lǐng)域的使用。2.在關(guān)系抽取任務(wù)中,結(jié)合多種的詞向量、深度學(xué)習(xí)理論構(gòu)建模型。使用transformer,解決一詞多義問題。并使用絕對(duì)位置嵌入和相對(duì)位置嵌入解決網(wǎng)絡(luò)對(duì)語序信息的捕捉。3.構(gòu)建了文本分析...

【文章來源】：電子科技大學(xué)四川省 211工程院校 985工程院校教育部直屬院校

【文章頁數(shù)】：89 頁

【學(xué)位級(jí)別】：碩士

【部分圖文】：

Skip-gram模型的預(yù)測(cè)

袋模,詞典,背景,中心詞

樣的一句話“wherecanIbuyapple.”中，以“buy”作為中心詞，且背 2 時(shí)，連續(xù)詞袋模型關(guān)心的是，給定背景詞“where”、“can”、“I”和“詞“buy”的條件概率，也就是公式 2-6 的內(nèi)容。(` `b uy∣" `` W here" , ``c an" , ``I " , ``a pple " ).詞袋模型的上下文詞語有很多個(gè)，所以將這些背景的詞向量取平用類似于跳子模型的方法來計(jì)算連續(xù)詞袋模型關(guān)注的條件概率。 div 和 diu 分別表示詞典中第 i 個(gè)的詞語的背景詞和中心中心詞cw 在詞典中第 c 個(gè)詞語，背景詞1 2, ,mo ow w 在詞典中位，那么給定背景詞生成中心詞的條件概率是公式 2-7 所展示的內(nèi)1 21 21exp ( )2( , , ) .1exp ( )∣ + + + + mmc o oc o oi o omw w wu v vu v v圖 2-2 cbow 模型的預(yù)測(cè)

示例,詞語,電子科技大學(xué),向量

其中“<電子”,“電子科”，“子科技”，“科技大”，“技大學(xué)”和“大學(xué)>”都 n=3 的子詞，“<電子科技大學(xué)>”是特殊的子詞，它將整個(gè)詞語當(dāng)作子詞，但要區(qū)分的是他的向量不同于“電子科技大學(xué)”的詞向量，而只是作為子詞的向。在 fastText 的訓(xùn)練過程中，對(duì)于每個(gè)單詞都將它所有 n 在 3 到 6 的子詞和殊子詞的用來表示詞語。令某個(gè)詞語切割出來的子詞集和記為w，假設(shè)詞典詞語 g 的向量為gz ,則當(dāng)詞語 w 在跳字模型中時(shí)，他作為中心詞的向量wv ，表為公式 2-10 所示。. ww ggv z(2-1因?yàn)樵谟?jì)算此詞向量時(shí)，fastText 還有子詞向量的計(jì)算，所以在參數(shù)一致訓(xùn)語料相同的情況下 fastText 的時(shí)間復(fù)雜度比 Word2vec 要高上不少。但是通過tText 訓(xùn)練得到的詞向量信息更多，另外對(duì)于一些出現(xiàn)次數(shù)很少的詞語甚至于圖 2-3 子詞的提取示例

本文編號(hào)：3136800

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/shengwushengchang/3136800.html

上一篇：立井剛性罐道故障對(duì)鋼絲繩橫向振動(dòng)的影響研究
下一篇：基于智能鞋墊的運(yùn)動(dòng)動(dòng)作識(shí)別系統(tǒng)設(shè)計(jì)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向領(lǐng)域的實(shí)體識(shí)別與關(guān)系抽取設(shè)計(jì)與實(shí)現(xiàn)