基于社交媒體的藥物不良反應(yīng)檢測
發(fā)布時(shí)間:2021-08-15 01:46
隨著互聯(lián)網(wǎng)的飛速發(fā)展,人們都在用社交媒體來作為知識(shí)分享、傳播以及情感交流的主要平臺(tái),因此在社交媒體的藥物不良反應(yīng)檢測將會(huì)是關(guān)注當(dāng)前人們用藥情況的重要渠道。與此同時(shí),傳統(tǒng)的機(jī)器學(xué)習(xí)在構(gòu)建特征時(shí)較為困難并且有著較弱的遷移性,而卷積神經(jīng)網(wǎng)絡(luò),即CNN,在進(jìn)行空間信息建模時(shí)又存在效率低和空間不敏感的缺點(diǎn)。針對以上問題,文章基于通用文本處理特征和生物醫(yī)學(xué)的專屬特征等,提出一種基于膠囊網(wǎng)絡(luò)和長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)結(jié)合的方法來檢測在社交媒體中的藥物不良反應(yīng)事件,使用的語料集是2017年The Social Media Mining for Health (SMM4H)共享任務(wù)語料集中的數(shù)據(jù),對語料進(jìn)行預(yù)處理后對藥物不良反應(yīng)進(jìn)行標(biāo)記,并且構(gòu)造了分布式詞向量特征、詞性標(biāo)記、字符級(jí)向量特征以及每句話中藥物名和情感詞作為模型的特征輸入,形成對比實(shí)驗(yàn)。解決了在分類過程中特征之間空間關(guān)系缺失和構(gòu)建模型效率低的問題,該實(shí)驗(yàn)結(jié)果與此前先進(jìn)的結(jié)果相比F1值升高了4.2%,證明該方法在檢測社交媒體的藥物不良反應(yīng)事件中是有效的并且具有良好的性能。
【文章來源】:山西大學(xué)學(xué)報(bào)(自然科學(xué)版). 2020,43(01)北大核心
【文章頁數(shù)】:8 頁
【部分圖文】:
系統(tǒng)模塊圖
模型圖
目前,在自然語言處理領(lǐng)域詞向量的表示方法有兩種,分別是傳統(tǒng)的獨(dú)熱表示方法(one-hot representation)和分布式表示方法(Distributed Representation,Embedding)。其中獨(dú)熱表示詞向量方法由高維向量組成,但是存在的問題是忽略了單詞之間是有語義關(guān)系和相似度的。分布式表示方法則是通過訓(xùn)練文本將語言中的每一個(gè)單詞映射到固定長度的向量,然后將這些詞向量形成一個(gè)詞向量空間,通過詞之間在該空間上的距離判斷其相似度,如圖3所示。本文利用Word2Vec[13]工具通過對wiki百科進(jìn)行詞向量的訓(xùn)練,Word2Vec工具具有兩種工作模式,分別是Skip-gram模型和連續(xù)的詞袋模型(CBOW),文中利用CBOW模型進(jìn)行訓(xùn)練,隨機(jī)初始化,然后將單詞或者字詞映射到同一個(gè)坐標(biāo)系下,利用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行特征學(xué)習(xí),得到連續(xù)的數(shù)值向量,因此該向量蘊(yùn)含了豐富的上下文語義信息,對文本分類任務(wù)起著重要作用,其在一定程度上決定分類任務(wù)的上限。具體公式如下所示。本次實(shí)驗(yàn)的窗口C取為5,詞匯表的大小為V,則輸入層可表示為{x1,x2,x3,x4,x5},可以先計(jì)算出隱藏層的輸出見式(2)。
本文編號(hào):3343595
【文章來源】:山西大學(xué)學(xué)報(bào)(自然科學(xué)版). 2020,43(01)北大核心
【文章頁數(shù)】:8 頁
【部分圖文】:
系統(tǒng)模塊圖
模型圖
目前,在自然語言處理領(lǐng)域詞向量的表示方法有兩種,分別是傳統(tǒng)的獨(dú)熱表示方法(one-hot representation)和分布式表示方法(Distributed Representation,Embedding)。其中獨(dú)熱表示詞向量方法由高維向量組成,但是存在的問題是忽略了單詞之間是有語義關(guān)系和相似度的。分布式表示方法則是通過訓(xùn)練文本將語言中的每一個(gè)單詞映射到固定長度的向量,然后將這些詞向量形成一個(gè)詞向量空間,通過詞之間在該空間上的距離判斷其相似度,如圖3所示。本文利用Word2Vec[13]工具通過對wiki百科進(jìn)行詞向量的訓(xùn)練,Word2Vec工具具有兩種工作模式,分別是Skip-gram模型和連續(xù)的詞袋模型(CBOW),文中利用CBOW模型進(jìn)行訓(xùn)練,隨機(jī)初始化,然后將單詞或者字詞映射到同一個(gè)坐標(biāo)系下,利用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行特征學(xué)習(xí),得到連續(xù)的數(shù)值向量,因此該向量蘊(yùn)含了豐富的上下文語義信息,對文本分類任務(wù)起著重要作用,其在一定程度上決定分類任務(wù)的上限。具體公式如下所示。本次實(shí)驗(yàn)的窗口C取為5,詞匯表的大小為V,則輸入層可表示為{x1,x2,x3,x4,x5},可以先計(jì)算出隱藏層的輸出見式(2)。
本文編號(hào):3343595
本文鏈接:http://sikaile.net/yixuelunwen/yiyaoxuelunwen/3343595.html
最近更新
教材專著